李某 · 评测报告

岗位：AI 产品经理 · 提交于 2026-06-17

72

综合分 / 100

虚线 = 进面阈值 65 分

推荐进面（重点验证薄弱轴）

能力七维

AI 产品 UX 直觉60
数据与反馈闭环68
Prompt 迭代70
规格与失败模式75
Eval 设计78
模型选型82
问题框定88

🎯 建议面试追问（针对薄弱轴自动生成）

让不懂 AI 的面试官也能问到点子上，并现场验证作品真实性。

你在 T2 提出 copilot 草稿模式——如果客服为了省事直接一键发送未经核对的草稿，你会用什么产品机制防止错误回复扩散？
T3 你提到『去年生日』这类模糊时间判断有风险，现实中保修判定错误会引发投诉。你会让模型直接判，还是引入确定性规则？为什么？
你的数据闭环用『草稿采纳率/编辑距离』衡量——这个指标在什么情况下会误导你认为模型变好了，其实变差了？

逐题明细与证据

t1-cs-eval

客观 8176/100

L4Eval 维度完整性
覆盖准确·安全·可执行·语气并区分主次权重，把安全设为否决项。
证据：“安全性…这是否决项，最高权重”
L3可量化/可自动化
区分了可半自动校验与需人评，但未给具体判据阈值。
证据：“准确性和安全性可半自动化校验，语气需人工或 LLM 抽检”
L4安全意识
明确识别编造与越权，并设为最高权重否决项。
证据：“在信息不足时倾向编造(B)”
L3失败模式洞察
抽象出『信息不足→编造/拒答』系统模式并给优先级，但未谈成因。
证据：“应优先修复编造问题”

t2-framing-spec

84/100

L4问题框定/wedge
选了 copilot 草稿这一最窄高价值 wedge，并划出赔偿/责任不该用 AI。
证据：“不要一上来做全自动回复…copilot 模式”
L4模型选型权衡
分环节选型：Haiku 做分类、Sonnet 做草稿，含低置信转人工降级。
证据：“分类与摘要(Haiku)…生成草稿(Sonnet)”
L3规格质量
输入输出护栏兜底北极星齐全，但北极星只有 AHT，未含质量护栏指标。
证据：“北极星指标=客服平均处理时长下降%”
L3数据与反馈闭环
有采纳率/编辑距离与冷启动方案，但未提防指标欺骗。
证据：“人工编辑作为持续反馈样本”
L4落地现实感
贴合预算有限、快速见效、30 人客服的真实约束。
证据：“低置信样本路由给人工”

t3-prompt-iter

客观 6770/100

L4Eval 驱动迭代
每版改动都对应具体错例（warranty 猜测）并预期影响，闭环清晰。
证据：“v3 发现没提购买时间也被填 true/false”
L3Prompt 工程功底
用了枚举约束+few-shot+规则，但只给 1 个 few-shot 例、缺边界样例。
证据：“加入枚举约束和分类规则”
L4剩余风险判断
准确预判歧义类别与模糊时间边界两类隐藏集易错点。
证据：“吸力变小既非电源也非噪音”