李某 · 评测报告
岗位:AI 产品经理 · 提交于 2026-06-17
72
综合分 / 100
虚线 = 进面阈值 65 分
推荐进面(重点验证薄弱轴)
能力七维
- AI 产品 UX 直觉60
- 数据与反馈闭环68
- Prompt 迭代70
- 规格与失败模式75
- Eval 设计78
- 模型选型82
- 问题框定88
🎯 建议面试追问(针对薄弱轴自动生成)
让不懂 AI 的面试官也能问到点子上,并现场验证作品真实性。
- 你在 T2 提出 copilot 草稿模式——如果客服为了省事直接一键发送未经核对的草稿,你会用什么产品机制防止错误回复扩散?
- T3 你提到『去年生日』这类模糊时间判断有风险,现实中保修判定错误会引发投诉。你会让模型直接判,还是引入确定性规则?为什么?
- 你的数据闭环用『草稿采纳率/编辑距离』衡量——这个指标在什么情况下会误导你认为模型变好了,其实变差了?
逐题明细与证据
t1-cs-eval
客观 8176/100
- L4Eval 维度完整性
覆盖准确·安全·可执行·语气并区分主次权重,把安全设为否决项。
证据:“安全性…这是否决项,最高权重”
- L3可量化/可自动化
区分了可半自动校验与需人评,但未给具体判据阈值。
证据:“准确性和安全性可半自动化校验,语气需人工或 LLM 抽检”
- L4安全意识
明确识别编造与越权,并设为最高权重否决项。
证据:“在信息不足时倾向编造(B)”
- L3失败模式洞察
抽象出『信息不足→编造/拒答』系统模式并给优先级,但未谈成因。
证据:“应优先修复编造问题”
t2-framing-spec
84/100
- L4问题框定/wedge
选了 copilot 草稿这一最窄高价值 wedge,并划出赔偿/责任不该用 AI。
证据:“不要一上来做全自动回复…copilot 模式”
- L4模型选型权衡
分环节选型:Haiku 做分类、Sonnet 做草稿,含低置信转人工降级。
证据:“分类与摘要(Haiku)…生成草稿(Sonnet)”
- L3规格质量
输入输出护栏兜底北极星齐全,但北极星只有 AHT,未含质量护栏指标。
证据:“北极星指标=客服平均处理时长下降%”
- L3数据与反馈闭环
有采纳率/编辑距离与冷启动方案,但未提防指标欺骗。
证据:“人工编辑作为持续反馈样本”
- L4落地现实感
贴合预算有限、快速见效、30 人客服的真实约束。
证据:“低置信样本路由给人工”
t3-prompt-iter
客观 6770/100
- L4Eval 驱动迭代
每版改动都对应具体错例(warranty 猜测)并预期影响,闭环清晰。
证据:“v3 发现没提购买时间也被填 true/false”
- L3Prompt 工程功底
用了枚举约束+few-shot+规则,但只给 1 个 few-shot 例、缺边界样例。
证据:“加入枚举约束和分类规则”
- L4剩余风险判断
准确预判歧义类别与模糊时间边界两类隐藏集易错点。
证据:“吸力变小既非电源也非噪音”