李某 · 评测报告

岗位:AI 产品经理 · 提交于 2026-06-17

72
综合分 / 100
问题框定88Eval 设计78Prompt 迭代70模型选型82规格与失败模式75数据与反馈闭环68AI 产品 UX 直觉60

虚线 = 进面阈值 65 分

推荐进面(重点验证薄弱轴)

能力七维

  • AI 产品 UX 直觉60
  • 数据与反馈闭环68
  • Prompt 迭代70
  • 规格与失败模式75
  • Eval 设计78
  • 模型选型82
  • 问题框定88

🎯 建议面试追问(针对薄弱轴自动生成)

让不懂 AI 的面试官也能问到点子上,并现场验证作品真实性。

  1. 你在 T2 提出 copilot 草稿模式——如果客服为了省事直接一键发送未经核对的草稿,你会用什么产品机制防止错误回复扩散?
  2. T3 你提到『去年生日』这类模糊时间判断有风险,现实中保修判定错误会引发投诉。你会让模型直接判,还是引入确定性规则?为什么?
  3. 你的数据闭环用『草稿采纳率/编辑距离』衡量——这个指标在什么情况下会误导你认为模型变好了,其实变差了?

逐题明细与证据

t1-cs-eval

客观 8176/100
  • L4Eval 维度完整性

    覆盖准确·安全·可执行·语气并区分主次权重,把安全设为否决项。

    证据:“安全性…这是否决项,最高权重”

  • L3可量化/可自动化

    区分了可半自动校验与需人评,但未给具体判据阈值。

    证据:“准确性和安全性可半自动化校验,语气需人工或 LLM 抽检”

  • L4安全意识

    明确识别编造与越权,并设为最高权重否决项。

    证据:“在信息不足时倾向编造(B)”

  • L3失败模式洞察

    抽象出『信息不足→编造/拒答』系统模式并给优先级,但未谈成因。

    证据:“应优先修复编造问题”

t2-framing-spec

84/100
  • L4问题框定/wedge

    选了 copilot 草稿这一最窄高价值 wedge,并划出赔偿/责任不该用 AI。

    证据:“不要一上来做全自动回复…copilot 模式”

  • L4模型选型权衡

    分环节选型:Haiku 做分类、Sonnet 做草稿,含低置信转人工降级。

    证据:“分类与摘要(Haiku)…生成草稿(Sonnet)”

  • L3规格质量

    输入输出护栏兜底北极星齐全,但北极星只有 AHT,未含质量护栏指标。

    证据:“北极星指标=客服平均处理时长下降%”

  • L3数据与反馈闭环

    有采纳率/编辑距离与冷启动方案,但未提防指标欺骗。

    证据:“人工编辑作为持续反馈样本”

  • L4落地现实感

    贴合预算有限、快速见效、30 人客服的真实约束。

    证据:“低置信样本路由给人工”

t3-prompt-iter

客观 6770/100
  • L4Eval 驱动迭代

    每版改动都对应具体错例(warranty 猜测)并预期影响,闭环清晰。

    证据:“v3 发现没提购买时间也被填 true/false”

  • L3Prompt 工程功底

    用了枚举约束+few-shot+规则,但只给 1 个 few-shot 例、缺边界样例。

    证据:“加入枚举约束和分类规则”

  • L4剩余风险判断

    准确预判歧义类别与模糊时间边界两类隐藏集易错点。

    证据:“吸力变小既非电源也非噪音”