AI时代的PM核心竞争力正在被重新定义——Eval(评估体系)成为产品经理的新战场。本文深度整合 OpenAI 、 Anthropic 、 meta 等顶尖AI公司的最佳实践,揭秘如何构建有效的AI评估系统,从 Dataset 设计到三种评分器的选择策略,手把手教你将模糊的产品需求转化为可量化的 质量指标 。

作为一个技术背景有限的产品经理,我的第一反应是三个问题: Eval 到底是什么?别人是怎么做的?轮到我的 AI 项目,该怎么从零开始建?

在找答案的过程中,我读了不少材料,其中几份质量很高,值得单独拎出来说:

Anthropic 今年 1 月发了一篇《Demystifying Evals for AI Agents》,里面不光有方法论,还有大量他们在 Claude Code 等产品上踩过的真实坑。

Meta 的 PM Daniel McKinnon 写了一篇《Show, Don’t Tell》,从 Llama 团队内部的视角讲了一个 PM 怎么动手写 Eval,非常接地气。他有一句话让我印象很深:别给建模团队发 PRD 了,直接给他们一个 Eval。

Braintrust 连发了两篇——《Evals Are the New PRD》和《Evals for PMs》,把”Eval 取代 PRD”这件事讲得很系统,还给出了一个 PM 可以直接参考的每周工作节奏。

Hamel Husain 教过 700 多名工程师和 PM 做 Eval,他把学员们问得最多的问题整理成了一份 FAQ,很多观点很犀利——比如”如果你的 Eval 通过率 100%,说明你的 Eval 太简单了”。

此外还参考了 OpenAI 的官方评测文档和 arXiv 上关于 Agent-as-Judge 的论文。

我把这些材料里和产品经理最相关的部分提炼了出来,按照一个刚接触 Eval 的 PM 会自然产生的问题串起来,写成了这篇文章。全文围绕十个问题展开:

Eval 是什么?

这事跟 PM 有什么关系?

一个 Eval 由什么组成?

三种评分器怎么选?

拿到一个 AI 产品,怎么从 0 到 1 建Eval?

Eval 建好了,然后呢?

不同类型的 AI 产品,Eval 有什么不同?

AI 每次结果都不一样,Eval 分数还有意义吗?

有哪些常见的坑?

Eval 除了保质量,还能干嘛?

可以说这篇文章综合了 Anthropic、OpenAI、Meta、Braintrust、Hamel Husain 等多方最佳实践。 文中每一个具体的观点、案例和建议,都标注了来自哪份材料,方便你去看原文。

第一个问题:Eval 是什么?

Eval,全称 Evaluation,说白了就是 给 AI 出考试题,然后自动阅卷 。

你准备一组输入(模拟用户会怎么问、怎么操作),设好判断标准(什么样的回答算好),把输入丢给 AI,拿输出和标准对一下,出个分。这件事本身并不复杂。复杂的是怎么出好题、怎么定好标准、怎么让这套系统持续运转起来。

为什么需要这个东西?因为 AI 产品和传统软件有一个根本区别。

传统软件的逻辑是确定的。你写了一个按钮,点一下就提交表单,每次都一样。你可以写一条测试:”点了提交,表单发出去了没?”通过就是通过,失败就是失败。

AI 不是这样。同一个输入,你今天问一遍和明天问一遍,答案可能不一样。”质量好不好”这件事是主观的,边缘情况多到数不清。传统那套”手动检查几个 case”的方式,在 AI 产品面前就像拿渔网接水——漏得一塌糊涂。

所以你需要一套能自动跑、能反复跑、能覆盖几百个场景的测试系统。这就是 Eval。

第二个问题:这事跟 PM 有什么关系?

OpenAI 的 CPO Kevin Weil 和 Anthropic 的 CPO Mike Krieger,两家最顶尖 AI 公司的产品负责人,说过几乎一模一样的话:写 Eval 是 AI 时代 PM 最重要的能力。

为什么是 PM 的事,不是工程师的事?

因为 Eval 的核心不是技术实现, 而是 定义”什么算好”——这是一个产品判断。 你是那个最清楚用户在乎什么、哪些边缘情况重要、什么质量可以接受的人 。工程师能帮你搭 Eval 的基础设施,但”出什么题、怎么评分”这件事,应该由 PM 来定。

Meta 的 PM Daniel McKinnon 说得很直接:当合作团队想让 Llama 做某件事,他的回复是”别给我发 PRD 了,直接给我一个 Eval。”因为 Eval 本身就是最精确的需求描述——它定义了什么算好、什么算不好,而且可以立刻跑, McKinnon的博客文章)。

传统的产品开发流程是:发现问题 → 写 PRD → 出设计 → 排开发 → 上线。你在 PRD 里写”模型回复应该简洁有用”——”简洁”到什么程度?”有用”怎么衡量?这句话对工程师来说等于什么都没说。而且模型一更新行为就可能变,你的 PRD 还没改呢,产品已经不一样了。

发现问题 → 写 Eval 来定义”好”的标准 → 团队针对 Eval 做优化 → 上线 。

你给工程师的指令从”请把这个做好”变成了”请让这个分数上去”。

第三个问题:一个 Eval 由什么组成?

搞清楚 Eval 的三个组件,是 PM 做这件事的起点。

1. Dataset(数据集)—— “考试题”

你要测试 AI 的那组输入。需要覆盖三类: 你的产品绝对不能搞砸的核心场景、不常见但踩到就出大事的边缘情况 、你已经知道 AI 犯过错的地方 。

很多人觉得得准备几百道题才能开始。不用。Hamel Husain 教过 700 多个工程师和 PM 做 Eval,他的建议更直接:找一个最懂你用户的人,花 30 分钟看 20-50 条 AI 的真实输出,

2. Task(任务)—— “考试规则”

这个词在 Eval 的语境里不是指”做一件事”,而是指 “这道题怎么考”——用哪个模型、用什么 Prompt(提示词)、参数怎么设、要不要调用外部工具。Task 定义的是从”输入进去”到”输出出来”的整个执行过程。

如果 Dataset 是试卷上的题目,Task 就是”这次考试的规则”——开卷还是闭卷、能不能用计算器、考多长时间。

PM 不需要自己写代码搭 Task。但你得知道当前 Task 里用的是什么模型、Prompt 是怎么写的,并且能上手改改 Prompt 的措辞——这往往是影响产品质量最直接的变量。

3. Scorer(评分器)—— “阅卷标准”

定义”怎么判断好坏”。这是 PM 在 Eval 里最核心的活儿。

最重要的原则:”好”不是一个整体,它是好几个维度拼起来的。每个维度要单独打分。

比如你做了一个 AI 客服。一条”好”的回复需要同时做到:回答准确、态度有温度、不啰嗦、符合公司规定。如果你把这四件事揉成一个总分,就很容易出现一种荒谬的结果:语气优化上去了,但准确率掉下来了,你还不知道。所以每个维度一个 Scorer,

那 Scorer 有哪几种?这就引出了下一个问题。

第四个问题:谁来”阅卷”?三种 Scorer 怎么选?

Eval 里有三种 Scorer,搞明白它们各自擅长什么、什么时候该用哪种,是 PM 的基本功。

代码评分器(Code-based Scorer):非黑即白

最简单的一种。用确定性的代码逻辑来判。回复里有没有包含某个关键词?长度超没超限?生成的代码能不能跑?数据库里是不是真的多了一条记录?

好处是快、便宜、结果稳定。坏处是死板——AI 如果用了你没想到的方式把事情做对了,它可能会误判成”错”。

AI 评分器(LLM-as-Judge):让另一个 AI 来打分

你先写一份评分标准(Rubric),然后让另一个 AI 按标准来给被测 AI 的输出打分。适合那些代码没法判的模糊场景——比如回复有没有同理心、语气是否专业、是不是在胡编乱造。

一,给 AI 阅卷老师一个”不确定”的选项。如果它信息不够,允许它说”我判断不了”,别让它硬凑一个分数出来。

二,每个维度用单独一个 AI 来打分,别让一个 AI 同时判所有维度。你让一个人同时改数学和作文,质量肯定不如分开改。

三,定期校准。光让 AI 打分不管不行,隔段时间要拿人类专家的判断来对一下,看 AI 的打分有没有跑偏。

人类评分器(Human Grader):金标准,但也最坑

让真人来审——领域专家、训练过的标注员。质量当然最靠谱,但贵、慢,而且有一个大部分人都不知道的坑。

你安排三个标注员做一道二选一的题。结果两个人选了 A,一个选了 B。你可能觉得 66% 一致,还行。实际上不是。

你得看每一对标注员之间是不是一致:

1 和 2:都选了 A,一致 ✓

1 和 3:一个 A 一个 B,不一致 ✗

2 和 3:一个 A 一个 B,不一致 ✗

三对里只有一对一致,实际一致率是 33%。而如果纯靠蒙,随机一致率都有 50%。你的 33% 甚至还不如瞎猜。

如果你要做人类评测,判断标准必须写到极其精确以确保 Inter-annotator Agreement(标注员间一致性),否则等于白做。

小结:三种 Scorer 怎么组合

Anthropic 总结成一句话: 能用代码判的用代码,需要灵活性时用 AI,人类只用于验证和校准。

Hamel Husain 还有一个补充建议: 用通过/不通过的二分法 ,别用 1-5 分。1-5 分制下不同人对”3 分”和”4 分”的理解差距太大,噪音太多。二分法反而逼着你把”什么算过”定义清楚。

第五个问题:拿到一个 AI 产品,怎么从 0 到 1 建 Eval?

现在假设你是一个 PM,面前有一个 AI 产品——可能是个 客服 机器人、可能是个写作助手、可能是个代码生成工具——你需要从零开始给它建 Eval。怎么走?

以下步骤综合了 Anthropic、Braintrust 和 Hamel Husain 的建议。

第一步:别等”准备好”,现在就开始

最常见的借口是”我的 Dataset 还没准备好”。别等了。

Anthropic 的原话:Eval 拖得越久越难建。早期阶段产品需求天然就能转化成测试题,但等你的系统已经在线上跑了很久,再回头补 Eval,

Hamel Husain 的建议更极端: 先花 30 分钟手动看 20-50 个 AI 输出,用一个最懂你用户的人作为质量裁判 ——他管这个人叫”Benevolent Dictator(仁慈的独裁者)”。

第二步:把你已经在手动干的事情变成 Eval

你每次发版之前,是不是都会手动试几个 case 看看效果?把这些 case 写下来,就是你的第一批 Dataset。

如果产品已经在跑了,去翻 bug 记录和客服工单。用户真实报过的问题是最好的 Eval 素材。按影响面从大到小排个序就行。

第三步:把”好用”拆成几个可以打分的信号

来看一个具体例子。

你需要把它拆成几个具体的、可以打分的信号(这个例子来自 Braintrust 和 McKinnon 的文章):

信号一:格式对不对? 食材应该放前面,步骤放后面。→ 可以让一个 LLM-as-Judge 拿着”正确格式”的示例来对比打分。

信号三:步骤写得够不够简短好读? → 可以直接统计每句话的字数(Code-based),也可以让 LLM-as-Judge 参考好写法和差写法来对比评分。

三个信号,三个 Scorer,分别打分。你不再跟工程师说”把食谱做好一点”,而是说”让这三个分数往上走”。

这就是 PM 在 Eval 里最核心的工作: 把模糊的产品需求翻译成具体的、可衡量的评分维度。

第四步:写好题目——别有歧义

Anthropic 总结了一条判断标准: 一道好的 Eval 题,独立给出一样的通过/失败判断。

他们举了一个真实教训:审查 Terminal-Bench(一个编程基准测试)时发现,有一道题要求 AI 写一个脚本,但没指定文件存在哪。而 Scorer 默认脚本在某个特定路径下。结果 AI 脚本写对了,但因为放的位置不对被判失败——这不是 AI 的错,是题出得有漏洞。

一个实用的验证方法:给每道题写一个你知道一定对的”标准答案”(Reference Solution)。如果标准答案都过不了你自己的 Scorer,那是 Scorer 有 bug。

他们在实操中还遇到过更离谱的事:Claude Opus 4.5 在一个叫 CORE-Bench 的评测里一开始只得了 42 分。后来一个 Anthropic 的研究员去细查,发现一堆问题——Scorer 太死板(模型回答 “96.12” 但 Scorer 要求精确到 “96.124991…” 才算对)、有些题意思模糊、还有些随机任务根本没法精确复现。

第五步:正反两面都得测

只测”AI 应该做 X”的场景,会训出一个对什么都做 X 的 AI。

Anthropic 在给 Claude.ai 做搜索功能的 Eval 时吃过这个亏。一开始他们只测了”应该搜索”的场景——比如”今天北京天气怎么样”。结果模型学到了一个错误策略:对几乎所有问题都先搜一下。但像”苹果公司是谁创立的”这种常识题根本不需要搜索,搜了反而更慢。他们后来加上了”不应该搜索”的场景,才在两个方向之间找到平衡。

第六步:评结果,不评过程

很多人的直觉是去检查 AI 有没有按”正确的步骤”做事——比如是不是按顺序调用了工具 A、工具 B、工具 C。

Anthropic 说这条路走不通。AI 经常找到你压根没想到的正确路径,如果你只认自己设计好的那条路,等于在惩罚创造力。

打个比方:你点了个外卖,你在乎的是菜对不对、好不好吃、准时不准时。骑手走哪条路,你管不了也不用管。

这一条 Anthropic 反复强调,内部把它当作 AI 产品开发 的关键技能。

不要只看分数。你得点开那些失败的 case,很多时候你会发现,不是 AI 做错了,是你的 Scorer 拒绝了一个实际上挺好的方案。

他们专门投了资源做查看 Transcript 的工具,团队成员定期花时间读。这个习惯帮他们抓到了大量 Scorer 自身的 bug。

第六个问题:Eval 建好了,然后呢?

到这里,你已经有了第一个可以跑的 Eval。但 Eval 不是一锤子买卖,

分析(Analyze) : 在日志里找规律。什么场景在出问题?哪类用户碰到的问题最多?

转化成 Eval(Evaluate) : 发现了失败模式,就加进 Dataset 里。每一次线上翻车,都是一道新的考试题。

改进(Improve) : 团队针对更新后的 Eval 做优化,发布改进,回到第一步。

这个循环跑起来之后会越转越快:更多的线上数据养出更好的 Eval,更好的 Eval 逼出更好的 AI,更好的 AI 带来更好的体验,更好的体验带来更多用户和数据。

你的用户其实一直在”出题”,只是你可能没收:一个差评 = 一道新题;用户编辑了 AI 输出 = 一份”标准答案”;用户对着同一个需求换了三种说法问 = 一个你还没覆盖到的场景。

飞轮的四个成熟度等级

零档:靠感觉。 手动试几个、凭直觉判断、等用户来投诉。

一档:有考试但不常考。 有了一些测试题和标准,大版本发布前跑一遍。

二档:自动化。 Eval 接进了 CI/CD 流程,质量不过关的版本自动被拦下来。

三档:飞轮转起来了。 线上的失败案例自动变成新的 Eval 题目,系统每周都在变好。

到第三档的团队,竞争优势是能积累的。大多数团队应该瞄准这一档。

两种 Eval 的区别

飞轮运转的过程中,你会自然遇到两种不同性质的 Eval:

Capability Eval(能力评测)——爬山。 回答的问题是” AI 还能多做好什么新的事 “。通过率从低开始,给团队一座要爬的山。比如你的客服 AI 目前只能处理简单退款,你加入了”处理复杂的跨境退货”这种新题——一开始通过率可能只有 30%,随着优化逐步提升。

Regression Eval(回归评测)——守城 。 回答的问题是” AI 还能不能做好它以前会做的事 “。通过率应该接近 100%,掉了就说明改坏了什么东西。

Anthropic 讲了一个”毕业”机制:当一个 Capability Eval 的通过率稳定在高位之后,

但也要注意 Eval Saturation(评测饱和)的问题——通过率到 100% 之后,这个 Eval 对改进就没有指引作用了。代码审查公司 Qodo 一开始对 Opus 4.5 不太满意,因为他们用的 Eval 太简单,没有覆盖到模型在复杂长任务上的进步。后来换了一套更难的 Eval,

一个参考的 PM 周节奏

周一:翻线上 Transcript,标记 20 条有问题的 AI 输出。

周二:从里面挑出 5 个最典型的,加进 Dataset。

周三:用更新后的 Eval 跑一遍当前方案和候选改进方案,对比。

周四:看结果。好了还是差了?哪个维度提升了,哪个退步了?数据决定发不发。

周五:飞轮又多转了一圈。

第七个问题:不同类型的 AI 产品,Eval 有什么不同?

对话类(客服、销售、教练……)

所以它的 Eval 通常是多维度的:工单有没有关掉(Code-based Scorer)、对话轮数有没有超过上限(Code-based Scorer)、语气有没有同理心(LLM-as-Judge)、有没有按政策办事(LLM-as-Judge 或 Code-based)。

另外,对话类 Eval 经常需要让一个 AI 来扮演用户。你总不能每次测试都找真人来聊。Anthropic 在对齐审计项目中就是这么做的——用一个 AI 模拟各种用户角色来跟被测 AI 对话。

从人工打分起步,逐步迁移到 LLM-as-Judge,再加上定期人类校准。现在维护着两套 Eval——一套管质量基准,一套管 Regression。

真实案例:Bolt.new 是等产品已经有大量用户之后才开始做 Eval 的。三个月内搭好了一套系统:用静态分析给代码打分,用浏览器 Agent 来测试生成的 app 能不能用,用 LLM-as-Judge 来评估指令遵循的质量。

代码的 Eval 相对省心,因为”对不对”有天然的判断标准:能跑吗?测试过了吗?

行业里最主流的基准测试 SWE-bench Verified 就是这个思路——给 AI 一个真实的 GitHub issue,让它修,过了就算对。一年之内,前沿模型在这个测试上的得分从 40% 涨到了 80% 以上。

但只看”跑没跑通”不够。你可能还想看代码质量、安全隐患、AI 过程中有没有做多余的事。这些就需要加上 LLM-as-Judge 或静态分析工具。

这一类最难做 Eval,因为”什么算好”本身就没有唯一答案。做市场调研、做收购尽调、写科学报告——每种”好”的标准都不一样。

第八个问题:AI 每次跑出来的结果都不一样,Eval 分数还有意义吗?

这是做 Eval 一定会碰到的问题。同一道题,AI 这次做对了下次可能做错。那分数到底能说明什么?

pass@k:k 次里至少成功一次。 k 越大分越高。 适合”只要有一次做对就行”的场景——比如代码生成,只要有一个方案能跑通就够了。

pass^k:k 次全部成功。 k 越大分越低。 适合用户期望每次都靠谱的场景——比如客服,用户不在乎你”平均成功率 90%”,他在乎的是这一次能不能帮到他。

如果你的 AI 单次成功率是 75%,让它连续做对 3 次的概率只有 0.75 × 0.75 × 0.75 ≈ 42%。

第九个问题:有哪些常见的坑?

在做 Eval 这件事上,踩过坑的人不少。提前知道能省很多时间。

别试图衡量”AI 聪不聪明” 。 那是 MMLU、GPQA 这些学术基准该干的活。McKinnon 明确说过:创建那种基准是”昂贵的研究级挑战”。

别拿来别人的 Eval 直接用。 McKinnon 反复叮嘱:再有名的开源基准也可能有错。拿到任何 Eval 之后,第一件事是手动抽几个样本看看结果合不合理。他在团队用的很多 Eval 里都发现过错误,

别只在发版的时候跑一次 。 跑一次的 Eval 不是质量体系,只是一次抽检。模型在变、数据在漂移、新的边缘情况在冒出来。Eval 得持续跑。

别盯着分数不看业务 。 Hamel Husain 有一个判断标准:如果你的 Eval 通过率 100%,大概率说明 Eval 太简单了。

别用脏环境跑 Eval 。 Anthropic 发现过 Claude 在 Eval 里偷看上一轮试验残留的 git 记录来”作弊”的情况。每次跑试验必须从干净的环境开始,

第十个问题:Eval 除了保质量,还能干嘛?

很多团队做了 Eval 之后发现,它的价值远不止”确保质量”。

模型切换变快了 。 每隔一两个月就有更强的模型出来。没有 Eval 的团队要花好几周手动测试。有 Eval 的团队跑一遍就知道新模型哪些方面更强、哪些退步了,Anthropic 说过,

产品和研发之间有了共同语言 。 Anthropic 的原话是 Eval 可以成为”产品和研究团队之间最高带宽的沟通渠道”——它定义了研究者可以优化的具体指标,

更多人可以参与改进 A I。 Anthropic 说”最接近用户和产品需求的人最适合定义成功标准”。PM、客户成功、甚至销售都可以贡献 Eval 用例。

如果你今天只能做一件事,那就是: 选你产品里的一个 AI 功能,找 10 条真实的用户输入,自己判一下 AI 的回答哪条好、哪条不好。

Anthropic: Demystifying Evals for AI Agents

OpenAI: Evaluation Best Practices

OpenAI Cookbook: Getting Started with OpenAI Evals

Hamel Husain: LLM Evals – Everything You Need to Know

Braintrust: Evals Are the New PRD

Braintrust: Evals for PMs

Daniel McKinnon (Meta PM): Show, Don’t Tell

arXiv: Agent-as-Judge

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。

本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。