吴恩达:构建自动化评估并不需要大量投入,从一些简单快速的示例入手,然后逐步迭代!

吴恩达老师又来信了。

这次他分享了一个重要观点:构建自动化评估并不需要大量投入。从一些简单快速的示例入手,然后逐步迭代!

以下是我对原文的翻译:


亲爱的朋友们:

我注意到,许多生成式 AI 应用项目在系统输出的自动化评估(evals)方面投入得较晚,团队往往更长时间依赖人工检查和判断输出。这主要是因为大家普遍认为,构建评估体系是一项巨大的前期投入(例如需要创建 100 或 1000 个样本,并设计和验证评估指标),总是难以找到合适的时机来承担这笔成本。因此,团队更倾向于依赖人工评判,而不是花时间搭建自动化评估体系。

对此,我建议大家将评估体系的建设视为一个持续迭代的过程。完全可以先做一个简单的原型(比如只用 5 个样本,指标也不完善),然后逐步完善。这样可以让评估的负担逐渐从人工转向自动化。

我曾经写过关于创建评估体系的重要性和挑战。比如,你正在开发一个能够用自然语言回复用户的客服机器人。由于没有唯一正确答案,许多团队每次系统更新后都要让人工反复检查几十个输出样本,以判断系统是否有提升。虽然像"让大模型充当评委"这样的技术很有帮助,但要用好它们(比如如何设计提示词、给评委多少上下文等)其实很有讲究。这些因素都让大家觉得,构建自动化评估体系需要很大的前期投入。

其实,完全可以先做一个只覆盖部分维度、不完整、甚至有噪声的评估体系,然后逐步完善。它们可以作为人工评估的补充,而不是替代。随着时间推移,你可以不断调整评估方法,让它的输出结果越来越接近人工判断。例如:

  • 可以只用很少的样本集(比如 5 个),然后逐步增加;如果发现某些样本太简单或太难、不利于区分系统版本,也可以删掉它们。
  • 可以先只评估你关心的某一部分性能,或者只衡量一些你认为与整体表现相关但并不完全等同的细节。比如,在某个对话节点,你的客服机器人应该(1)调用 API 退款,(2)给用户生成合适的回复。你可以先只评估它是否正确调用了 API,而不管回复内容。又比如,某个节点机器人应该推荐某个产品,你可以先只看它是否提到了该产品,而不管具体怎么说。

只要评估体系的输出和整体表现有相关性,起步时只衡量部分内容是完全可以接受的。

因此,开发过程其实包含两个可以并行进行的迭代循环:

  • 针对系统本身迭代,让它在自动化评估和人工判断的共同衡量下不断提升;
  • 针对评估体系迭代,让它的结果越来越贴近人工判断。

和 AI 领域的许多事情一样,我们往往第一次做不会就做对。所以,最好是先快速搭建一个端到端的系统,然后再不断完善。我们已经习惯了用这种方式开发 AI 系统,评估体系也可以这样做。

对我来说,一个成功的评估体系应满足以下标准。假设你有系统 A,想通过调整得到系统 B:

  • 如果 A 明显优于 B(由有经验的人工评委判断),评估体系也应给 A 明显高于 B 的分数;
  • 如果 A 和 B 表现相近,评估分数也应相近。

每当系统 A 和 B 的人工判断与评估体系的结果相矛盾时,这就是评估体系的"错误",我们就应该调整它,让它能正确区分 A 和 B。这和机器学习算法的错误分析类似,只不过我们关注的是评估体系的"错误"------比如它错误地对比了两个系统的优劣,导致无法帮助我们做出选择。

完全依赖人工判断是项目初期的好方法。但对许多团队来说,尽早做一个原型评估体系并不断迭代,可以让你更早地用上自动化评估,从而加快进展。

继续加油!

Andrew(吴恩达)

原文链接:We Iterate on Models. We Can Iterate on Evals, Too

如果觉得文章对你有帮助,👏 欢迎点赞、分享、推荐。

欢迎关注,一起学习 AI。

相关推荐
字节跳动数据库36 分钟前
文章分享——相似函数处理方法
人工智能·后端·程序员
Bigfish_coding36 分钟前
前端转agent-【python】-12 LangChain 入门实战:RAG + LCEL 链式调用
人工智能
程序员cxuan1 小时前
读懂 Claude Code 架构分析系列,第一篇,开始!
人工智能·后端·架构
饼干哥哥1 小时前
扣子3.0测评:我让 Codex 和 Claude Code 住同一个桌面,结果它们打架了!
人工智能·开源·代码规范
老梁agent2 小时前
MCP 协议实战:用标准化方式让 Agent 调用工业工具
物联网·agent·mcp
Token炼金师2 小时前
IP-Adapter:解耦交叉注意力如何让扩散模型看见图像
人工智能
Bigfish_coding2 小时前
前端转agent-【python】-11 LangGraph 高级特性:时间旅行与人工介入
人工智能
Token炼金师2 小时前
从safetensors到像素:ComfyUI Checkpoint加载机制的底层拆解
人工智能
AI闲人2 小时前
AI 写代码越来越快,为什么 Code Review 反而更慢了?
人工智能·code review·ai 编程
user4465117917912 小时前
从任务树到自我修正:XAgent Plan 数据结构与 Agent 协作机制
agent