吴恩达:构建自动化评估并不需要大量投入,从一些简单快速的示例入手,然后逐步迭代!

吴恩达老师又来信了。

这次他分享了一个重要观点:构建自动化评估并不需要大量投入。从一些简单快速的示例入手,然后逐步迭代!

以下是我对原文的翻译:


亲爱的朋友们:

我注意到,许多生成式 AI 应用项目在系统输出的自动化评估(evals)方面投入得较晚,团队往往更长时间依赖人工检查和判断输出。这主要是因为大家普遍认为,构建评估体系是一项巨大的前期投入(例如需要创建 100 或 1000 个样本,并设计和验证评估指标),总是难以找到合适的时机来承担这笔成本。因此,团队更倾向于依赖人工评判,而不是花时间搭建自动化评估体系。

对此,我建议大家将评估体系的建设视为一个持续迭代的过程。完全可以先做一个简单的原型(比如只用 5 个样本,指标也不完善),然后逐步完善。这样可以让评估的负担逐渐从人工转向自动化。

我曾经写过关于创建评估体系的重要性和挑战。比如,你正在开发一个能够用自然语言回复用户的客服机器人。由于没有唯一正确答案,许多团队每次系统更新后都要让人工反复检查几十个输出样本,以判断系统是否有提升。虽然像"让大模型充当评委"这样的技术很有帮助,但要用好它们(比如如何设计提示词、给评委多少上下文等)其实很有讲究。这些因素都让大家觉得,构建自动化评估体系需要很大的前期投入。

其实,完全可以先做一个只覆盖部分维度、不完整、甚至有噪声的评估体系,然后逐步完善。它们可以作为人工评估的补充,而不是替代。随着时间推移,你可以不断调整评估方法,让它的输出结果越来越接近人工判断。例如:

  • 可以只用很少的样本集(比如 5 个),然后逐步增加;如果发现某些样本太简单或太难、不利于区分系统版本,也可以删掉它们。
  • 可以先只评估你关心的某一部分性能,或者只衡量一些你认为与整体表现相关但并不完全等同的细节。比如,在某个对话节点,你的客服机器人应该(1)调用 API 退款,(2)给用户生成合适的回复。你可以先只评估它是否正确调用了 API,而不管回复内容。又比如,某个节点机器人应该推荐某个产品,你可以先只看它是否提到了该产品,而不管具体怎么说。

只要评估体系的输出和整体表现有相关性,起步时只衡量部分内容是完全可以接受的。

因此,开发过程其实包含两个可以并行进行的迭代循环:

  • 针对系统本身迭代,让它在自动化评估和人工判断的共同衡量下不断提升;
  • 针对评估体系迭代,让它的结果越来越贴近人工判断。

和 AI 领域的许多事情一样,我们往往第一次做不会就做对。所以,最好是先快速搭建一个端到端的系统,然后再不断完善。我们已经习惯了用这种方式开发 AI 系统,评估体系也可以这样做。

对我来说,一个成功的评估体系应满足以下标准。假设你有系统 A,想通过调整得到系统 B:

  • 如果 A 明显优于 B(由有经验的人工评委判断),评估体系也应给 A 明显高于 B 的分数;
  • 如果 A 和 B 表现相近,评估分数也应相近。

每当系统 A 和 B 的人工判断与评估体系的结果相矛盾时,这就是评估体系的"错误",我们就应该调整它,让它能正确区分 A 和 B。这和机器学习算法的错误分析类似,只不过我们关注的是评估体系的"错误"------比如它错误地对比了两个系统的优劣,导致无法帮助我们做出选择。

完全依赖人工判断是项目初期的好方法。但对许多团队来说,尽早做一个原型评估体系并不断迭代,可以让你更早地用上自动化评估,从而加快进展。

继续加油!

Andrew(吴恩达)

原文链接:We Iterate on Models. We Can Iterate on Evals, Too

如果觉得文章对你有帮助,👏 欢迎点赞、分享、推荐。

欢迎关注,一起学习 AI。

相关推荐
神的泪水1 小时前
CANN 系列底层篇:基于 shmem 实现 NPU 设备内存的高效共享
人工智能
皮卡丘不断更1 小时前
手搓本地 RAG:我用 Python 和 Spring Boot 给 AI 装上了“实时代码监控”
人工智能·spring boot·python·ai编程
浪子小院1 小时前
ModelEngine 智能体全流程开发实战:从 0 到 1 搭建多协作办公助手
大数据·人工智能
程序员打怪兽1 小时前
详解YOLOv8网络结构
人工智能·深度学习
Yuer20251 小时前
全国首例“AI 幻觉”侵权案判了:这不是 AI 准不准的问题,而是谁该为 AI 负责
人工智能·edca os·可控ai
JaguarJack2 小时前
OpenClaw 最新保姆级飞书对接指南教程 搭建属于你的 AI 助手
ai·clawdbot·openclaw
一切尽在,你来2 小时前
1.1 AI大模型应用开发和Langchain的关系
人工智能·langchain
prog_61032 小时前
【笔记】思路分享:各种大模型免费当agent后台
笔记·大语言模型·agent·cursor
Coder_Boy_2 小时前
基于Spring AI的分布式在线考试系统-事件处理架构实现方案
人工智能·spring boot·分布式·spring
x-cmd2 小时前
[260207] x-cmd 更新 v0.8.0:Kimi、豆包、智谱全集结!薅到摩尔线程试用后,帮你秒接入 Claude code!
ai·x-cmd·kimi·zhipu·摩尔线程·doubao·claude-code