吴恩达：构建自动化评估并不需要大量投入，从一些简单快速的示例入手，然后逐步迭代！

吴恩达老师又来信了。

这次他分享了一个重要观点：构建自动化评估并不需要大量投入。从一些简单快速的示例入手，然后逐步迭代！

以下是我对原文的翻译：

亲爱的朋友们：

我注意到，许多生成式 AI 应用项目在系统输出的自动化评估（evals）方面投入得较晚，团队往往更长时间依赖人工检查和判断输出。这主要是因为大家普遍认为，构建评估体系是一项巨大的前期投入（例如需要创建 100 或 1000 个样本，并设计和验证评估指标），总是难以找到合适的时机来承担这笔成本。因此，团队更倾向于依赖人工评判，而不是花时间搭建自动化评估体系。

对此，我建议大家将评估体系的建设视为一个持续迭代的过程。完全可以先做一个简单的原型（比如只用 5 个样本，指标也不完善），然后逐步完善。这样可以让评估的负担逐渐从人工转向自动化。

我曾经写过关于创建评估体系的重要性和挑战。比如，你正在开发一个能够用自然语言回复用户的客服机器人。由于没有唯一正确答案，许多团队每次系统更新后都要让人工反复检查几十个输出样本，以判断系统是否有提升。虽然像"让大模型充当评委"这样的技术很有帮助，但要用好它们（比如如何设计提示词、给评委多少上下文等）其实很有讲究。这些因素都让大家觉得，构建自动化评估体系需要很大的前期投入。

其实，完全可以先做一个只覆盖部分维度、不完整、甚至有噪声的评估体系，然后逐步完善。它们可以作为人工评估的补充，而不是替代。随着时间推移，你可以不断调整评估方法，让它的输出结果越来越接近人工判断。例如：

可以只用很少的样本集（比如 5 个），然后逐步增加；如果发现某些样本太简单或太难、不利于区分系统版本，也可以删掉它们。
可以先只评估你关心的某一部分性能，或者只衡量一些你认为与整体表现相关但并不完全等同的细节。比如，在某个对话节点，你的客服机器人应该（1）调用 API 退款，（2）给用户生成合适的回复。你可以先只评估它是否正确调用了 API，而不管回复内容。又比如，某个节点机器人应该推荐某个产品，你可以先只看它是否提到了该产品，而不管具体怎么说。

只要评估体系的输出和整体表现有相关性，起步时只衡量部分内容是完全可以接受的。

因此，开发过程其实包含两个可以并行进行的迭代循环：

针对系统本身迭代，让它在自动化评估和人工判断的共同衡量下不断提升；
针对评估体系迭代，让它的结果越来越贴近人工判断。

和 AI 领域的许多事情一样，我们往往第一次做不会就做对。所以，最好是先快速搭建一个端到端的系统，然后再不断完善。我们已经习惯了用这种方式开发 AI 系统，评估体系也可以这样做。

对我来说，一个成功的评估体系应满足以下标准。假设你有系统 A，想通过调整得到系统 B：

如果 A 明显优于 B（由有经验的人工评委判断），评估体系也应给 A 明显高于 B 的分数；
如果 A 和 B 表现相近，评估分数也应相近。

每当系统 A 和 B 的人工判断与评估体系的结果相矛盾时，这就是评估体系的"错误"，我们就应该调整它，让它能正确区分 A 和 B。这和机器学习算法的错误分析类似，只不过我们关注的是评估体系的"错误"------比如它错误地对比了两个系统的优劣，导致无法帮助我们做出选择。

完全依赖人工判断是项目初期的好方法。但对许多团队来说，尽早做一个原型评估体系并不断迭代，可以让你更早地用上自动化评估，从而加快进展。

继续加油！

Andrew（吴恩达）

原文链接：We Iterate on Models. We Can Iterate on Evals, Too

如果觉得文章对你有帮助，👏 欢迎点赞、分享、推荐。

欢迎关注，一起学习 AI。