如果你用过大语言模型 (LLM) 开发功能, 一定体会过评测的重要性. 让模型生成内容很简单, 真正难的是判断它到底说得对不对. 样例少的时候人工审核还行, 但一旦量大起来, 人手根本跟不上, 这时就需要自动化和可扩展的评测方法了.
有没有什么办法, 既能像人工评估一样细致, 又能自动化处理大批量样本? LLM-as-a-Judge 就是为了解决这个问题而出现的.
这篇文章会带你深入了解 LLM-as-a-Judge 这个新趋势, 主要内容包括:
- 它到底是什么, 为什么值得关注
- 怎么高效落地
- 有哪些局限和应对思路
- 常用的评估工具
最后, 我还会总结一些实用要点, 方便你直接用在自己的 LLM 评测流程中.
什么是 LLM-as-a-Judge
LLM-as-a-Judge, 顾名思义, 就是用一个大语言模型来评价另一个模型的输出. 和给人类评审员评分表一个道理, 你需要提前把评判标准讲清楚, 让"评审员"能有条理地给出分数.
这种方式有不少优点:
- 扩展性强, 速度快: LLM 处理大批量文本毫无压力, 反复测试也很高效, 特别适合需要频繁评测的开发场景.
- 省钱省力: 机器评审能大幅减少人工投入, 对小团队尤其友好.
- 能抓住主观细节: 让模型来评, 能考虑到准确性、相关性、完整性、连贯性、安全性、风格等这些主观维度, 打分更全面.
- 结果稳定: 人评容易受情绪和主观影响, LLM 每次都按同一套标准, 结果更统一, 便于长期跟踪和优化.
- 解释清楚: 评审模型不仅能给分, 还能把自己的推理过程写出来, 方便你回溯和自查.
可能你会问: "让模型评模型, 靠谱吗?" 目前的研究和实践显示: 只要规则设计得当, 效果确实不错.
接下来, 我们就聊聊怎么把"LLM-as-a-Judge"用到实际工作中, 以及其中的一些技术细节.
让"LLM-as-a-Judge"有效运作
我们可以采用一个简单的思维模型来理解LLM评审员系统:

首先,你需要为作为评审的 LLM 设计提示词(Prompt),本质上就是详细说明"评什么"和"怎么评"。此外,还要配置模型参数,比如选择哪种LLM、设置温度、最大token数等。
基于这些提示和配置,当评审LLM 接收到一个或多个待评内容时,可以输出不同类型的评价结果,比如数值评分(如1--5 分制)、对比排序(多条回复从优到劣排序)、文本点评(如对回答好坏的开放式说明)等。通常每次只进行一种评估方式,并需在提示词中明确指定。
可以说,提示词是该系统的核心,因为它直接决定了评审的质量和可靠性。
提示词设计
提示词是将一个通用 LLM 转变为一个高效评估工具的关键。要写好提示词,只需问自己以下六个问题。这些问题的答案,将构成你最终提示词的骨架。让我们逐一来看:
提示词是将通用LLM 转变为高效评估工具的关键。要写好提示词,只需问自己以下六个问题,答案将组成最终的提示内容。具体如下:
问题 1:你的LLM评审员应扮演什么角色
不要只是让LLM "评估某内容",而要为其设定具体的专家身份。例如:
- "你是一位资深的软件工程师,负责代码审查。"
- "你是一位专业的营销文案写手,擅长评估广告语的吸引力。"
通常,角色越具体,评审视角越专业。
问题 2:你到底要评审什么内容
要让评审LLM 明确你希望其评估的内容类型,例如:
- "你将评估一段 Python 代码的质量。"
- "你将评估一个聊天机器人对用户投诉的回复。"
问题 3:你最关注哪些质量维度
明确你希望评审LLM 关注的评价维度,是事实准确性、有用性、连贯性、语气、还是安全性等?这些标准应与业务目标一致。例如:
- "请从以下三个方面进行评估:1. 准确性 2. 简洁性 3. 礼貌程度。"
建议控制在3-5个维度,否则会分散评审重点。
问题 4:LLM评审员应如何打分
这部分提示决定了评审LLM 的评分方式。根据需求可采用不同方法:
- 单项评分 :让评审LLM 针对每个维度按1-5或1-10分量表打分。例如: "请针对每个质量维度为该回复打1-5分。"
- 对比排序 ::让评审LLM 比较两条(或多条)回复,判断哪一条整体或某一维度更优。例如: "比较回复A和B,哪一个更有帮助且事实更准确?"
- 二元标签 :让评审LLM 对回复进行分类,如正确/错误、相关/无关、通过/未通过、安全/不安全等。例如: "判断该回复是否达到我们的最低质量标准。"
问题 5:你应为LLM评审员提供什么评分标准和示例
明确的评分标准和具体示例是保证LLM评审一致性和准确性的关键。
评分标准要描述不同分数对应的表现,例如,在"连贯性"方面,什么样算 5 分,什么样算 3 分。这给了 LLM 一个稳定的评判标准。
为了让评分标准更具可操作性,最好附上带分数的示例回复。这就是"少样本学习(few-shot learning)",已被证明能大幅提升LLM输出的可靠性和一致性。
以下是一个针对电商平台AI 生成商品描述的"实用性"评分标准(1-5分)的示例:
- 5分:描述信息丰富、具体、结构清晰,突出产品关键特性、优势和应用场景,用户易于理解产品价值。
- 4分:大致有用,涵盖了大部分特性和应用,但可能遗漏细节或略有重复。
- 3分:基本有用,涉及主要特性但缺乏深度,未能解答常见用户疑问。
- 2分:略有用,内容模糊或泛泛而谈,缺乏实质信息,用户仍有重要疑问未解答。
- 1分:无用,描述误导、无关或几乎没有有用信息。
示例描述:
"这款时尚背包适合各种场合,容量大,设计新潮。"
评分:3分
说明: 虽然语气友好、语言流畅,但缺乏具体细节。没有提及材质、尺寸、应用场景或实用功能(如分隔层、防水等)。描述基本合格但不够深入,属于评分标准中的"3分"水平。
问题 6:你需要什么样的输出格式
提示词最后要明确输出格式。如果你希望评估结果供人工审核,那么自然语言的解释通常就足够了。除了分数,还可要求评审LLM 简要说明理由。
但如果评审结果需自动化处理或展示在仪表板上,则应采用结构化格式(如JSON),便于程序解析各个字段:
请以 JSON 格式输出你的评估结果,包含以下字段:'score' (分数),'explanation' (评分理由),以及 'tone_score' (语气评分)。
json
{
"score": 4,
"tone_score": 5,
"explanation": "回复清晰有吸引力,涵盖了大部分关键信息,语气得体."
}
除了上述要点,实际应用中还有两点经验值得注意:
- 明确的推理指令: 你可以指示 LLM 评估员"一步一步思考",或在给出结论前先输出推理过程。这类"思维链 (chain-of-thought)"技巧能提升评审准确性和透明度。
- 不确定性处理: 遇到内容含糊或上下文不足时,应明确指示LLM评审员如何处理,比如"如无法核实事实,请标记为'未知'"。这些情况可交由人工进一步审核,能有效避免模型自信但错误的评分。
以上就是提示词设计的核心要点。最后用一个简明清单来快速回顾一下:
✅ 你的 LLM 评估员是谁?(角色)
✅ 你在评估什么内容?(上下文)
✅ 哪些质量维度最重要?(评估维度)
✅ 回答应该如何评分?(方法)
✅ 用什么评分标准和示例来指导评分?(标准)
✅ 你需要什么样的输出格式?(结构)
✅ 你是否加入了逐步推理的指令?是否考虑了如何处理不确定性?
应该选择哪种LLM
要让LLM 评审员方法落地,另一个关键问题是选择哪种LLM 模型。通常有两条路径:采用大型前沿模型,或使用小型专有模型。
对于大多数通用任务,像GPT-4o、Claude 4、Gemini-2.5这样的前沿大模型在评审结果上与人类更为一致,也能更好地理解复杂、详细的评审提示(如前文所述的那些)。因此,它们通常是LLM评审员的首选。
但调用这些大型模型的API往往意味着高延迟、高成本(尤其是在大批量评审时),更重要的是,数据需要被发送到第三方。
为了解决上述问题,通常采用基于Llama(Meta)、Phi(微软)、Qwen(阿里巴巴)等开源模型在特定评估数据上进行微调的版本。 最终,选择哪种模型取决于你的具体场景和约束。一般建议先用大型LLM建立质量基线,再尝试用微调的小模型在延迟、成本或数据安全等方面做优化。
回归现实:局限性及应对策略
和所有新技术一样,LLM 评审员也并非完美无缺。它虽有诸多优势,但也存在一致性、偏见等问题,需要重点关注,本节将详细讨论这些局限。
一致性问题
LLM 本质上是概率模型。这意味着即使是同一个LLM 评审员,在相同指令下多次运行,输出的评分或解释可能不同。这会影响评审结果的可复现性和可信度。
可以通过多种方法提升LLM 评审员的一致性。例如,在提示词中提供更多示例评审是一种有效缓解手段,但这会增加推理 token 消耗。还可以调整LLM 的temperature 参数,通常建议设置较低值,以获得更确定性的输出。
偏见问题
偏见是LLM 评审员在实际应用中的主要顾虑之一。和所有LLM一样,评审员也容易受到多种偏见影响,常见有:
- 位置偏见:有研究发现,LLM 评审员在对比评分时容易偏好提示中排在前面的回复,比如在两两对比时常常无视质量而偏向第一条。
- 自我偏好:部分LLM 会更高评价自己或同家族模型生成的输出。
- 冗长偏见:LLM 评审员往往偏爱更长的回复,这在需要简洁或短文本更优的场景下会带来困扰。
- 固有偏见:LLM 评审员会继承训练数据中的偏见,这些偏见可能体现在对特定观点、语气或群体特征的偏好上。
那么,如何应对这些偏见?可以采用以下策略:
首先,优化提示词 。尽量明确评审标准,减少隐性偏见影响。可以在提示词中要求"仅依据事实准确性评分,不考虑回复长度或排列顺序"。
其次,在少样本提示中加入多样化的示例,保证LLM 评审员评价更公正。
对于位置偏见,可采用双向评估法,即A对B和B对A分别评审,再取平均结果,可显著提升公平性。
最后,要持续优化。完全消除偏见很难,最佳做法是精心构建测试集对LLM 评审员进行压力测试,基于结果不断优化提示词和评审流程,反复迭代。
过度自信
大家都见过LLM "自信但错误"的情况。这种特性在担任评审员时同样存在。如果评审结果直接被自动化流程采纳,虚假的自信很容易被忽视,导致令人困惑的结论。
为此,可以在提示词中明确要求"如信息不足,请标记为'无法判断'"。也可以在结构化输出中增加置信度字段,暴露不确定性。这些边缘案例可交由人工进一步复核。
实用工具
如果你想使用LLM-as-a-Judge 方法,可以选择多种开源工具和商业产品。
在开源领域,主要有以下工具:
- OpenAI Evals(github.com/openai/eval... :用于评估LLM及其系统的框架,并包含开源评测基准库。
- DeepEval(github.com/confident-a... :易用的LLM评估框架,适用于RAG流程、聊天机器人、AI代理等系统的测试,类似Pytest但专为LLM输出单元测试设计。
- TruLens(github.com/truera/trul... :系统地评估和追踪 LLM 实验。核心功能包括反馈函数、RAG 三元组以及诚实、无害和有用的评估。
- Promptfoo(github.com/promptfoo/p... :面向开发者的本地测试工具,支持对提示词、智能体、RAG等进行测试,并可进行红队测试、渗透测试和漏洞扫描。
- LangSmith(docs.smith.langchain.com/evaluation/... :LangChain(知名LLM应用开发框架)提供的评估工具,支持使用"LLM-as-a-judge"评估器进行离线和在线评估。
如果你更喜欢托管服务,也有商业产品可供选择。例如:Amazon Bedrock 模型评估、Azure AI Foundry/MLflow 3、Google Vertex AI 评估服务、Evidently AI、Weights & Biases Weave 和 Langfuse。
总结
在这篇文章中,我们探讨了"LLM-as-a-Judge":它是什么、为什么值得关注、如何有效运作、它的局限性和缓解策略、有哪些可用工具。
最后,我想分享两点:
第一,不要执着于"绝对完美"的评估结果,更应关注持续、一致、可操作的反馈,从而推动实际改进。
第二,LLM-as-a-Judge并不消除人工判断的必要性,只是将人工介入点前置到评审流程设计、测试用例构建、偏见管理和评审员持续监控等环节。
参考文献
1\] Mastering AI quality: How we use language model evaluations to improve large language model output quality, Webflow Blog. \[2\] LLM-as-a-judge: a complete guide to using LLMs for evaluations, Evidently AI.