如何用大模型评估大模型——PAI-Judge裁判员大语言模型的实现简介

背景:为什么需要一个「裁判员大语言模型」?

随着大模型(LLM)技术的爆发式应用,如何快速、客观评估模型回复质量成为行业痛点。对于回答客观问题的LLM,目前业内已经有比较成熟的数据集进行效果评测与模型打榜。但是如何对一个开放式生成LLM进行效果评估,尤其在知识问答、客服对话、内容合规、RAG(检索增强生成)等场景中,目前主流的评测方式仍存在一定的局限性:

  1. 人工标注:成本高昂、效率低下;
  2. 传统的自动化评估工具:往往局限于单一指标(如BLEU、ROUGE),缺乏一个全面且多维度的评估体系;同时,对于一些没有明确答案的生成式问题,该方法局限性较大;
  3. 综合性大模型:虽然具备广泛的通用能力,但在特定垂类任务(如评估回复质量)上的表现可能不够精细。同时,使用综合性大模型评估LLM回复,可能存在有潜在法务风险、价格昂贵、时间成本高、使用门槛高等问题;

针对以上LLM评测过程中遇到的问题与局限性,阿里云人工智能平台PAI推出PAI-Judge裁判员大模型,为用户构建符合应用场景的多维度、细粒度的评测体系,支持单模型评测和双模型竞技两种模式,允许用户自定义评分标准、评分流程、生成温度等参数,实现了准确,灵活,高效的模型自动化评测,为模型迭代优化提供数据支撑。

核心优势

效果概览

截止2025年3月,基于QWen大模型finetune的裁判员模型PAI-Judge系列,在真实业务场景数据集上,与直接使用高阶通用大模型(如QwenMax、GPT-4o、Deepseek-v3)做裁判员模型相比,在中文场景中,综合效果明显优于GPT-4o与Deepseek-v3,与效果最好的QwenMax表现几乎相当。尤其在回答确定性/数学类问题、角色扮演、创意文体写作、翻译等场景下**,**PAI-Judge系列模型表现优异,可以直接用于大模型的评估与质检。

应用场景与用户反馈

自PAI-Judge上线以来,主要涉及:信息抽取、情感辨别、语音助手回复、私域知识问答(包含RAG)、内容合规审核等真实场景的打分与评测。同时,裁判员模型支持自然语言与json两种输出格式,且支持中英文两种任务语言。用户反馈PAI-Judge的评测效果可以与行业内的多个头部大模型比肩。

成本与请求效率

PAI-Judge是专门针对评测场景设计的大语言模型,与业内一流大模型相比,PAI-Judge的参数量更小、评测效率更高,具有明显的价格优势。目前限时推广,每个阿里云账号开通即可赠送100万免费Token

快速试用通道

登录PAI控制台(pai.console.aliyun.com/?#/ai-servi...

单击立即开通,然后按照控制台操作指引,开通模型服务

评测示例

如果对试用结果满意,想直接使用PAI-Judge进行评测,可参考文章最后的裁判员模型API使用教程

评测效果分析

评估集

**** AlignBench数据集 pairwise数据集
数据集描述 在线聊天服务的真实问题与具有挑战性的问题,通过4-5个不同的大模型回复,得到的问答对,再由多人人工标注而得到。 现实生活中的真实问题与回答,包括语音助手的多轮对话、代码类问题的回复对比、通用知识问答等,数据标签由多人人工标注得到。
评估模式 单模型评测模式(single) 双模型竞技模式(pairwise)
数据量 3393 1939

场景分类

PAI-Judge的场景共分成10类,基本可覆盖LLM领域涉及的全部问题场景。同时,用户也可以在使用时自行定义更加符合自身业务需要的场景与场景描述。

场景名 场景描述
回答数学类问题 解答一个涉及数学、计算、推理等方面的问题,该问题有标准/参考答案
回答确定性问题 解答一个可能涉及专业知识或现实世界查询的确定性问题,如历史事实或科学定律,该问题有标准/参考答案
回答开放性问题 开放交流类指令,通常为询问一个开放领域问题,回复也是开放式的,如闲聊、咨询建议、寻求推荐等
文本改写 包含文本简化、语言优化、按照指令重写文本、文本纠错、文本摘要和扩展等
创意文体写作 以表达个性化想象和情感为主的写作,注重文学性和原创性,如创作散文、诗歌、歌词、剧本、故事、演讲材料、社交媒体帖子、博客、广告营销素材、头脑风暴等
信息与专业写作 旨在传递关键信息和专业知识的写作,重在内容的准确性、可靠性和权威性,涵盖从实用的电子邮件、求职申请、产品描述、用户手册等到深入的学术论文、医学研究、法律意见书等,以及工程设计、行业分析、经济预测等复杂文件等
翻译 将给定文本在不改变原意的基础上翻译成另一种语言
阅读理解与信息提取 阅读理解材料并在材料基础上完成指令任务,如问答、摘要、抽取关键词、抽取主题、生成标题、事实检查等
角色扮演 假装成一个特定的人、角色、职业或身份,并在此基础上完成指令中的任务
代码生成修改与分析 与计算机代码相关的任务,包括根据需求实现代码、代码修改优化、编程语言转换、分析代码并回复相关问题、软件开发辅助、教育与学习等

评测效果

指标定义

单模型评测模式
  • ** MAE(mean absolute error)**:模型评分与人工标注的绝对差异平均 ⬇️
  • Agr(2,2):模型评分与人工标注2阶2次一致率,评分相同权重为1,相差1权重为0.25,分母为样本数量 ⬆️
双模型竞技模式
  • MAE (mean absolute error):模型评分与人工标注的绝对差异平均 ⬇️
  • Acc(accuracy):模型评分与人工标注的重合概率⬆️

整体效果对比

| **** | pairwise | | alignbench |
|----------------|--------------|-----------|----------------|--------------------|
| **** | MAE⬇️ | Acc⬆️ | MAE⬇️ | **Agr(2,2)**⬆️ |
| Pai-Judge-Plus | 0.32 | 0.73 | 0.69 | 0.59 |
| QwenMax | 0.36 | 0.70 | 0.68 | 0.59 |
| GPT-4o | 0.63 | 0.51 | 0.74 | 0.55 |
| Deepseek_V3 | 0.63 | 0.47 | 0.68 | 0.56 |

  • 在双模型竞技的pairwise数据集中,PAI-Judge的表现非常优异;
  • 在单模型评测的alignbench数据集中,PAI-Judge的表现与效果最好的大模型不相上下;

场景实践

截至2025年3月,PAI-Judge已在多个领域实现规模化应用,涵盖信息抽取、情感分析、语音助手回复优化、私域知识问答(含RAG架构)以及内容合规审核等场景。为更直观地展示裁判员模型的评测能力,并深入挖掘其应用价值,我们精选了以下典型场景进行详细解析。

检索增强生成(RAG)

该RAG场景为针对某智能手机的客服机器人回复,主要涉及手机本身的问题回答,涉及多国语言,包括小语种。

问答对示例
question 换电池要拆手机吗?
answer 是的,更换电池通常需要拆开手机。例如,在【某智能手机系列】的维修指导中提到,为了更换电池,首先需要将手机关机并取下SIM卡托,然后将手机放在加热平台上加热5分钟,之后使用专门的工具来拆开电池盖[5]。这表明更换电池的过程确实涉及到拆卸手机的操作。因此,如果需要更换电池,一般情况下是需要拆开手机的。
评测prompt建议
params suggestion
scene RAG,即检索增强型生成
scene_desc 利用检索技术从外部信息源获取参考文本,然后通过生成模型整合这些信息,以生成高质量和相关性强的答案。该方法适用于需要大量信息整合和动态更新的查询场景,如复杂分析和最新知识整合
metric 真实性(faithfulness):对比答案、参考文本,判断答案是否可以从参考文本中得到(不要使用自己的知识库)。 正确性(correctness):对比问题、答案、参考文本,基于参考文本判断所给的答案是否正确回答了问题。 相关性(relevancy):对比问题、参考文本,判断参考文本里的内容足够回答问题。
ref_answer 在此输入参考答案。若无参考答案,则需要在自定义prompt中手动增加"参考文档"一项,并输出retrieval文档块
max_score 2
score_desc 1 不符合标准或背离标准 2 基本符合或完全符合标准

注:以上参数的使用与自定义prompt的使用方式请参考文章最后的裁判员模型API使用教程

信息提取

该场景为根据一段新闻内容,输出新闻分类,或根据广告内容,输出广告营销策略名,并涉及规范化输出判别。

问答对示例
question 【任务描述】 请判断以下新闻属于软文广告新闻、财经新闻、其他新闻中的哪一类。请按照以下json格式输出结果: {"新闻分类": ""} 【待分析内容】 ... 02月21日在投资者关系平台上答复了投资者关心的问题。投资者:公司是否应该跟大股东...(省略新闻内容)... 请根据【任务描述】针对【待分析内容】进行分析,给出结果
answer json<br/>{"新闻分类": "财经新闻"}<br/>
评测prompt建议
params suggestion
scene 阅读理解与信息提取
scene_desc 阅读理解材料并在材料基础上完成指令任务,如问答、摘要、抽取关键词、抽取主题、生成标题、事实检查等
metric 正确性:回答应与给定上下文中的信息严格对应,正确无误地响应问题,并且与参考答案表达的信息相同
ref_answer 在此输入参考答案。
max_score 2
score_desc 1 回复存在明显缺陷,未能达到预期标准或基本要求,不应被采纳 2 回复符合要求,达到了预期标准,可以被采纳
steps 1. 回忆相关的智能助手回复标准,并仔细阅读、理解参考答案与待评估回复 2. 严格按给定标准评估,不要增加任何标准

注:以上参数的使用方式请参考文章最后的裁判员模型API使用教程

未来规划

未来我们将会对PAI-Judge的功能与模型进行优化与迭代,主要包括以下几个方向:

  1. 参考Deepseek-R1,引入强化学习与R1模型,提升PAI-Judge在完全自定义模板上的指令遵循度(正在进行内部测试);
  2. 重点提升模型在私域知识库与专业领域场景下的评测精度。

使用教程

请参考:

裁判员模型概述:help.aliyun.com/zh/pai/user...

裁判员模型API使用说明:help.aliyun.com/zh/pai/user...

人工智能平台PAI:pai.console.aliyun.com/?#/ai-servi...

相关推荐
代码骑士25 分钟前
集成学习(Ensemble Learning)基础知识2
人工智能·机器学习·集成学习
Y1nhl3 小时前
搜广推校招面经五十五
人工智能·python·深度学习·机器学习·广告算法·推荐算法·搜索算法
IT古董12 小时前
【漫话机器学习系列】145.软间隔支持向量机(SVM)中的松弛变量(Slack Variable In Soft-margin SVM)
算法·机器学习·支持向量机
“逛丢一只鞋”13 小时前
【智能体】| 知识库、RAG概念区分以及智能体是什么
人工智能·深度学习·机器学习
HR Zhou13 小时前
群体智能优化算法-灰狼优化算法(Grey Wolf Optimizer, GWO,含Matlab源代码)
人工智能·算法·机器学习·matlab·优化·群体智能优化
HR Zhou14 小时前
群体智能优化算法-模拟退火优化算法(Simulated Annealing, SA,含Matlab源代码)
人工智能·算法·机器学习·matlab·优化·模拟退火算法·群体智能优化
Luis Li 的猫猫14 小时前
机器学习--卷积神经网络原理及MATLAB回归实现
人工智能·算法·机器学习·matlab·cnn
代码骑士16 小时前
集成学习(Ensemble Learning)基础知识1
人工智能·机器学习·集成学习
yuanpan16 小时前
机器学习中说的正向传递和反向传递是什么意思
人工智能·机器学习