Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena

指令微调后的模型不一定在传统Benchmark上取得更好的结果,类似MMLU和HELM。根据人类爱好对齐后的模型,需要新的评测方法。

文章提出了两个主要内容:MT-bench和Chatbot Arena

MT-bench是一系列开放式问题,用于评估聊天机器人的多回合对话和指令遵循能力------这是人类偏好的两个关键因素。MT-bench还精心构建,根据其核心能力(如推理和数学)区分聊天机器人。

此外,我们还开发了聊天机器人竞技场(Chatbot Arena),这是一个众包平台,可以让聊天机器人在真实场景中进行匿名战斗------用户可以同时与两个聊天机器人进行对话,并根据个人偏好对它们的反应进行评分。

并且发现了模型评测存在的些许问题:位置偏见,冗长偏见,自我增强偏见,和有限的推理能力

MT-Bench

现有的评估方式一般有三种

  1. 核心知识benchmark:有固定的回答,可以自动校验
  2. 指令跟随:是稍微开放性的问题
  3. 聊天benchmark:问题多样性,复杂、开放。

MT-bench:80条多轮对话,总共8个类别:写作、角色扮演、提取、推理、数学、编码、知识I (STEM)和知识II(人文/社会科学)。每一个类里有10条多轮对话。

Chatbot-arena

匿名对战平台,让不同的模型对一个输入进行回答,选择哪一个更好。

LLM-as-a-judge

三种评估模式:

  1. 成对比较:给大模型一个问题两个回答,选择哪一个更好,或者平局。
  2. 单回答评分:直接给出一个分数。
  3. 参考指导评分:给样例,按照样例模式给分。

advantage

可扩展,可解释

limitations

  1. position bias:大模型可能倾向于放在前面的样例,或者某些位置的样例。
  2. verbosity bias:大模型更倾向于冗长的回复
  3. self-enhancement bias:大模型更倾向于自己生成的回答
  4. Limited capability in grading math and reasoning questions:难以评价数学和推理问题

address limitations

  1. 交换位置,两次评分
  2. few-shot
  3. 思维链+先生成参考答案,指导思考
  4. 微调一个判断模型

多轮对话评估

  1. 分多次输入多轮对话的评估
  2. 一次输入全部对话评估

作者发现2更好

Agreement Evaluate

作者评估了在MT-bench和Chatbot Arena上,人类和LLM判官之间的一致性。

MT-bench

在6个大模型上问了这80个问题,然后使用两种评价:

  1. 58个专家评价
  2. LLM评价

人类和GPT-4模型的高度一致

GPT-4的两两比较和单一答案评分显示与人类专家的一致性非常高。GPT-4与人类在设置S2 (w/o tie)下的一致性达到85%,甚至高于人类之间的一致性(81%)。这意味着GPT-4的判断与大多数人类密切一致。不沦是comparison还是single score,都能给出不错的答案。

相关推荐
sp_fyf_20241 小时前
【大语言模型】ACL2024论文-35 WAV2GLOSS:从语音生成插值注解文本
人工智能·深度学习·神经网络·机器学习·语言模型·自然语言处理·数据挖掘
AITIME论道1 小时前
论文解读 | EMNLP2024 一种用于大语言模型版本更新的学习率路径切换训练范式
人工智能·深度学习·学习·机器学习·语言模型
明明真系叻2 小时前
第二十六周机器学习笔记:PINN求正反解求PDE文献阅读——正问题
人工智能·笔记·深度学习·机器学习·1024程序员节
88号技师4 小时前
2024年12月一区SCI-加权平均优化算法Weighted average algorithm-附Matlab免费代码
人工智能·算法·matlab·优化算法
IT猿手4 小时前
多目标应用(一):多目标麋鹿优化算法(MOEHO)求解10个工程应用,提供完整MATLAB代码
开发语言·人工智能·算法·机器学习·matlab
88号技师4 小时前
几款性能优秀的差分进化算法DE(SaDE、JADE,SHADE,LSHADE、LSHADE_SPACMA、LSHADE_EpSin)-附Matlab免费代码
开发语言·人工智能·算法·matlab·优化算法
2301_764441334 小时前
基于python语音启动电脑应用程序
人工智能·语音识别
HyperAI超神经4 小时前
未来具身智能的触觉革命!TactEdge传感器让机器人具备精细触觉感知,实现织物缺陷检测、灵巧操作控制
人工智能·深度学习·机器人·触觉传感器·中国地质大学·机器人智能感知·具身触觉
galileo20164 小时前
转化为MarkDown
人工智能
说私域5 小时前
私域电商逆袭密码:AI 智能名片小程序与商城系统如何梦幻联动
人工智能·小程序