Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena

指令微调后的模型不一定在传统Benchmark上取得更好的结果，类似MMLU和HELM。根据人类爱好对齐后的模型，需要新的评测方法。

文章提出了两个主要内容：MT-bench和Chatbot Arena

MT-bench是一系列开放式问题，用于评估聊天机器人的多回合对话和指令遵循能力------这是人类偏好的两个关键因素。MT-bench还精心构建，根据其核心能力(如推理和数学)区分聊天机器人。

此外，我们还开发了聊天机器人竞技场(Chatbot Arena)，这是一个众包平台，可以让聊天机器人在真实场景中进行匿名战斗------用户可以同时与两个聊天机器人进行对话，并根据个人偏好对它们的反应进行评分。

并且发现了模型评测存在的些许问题：位置偏见，冗长偏见，自我增强偏见，和有限的推理能力

现有的评估方式一般有三种

MT-bench：80条多轮对话，总共8个类别：写作、角色扮演、提取、推理、数学、编码、知识I (STEM)和知识II(人文/社会科学)。每一个类里有10条多轮对话。

匿名对战平台，让不同的模型对一个输入进行回答，选择哪一个更好。

三种评估模式：

可扩展，可解释

作者发现2更好

Agreement Evaluate

作者评估了在MT-bench和Chatbot Arena上，人类和LLM判官之间的一致性。

在6个大模型上问了这80个问题，然后使用两种评价：

GPT-4的两两比较和单一答案评分显示与人类专家的一致性非常高。GPT-4与人类在设置S2 (w/o tie)下的一致性达到85%，甚至高于人类之间的一致性(81%)。这意味着GPT-4的判断与大多数人类密切一致。不沦是comparison还是single score，都能给出不错的答案。