本文是LLM系列文章，针对《Holistic Evaluation of Language Models》的翻译。

语言模型的整体评价

摘要
[1 引言](#1 引言)
[2 前言](#2 前言)
[3 核心场景](#3 核心场景)
[4 一般指标](#4 一般指标)
[5 有针对性的评估](#5 有针对性的评估)
[6 模型](#6 模型)
[7 通过提示进行调整](#7 通过提示进行调整)
[8 实验和结果](#8 实验和结果)
[9 相关工作和讨论](#9 相关工作和讨论)
[10 缺失](#10 缺失)
[11 不足和未来工作](#11 不足和未来工作)
[12 结论](#12 结论)

摘要

语言模型（LM）正在成为几乎所有主要语言技术的基础，但它们的功能、局限性和风险并没有得到很好的理解。我们提出了语言模型的整体评价（HELM），以提高语言模型的透明度。首先，我们对LM感兴趣的潜在场景（即用例）和度量（即需求）的广阔空间进行分类。然后，我们根据覆盖率和可行性选择一个广泛的子集，注意缺失或代表性不足的部分（例如，被忽视的英语方言的问题回答、可信度指标）。其次，我们采用多指标方法：我们尽可能（87.5%的时间）为16个核心场景中的每一个测量7个指标（准确性、校准、稳健性、公平性、偏差、毒性和效率），确保超出准确性的指标不会半途而废，并确保模型和指标之间的权衡清楚地暴露出来。我们还基于26个有针对性的场景进行了7次有针对性评估，以更深入地分析特定方面（如知识、推理、记忆/版权、虚假信息）。第三，我们对所有42个场景中的30个突出语言模型（跨越开放、有限访问和封闭模型）进行了大规模评估，其中包括21个以前未在主流LM评估中使用的场景。在HELM之前，平均只有17.9%的核心HELM场景对模型进行了评估，一些突出的模型没有共享一个共同的场景。我们将其提高到96.0%：现在，所有30个模型都在标准化条件下的一组核心场景和指标上进行了密集的基准测试。我们的评估涵盖了25个关于不同场景、指标和模型之间相互作用的顶级发现。为了实现完全透明，我们公开发布了所有原始模型提示和完成，以进行进一步分析，并提供了一个通用的模块化工具包，用于轻松添加新的场景、模型、指标和提示策略。我们打算让HELM成为社区的活基准，不断更新新场景、指标和模型。

1 引言

2 前言

3 核心场景

4 一般指标

5 有针对性的评估

6 模型

7 通过提示进行调整

8 实验和结果

9 相关工作和讨论

10 缺失

11 不足和未来工作

12 结论

语言模型改变了人工智能，开创了基础模型的范式。现代语言模型的影响远远超出了研究范围，语言模型正在迅速产品化，成为重要的、无处不在的语言技术，我们预计这种技术在不久的将来只会增加。目前，我们对语言模型缺乏透明度，鉴于其快速增长和迅速发展的影响，这一点尤其令人担忧：作为一个社区，我们不了解语言模型的整体。因此，我们在这项工作中推动了整体评估，因为我们认为整体评估是为语言模型提供必要透明度的关键手段。

透明度带来信任和标准。将基准视为社会变革的模型，因为它们指导了人工智能系统的发展，我们更广泛的目标是将基础模型从不成熟的新兴技术转变为支持人类繁荣的可靠工具。考虑到这一目标，我们认识到人工智能基准测试的历史和轨迹与制度特权相一致。基准制定议程并引导进步：我们应该追求全面、多元和民主的基准。考虑到基准驱动变革的低调但重要的力量，这反过来表明基准设计赋予了力量，我们展望了HELM的目标及其局限性。我们希望社区将对HELM进行询问、采纳和改进，以实现全面评估的目标。通过这种方式，我们希望对语言模型和其他类别的基础模型进行全面评估，将产生有用、负责任和有益于社会的技术。