Holistic Evaluation of Language Models

本文是LLM系列文章,针对《Holistic Evaluation of Language Models》的翻译。

语言模型的整体评价

  • 摘要
  • [1 引言](#1 引言)
  • [2 前言](#2 前言)
  • [3 核心场景](#3 核心场景)
  • [4 一般指标](#4 一般指标)
  • [5 有针对性的评估](#5 有针对性的评估)
  • [6 模型](#6 模型)
  • [7 通过提示进行调整](#7 通过提示进行调整)
  • [8 实验和结果](#8 实验和结果)
  • [9 相关工作和讨论](#9 相关工作和讨论)
  • [10 缺失](#10 缺失)
  • [11 不足和未来工作](#11 不足和未来工作)
  • [12 结论](#12 结论)

摘要

语言模型(LM)正在成为几乎所有主要语言技术的基础,但它们的功能、局限性和风险并没有得到很好的理解。我们提出了语言模型的整体评价(HELM),以提高语言模型的透明度。首先,我们对LM感兴趣的潜在场景(即用例)和度量(即需求)的广阔空间进行分类。然后,我们根据覆盖率和可行性选择一个广泛的子集,注意缺失或代表性不足的部分(例如,被忽视的英语方言的问题回答、可信度指标)。其次,我们采用多指标方法:我们尽可能(87.5%的时间)为16个核心场景中的每一个测量7个指标(准确性、校准、稳健性、公平性、偏差、毒性和效率),确保超出准确性的指标不会半途而废,并确保模型和指标之间的权衡清楚地暴露出来。我们还基于26个有针对性的场景进行了7次有针对性评估,以更深入地分析特定方面(如知识、推理、记忆/版权、虚假信息)。第三,我们对所有42个场景中的30个突出语言模型(跨越开放、有限访问和封闭模型)进行了大规模评估,其中包括21个以前未在主流LM评估中使用的场景。在HELM之前,平均只有17.9%的核心HELM场景对模型进行了评估,一些突出的模型没有共享一个共同的场景。我们将其提高到96.0%:现在,所有30个模型都在标准化条件下的一组核心场景和指标上进行了密集的基准测试。我们的评估涵盖了25个关于不同场景、指标和模型之间相互作用的顶级发现。为了实现完全透明,我们公开发布了所有原始模型提示和完成,以进行进一步分析,并提供了一个通用的模块化工具包,用于轻松添加新的场景、模型、指标和提示策略。我们打算让HELM成为社区的活基准,不断更新新场景、指标和模型。

1 引言

2 前言

3 核心场景

4 一般指标

5 有针对性的评估

6 模型

7 通过提示进行调整

8 实验和结果

9 相关工作和讨论

10 缺失

11 不足和未来工作

12 结论

语言模型改变了人工智能,开创了基础模型的范式。现代语言模型的影响远远超出了研究范围,语言模型正在迅速产品化,成为重要的、无处不在的语言技术,我们预计这种技术在不久的将来只会增加。目前,我们对语言模型缺乏透明度,鉴于其快速增长和迅速发展的影响,这一点尤其令人担忧:作为一个社区,我们不了解语言模型的整体。因此,我们在这项工作中推动了整体评估,因为我们认为整体评估是为语言模型提供必要透明度的关键手段。

透明度带来信任和标准。将基准视为社会变革的模型,因为它们指导了人工智能系统的发展,我们更广泛的目标是将基础模型从不成熟的新兴技术转变为支持人类繁荣的可靠工具。考虑到这一目标,我们认识到人工智能基准测试的历史和轨迹与制度特权相一致。基准制定议程并引导进步:我们应该追求全面、多元和民主的基准。考虑到基准驱动变革的低调但重要的力量,这反过来表明基准设计赋予了力量,我们展望了HELM的目标及其局限性。我们希望社区将对HELM进行询问、采纳和改进,以实现全面评估的目标。通过这种方式,我们希望对语言模型和其他类别的基础模型进行全面评估,将产生有用、负责任和有益于社会的技术。

相关推荐
Just Jump2 分钟前
实现一个AI陪练智能体Agent
人工智能
小仙女的小稀罕9 分钟前
技术升级录音转文字工具 识别精准转写高效 内容整理更省心省力
人工智能
nimadan129 分钟前
手机制作AI漫剧APP2025推荐,高效便捷创作体验
人工智能·python·智能手机
RFID舜识物联网10 分钟前
耐高温RFID标签提升汽车喷涂线效率,精准度再升级
大数据·人工智能·嵌入式硬件·物联网·汽车
陈希瑞11 分钟前
你好,四月!
人工智能
Chan1612 分钟前
SpringAI:MCP 协议介绍与接入方法
java·人工智能·spring boot·spring·java-ee·intellij-idea·mcp
CoderJia程序员甲13 分钟前
GitHub 热榜项目 - 日榜(2026-04-01)
人工智能·ai·大模型·github·ai教程
学而要时习14 分钟前
强化学习:从“试错进化“到“推理革命
c语言·人工智能·python·语言模型
小陈工14 分钟前
2026年4月1日技术资讯洞察:AI芯片革命、数据库智能化与云原生演进
前端·数据库·人工智能·git·python·云原生·开源
liliwoliliwo15 分钟前
transformer架构详解
人工智能·深度学习·transformer