Holistic Evaluation of Language Models

本文是LLM系列文章,针对《Holistic Evaluation of Language Models》的翻译。

语言模型的整体评价

  • 摘要
  • [1 引言](#1 引言)
  • [2 前言](#2 前言)
  • [3 核心场景](#3 核心场景)
  • [4 一般指标](#4 一般指标)
  • [5 有针对性的评估](#5 有针对性的评估)
  • [6 模型](#6 模型)
  • [7 通过提示进行调整](#7 通过提示进行调整)
  • [8 实验和结果](#8 实验和结果)
  • [9 相关工作和讨论](#9 相关工作和讨论)
  • [10 缺失](#10 缺失)
  • [11 不足和未来工作](#11 不足和未来工作)
  • [12 结论](#12 结论)

摘要

语言模型(LM)正在成为几乎所有主要语言技术的基础,但它们的功能、局限性和风险并没有得到很好的理解。我们提出了语言模型的整体评价(HELM),以提高语言模型的透明度。首先,我们对LM感兴趣的潜在场景(即用例)和度量(即需求)的广阔空间进行分类。然后,我们根据覆盖率和可行性选择一个广泛的子集,注意缺失或代表性不足的部分(例如,被忽视的英语方言的问题回答、可信度指标)。其次,我们采用多指标方法:我们尽可能(87.5%的时间)为16个核心场景中的每一个测量7个指标(准确性、校准、稳健性、公平性、偏差、毒性和效率),确保超出准确性的指标不会半途而废,并确保模型和指标之间的权衡清楚地暴露出来。我们还基于26个有针对性的场景进行了7次有针对性评估,以更深入地分析特定方面(如知识、推理、记忆/版权、虚假信息)。第三,我们对所有42个场景中的30个突出语言模型(跨越开放、有限访问和封闭模型)进行了大规模评估,其中包括21个以前未在主流LM评估中使用的场景。在HELM之前,平均只有17.9%的核心HELM场景对模型进行了评估,一些突出的模型没有共享一个共同的场景。我们将其提高到96.0%:现在,所有30个模型都在标准化条件下的一组核心场景和指标上进行了密集的基准测试。我们的评估涵盖了25个关于不同场景、指标和模型之间相互作用的顶级发现。为了实现完全透明,我们公开发布了所有原始模型提示和完成,以进行进一步分析,并提供了一个通用的模块化工具包,用于轻松添加新的场景、模型、指标和提示策略。我们打算让HELM成为社区的活基准,不断更新新场景、指标和模型。

1 引言

2 前言

3 核心场景

4 一般指标

5 有针对性的评估

6 模型

7 通过提示进行调整

8 实验和结果

9 相关工作和讨论

10 缺失

11 不足和未来工作

12 结论

语言模型改变了人工智能,开创了基础模型的范式。现代语言模型的影响远远超出了研究范围,语言模型正在迅速产品化,成为重要的、无处不在的语言技术,我们预计这种技术在不久的将来只会增加。目前,我们对语言模型缺乏透明度,鉴于其快速增长和迅速发展的影响,这一点尤其令人担忧:作为一个社区,我们不了解语言模型的整体。因此,我们在这项工作中推动了整体评估,因为我们认为整体评估是为语言模型提供必要透明度的关键手段。

透明度带来信任和标准。将基准视为社会变革的模型,因为它们指导了人工智能系统的发展,我们更广泛的目标是将基础模型从不成熟的新兴技术转变为支持人类繁荣的可靠工具。考虑到这一目标,我们认识到人工智能基准测试的历史和轨迹与制度特权相一致。基准制定议程并引导进步:我们应该追求全面、多元和民主的基准。考虑到基准驱动变革的低调但重要的力量,这反过来表明基准设计赋予了力量,我们展望了HELM的目标及其局限性。我们希望社区将对HELM进行询问、采纳和改进,以实现全面评估的目标。通过这种方式,我们希望对语言模型和其他类别的基础模型进行全面评估,将产生有用、负责任和有益于社会的技术。

相关推荐
用户47949283569157 分钟前
React Grab 原理篇:它是怎么"偷窥" React 的?
人工智能·react.js·ai编程
田里的水稻12 分钟前
AI_常见“XX学习”术语速查表
人工智能·学习
桜吹雪26 分钟前
DeepAgents官方文档(一)
人工智能
甄心爱学习1 小时前
数据挖掘-聚类方法
人工智能·算法·机器学习
Dev7z2 小时前
面向公共场所的吸烟行为视觉检测系统研究
人工智能·计算机视觉·视觉检测
橙露2 小时前
视觉检测硬件分析
人工智能·计算机视觉·视觉检测
长桥夜波2 小时前
机器学习日报21
人工智能·机器学习
rchmin3 小时前
Prompt Engineering 从入门到精通的系统学习路径
人工智能·学习·prompt
ACE19853 小时前
AI Agent 设计模式深度解析:提示链(Prompt Chaining)模式
人工智能·设计模式·prompt
AndrewHZ3 小时前
【图像处理基石】如何使用大模型进行图像处理工作?
图像处理·人工智能·深度学习·算法·llm·stablediffusion·可控性