Holistic Evaluation of Language Models

本文是LLM系列文章,针对《Holistic Evaluation of Language Models》的翻译。

语言模型的整体评价

  • 摘要
  • [1 引言](#1 引言)
  • [2 前言](#2 前言)
  • [3 核心场景](#3 核心场景)
  • [4 一般指标](#4 一般指标)
  • [5 有针对性的评估](#5 有针对性的评估)
  • [6 模型](#6 模型)
  • [7 通过提示进行调整](#7 通过提示进行调整)
  • [8 实验和结果](#8 实验和结果)
  • [9 相关工作和讨论](#9 相关工作和讨论)
  • [10 缺失](#10 缺失)
  • [11 不足和未来工作](#11 不足和未来工作)
  • [12 结论](#12 结论)

摘要

语言模型(LM)正在成为几乎所有主要语言技术的基础,但它们的功能、局限性和风险并没有得到很好的理解。我们提出了语言模型的整体评价(HELM),以提高语言模型的透明度。首先,我们对LM感兴趣的潜在场景(即用例)和度量(即需求)的广阔空间进行分类。然后,我们根据覆盖率和可行性选择一个广泛的子集,注意缺失或代表性不足的部分(例如,被忽视的英语方言的问题回答、可信度指标)。其次,我们采用多指标方法:我们尽可能(87.5%的时间)为16个核心场景中的每一个测量7个指标(准确性、校准、稳健性、公平性、偏差、毒性和效率),确保超出准确性的指标不会半途而废,并确保模型和指标之间的权衡清楚地暴露出来。我们还基于26个有针对性的场景进行了7次有针对性评估,以更深入地分析特定方面(如知识、推理、记忆/版权、虚假信息)。第三,我们对所有42个场景中的30个突出语言模型(跨越开放、有限访问和封闭模型)进行了大规模评估,其中包括21个以前未在主流LM评估中使用的场景。在HELM之前,平均只有17.9%的核心HELM场景对模型进行了评估,一些突出的模型没有共享一个共同的场景。我们将其提高到96.0%:现在,所有30个模型都在标准化条件下的一组核心场景和指标上进行了密集的基准测试。我们的评估涵盖了25个关于不同场景、指标和模型之间相互作用的顶级发现。为了实现完全透明,我们公开发布了所有原始模型提示和完成,以进行进一步分析,并提供了一个通用的模块化工具包,用于轻松添加新的场景、模型、指标和提示策略。我们打算让HELM成为社区的活基准,不断更新新场景、指标和模型。

1 引言

2 前言

3 核心场景

4 一般指标

5 有针对性的评估

6 模型

7 通过提示进行调整

8 实验和结果

9 相关工作和讨论

10 缺失

11 不足和未来工作

12 结论

语言模型改变了人工智能,开创了基础模型的范式。现代语言模型的影响远远超出了研究范围,语言模型正在迅速产品化,成为重要的、无处不在的语言技术,我们预计这种技术在不久的将来只会增加。目前,我们对语言模型缺乏透明度,鉴于其快速增长和迅速发展的影响,这一点尤其令人担忧:作为一个社区,我们不了解语言模型的整体。因此,我们在这项工作中推动了整体评估,因为我们认为整体评估是为语言模型提供必要透明度的关键手段。

透明度带来信任和标准。将基准视为社会变革的模型,因为它们指导了人工智能系统的发展,我们更广泛的目标是将基础模型从不成熟的新兴技术转变为支持人类繁荣的可靠工具。考虑到这一目标,我们认识到人工智能基准测试的历史和轨迹与制度特权相一致。基准制定议程并引导进步:我们应该追求全面、多元和民主的基准。考虑到基准驱动变革的低调但重要的力量,这反过来表明基准设计赋予了力量,我们展望了HELM的目标及其局限性。我们希望社区将对HELM进行询问、采纳和改进,以实现全面评估的目标。通过这种方式,我们希望对语言模型和其他类别的基础模型进行全面评估,将产生有用、负责任和有益于社会的技术。

相关推荐
慕涯AI4 小时前
Agent 30 课程开发指南 - 第23课
人工智能·python
薛定猫AI4 小时前
【深度解析】零代码到 CLI 双路径构建 AI Agent:RAG、工具调用与自动化工作流实战
大数据·人工智能·自动化
承渊政道5 小时前
Prompt工程:连接大语言模型能力与真实应用的关键桥梁
人工智能·深度学习·语言模型·自然语言处理·chatgpt·prompt·transformer
极客小云5 小时前
【AiCodeAudit 2.0 发布:基于调用图与局部子图的 AI 代码安全审计平台】
人工智能·网络安全·语言模型·大模型·github·安全性测试·代码复审
王_teacher10 小时前
RNN 循环神经网络 计算过程(通俗+公式版+运行实例)
人工智能·rnn·nlp
玩转单片机与嵌入式11 小时前
一个成熟的嵌入式AI系统,是长什么样子的?
人工智能·单片机·嵌入式硬件·嵌入式ai
曦樂~13 小时前
【机器学习】概述
人工智能·机器学习
DeniuHe13 小时前
机器学习模型中的偏置项(bias / 截距项)到底有什么用?
人工智能·机器学习
小江的记录本13 小时前
【网络安全】《网络安全常见攻击与防御》(附:《六大攻击核心特性横向对比表》)
java·网络·人工智能·后端·python·安全·web安全
深小乐14 小时前
AI 周刊【2026.04.13-04.19】:中美差距减小、Claude Opus 4.7发布、国产算力突围
人工智能