Explainability for Large Language Models: A Survey

本文是LLM系列文章,针对《Explainability for Large Language Models: A Survey》的翻译。

大型语言模型的可解释性:综述

  • 摘要
  • [1 引言](#1 引言)
  • [2 LLM的训练范式](#2 LLM的训练范式)
  • [3 传统微调范式的解释](#3 传统微调范式的解释)
  • [4 提示范式的解释](#4 提示范式的解释)
  • [5 评估的解释](#5 评估的解释)
  • [6 研究挑战](#6 研究挑战)
  • [7 结论](#7 结论)

摘要

大型语言模型(llm)在自然语言处理方面已经展示了令人印象深刻的能力。然而,它们的内部机制仍然不清楚,这种透明度的缺乏给下游应用带来了不必要的风险。因此,理解和解释这些模型对于阐明它们的行为、局限性和社会影响至关重要。在本文中,我们介绍了可解释性技术的分类,并提供了用于解释基于Transformer的语言模型的方法的结构化概述。我们根据LLM的训练范式对技术进行分类:传统的基于微调的范式和基于提示的范式。对于每个范式,我们总结了生成个体预测的局部解释和整体模型知识的全局解释的目标和主要方法。我们还讨论了用于评估生成的解释的度量,并讨论了如何利用解释来调试模型和提高性能。最后,与传统的机器学习模型相比,我们研究了LLM时代解释技术的关键挑战和新兴机遇。

1 引言

2 LLM的训练范式

3 传统微调范式的解释

4 提示范式的解释

5 评估的解释

6 研究挑战

7 结论

在本文中,我们对LLM的可解释性技术进行了全面概述。我们总结了基于模型训练范式的局部和全局解释方法。我们还讨论了使用解释来改进模型、评估和关键挑战。未来的主要发展选择包括开发适合不同LLM的解释方法,评估解释的可信度,以及提高人类的可解释性。随着LLM的不断发展,可解释性将变得极其重要,以确保这些模型透明、公平和有益。我们希望这一调查为这个新兴的研究领域提供一个有用的组织,并突出未来工作的开放性问题。

相关推荐
Allen_LVyingbo1 分钟前
面向医学影像检测的深度学习模型参数分析与优化策略研究
人工智能·深度学习
CareyWYR3 分钟前
每周AI论文速递(251124-251128)
人工智能
却道天凉_好个秋4 分钟前
OpenCV(三十三):什么是轮廓?
人工智能·opencv·计算机视觉
xieyan08116 分钟前
选股中的财务指标运用_ROE_PE_PB...
大数据·人工智能
海伯森技术15 分钟前
赋予人形机器人“细腻触觉”:海伯森六维力传感器的材质与集成改革
人工智能·机器人·材质
腾飞开源19 分钟前
06_Spring AI 干货笔记之递归 Advisor
人工智能·工具调用·spring ai·重试机制·递归advisor·toolcalladvisor·advisor链
ziwu1 小时前
【民族服饰识别系统】Python+TensorFlow+Vue3+Django+人工智能+深度学习+卷积网络+resnet50算法
人工智能·后端·图像识别
ziwu1 小时前
【卫星图像识别系统】Python+TensorFlow+Vue3+Django+人工智能+深度学习+卷积网络+resnet50算法
人工智能·tensorflow·图像识别
ISACA中国1 小时前
ISACA与中国内审协会共同推动的人工智能审计专家认证(AAIA)核心内容介绍
人工智能·审计·aaia·人工智能专家认证·人工智能审计专家认证·中国内审协会
ISACA中国2 小时前
《第四届数字信任大会》精彩观点:针对AI的攻击技术(MITRE ATLAS)与我国对AI的政策导向解读
人工智能·ai·政策解读·国家ai·风险评估工具·ai攻击·人工智能管理