【大语言模型】ACL2024论文-15 大型语言模型中的最佳解释推断

摘要

大型语言模型（LLMs）在现实世界的应用中取得了成功，但它们背后的解释过程仍然不为人所充分理解。本文提出了一个受哲学上最佳解释推断（IBE）启发的框架IBE-Eval，以推进对LLMs解释的理解和评估。IBE-Eval通过结合明确的逻辑和语言特征（包括一致性、简洁性、连贯性和不确定性）来估计自然语言解释的可信度。在因果问题回答（CQA）上进行了广泛的实验，其中IBE-Eval的任务是在由LLMs（例如GPT 3.5和Llama 2）生成的竞争性解释中选择最可信的因果解释。实验表明，IBE-Eval能够成功识别最佳解释，准确率高达77%（比随机选择高出约27%），比GPT 3.5作为裁判的基线提高了约17%，同时在本质上更高效和可解释。额外的分析表明，尽管模型之间存在差异，但LLM生成的解释倾向于符合IBE标准，并且IBE-Eval与人类判断显著相关，为未来自动化解释验证工具的发展提供了机会。

研究背景

大型语言模型（LLMs）如OpenAI的GPT和Llama 2在多种语言理解和推理任务中表现出色。尽管LLMs的性能已在各种基准测试中得到了充分的研究，但它们逐步推理过程背后的原理和属性仍然不为人所充分理解。LLMs是著名的黑盒模型，难以解释，且商业化的LLMs在模型架构和训练细节上存在战略性保密。此外，神经模型容易受到幻觉和对抗性扰动的影响，经常产生看似合理但事实上不正确的答案。随着LLM架构的规模和复杂性的增加，系统地研究生成的解释变得至关重要，以便更好地解释和验证LLM的内部推理和推理过程。

问题与挑战

自动评估自然语言解释面临几个挑战。没有资源密集型的注释，解释质量方法往往依赖于弱监督，即将正确答案的识别作为解释质量的证据，或者需要注入特定领域的知识。本文旨在通过研究明确的语言和逻辑属性来更好地理解LLM的解释过程。尽管由于其开放式的本质，解释很难形式化，但作者假设它们可以作为语言对象进行分析，具有可测量的特征，这些特征可以用来定义评估其质量的标准。

如何解决

为了解决上述挑战，本文提出了一个受哲学上的IBE启发的解释框架，称为IBE-Eval。该框架旨在通过一系列明确的逻辑和语言特征来估计自然语言解释的可信度。这些特征包括逻辑一致性、简洁性、连贯性和语言不确定性。为了评估IBE-Eval的有效性，作者在多项选择因果问题回答（CQA）设置中进行了广泛的实验。在这些实验中，IBE-Eval的任务是在由LLMs生成的竞争性解释中选择最可信的因果解释。

创新点

提出了一个受哲学上的IBE启发的解释框架，这是首次将这种哲学概念应用于LLMs的解释评估中。
开发了IBE-Eval框架，它可以与外部工具一起实例化，用于自动评估LLM生成的解释，并在多项选择CQA设置中识别最佳解释。
提供了实证证据，表明LLM生成的解释倾向于符合IBE预期，并且IBE-Eval与人类判断显著相关。
确定了不确定性、简洁性和连贯性是预测可信度和解释质量的最佳预测因子。
IBE-Eval能够成功识别支持正确答案的最佳解释，准确率高达77%，比GPT 3.5作为裁判的基线提高了约17%。

算法模型

IBE-Eval框架的核心模块和功能包括：

逻辑一致性：验证解释是否逻辑上有效。使用外部符号求解器和自动形式化技术，将自然语言转换为形式语言（例如Prolog），以构建从前提到结论的演绎证明。
简洁性：简洁性原则，也称为奥卡姆剃刀，倾向于选择最简单的解释。通过证明深度和概念漂移两个指标来衡量简洁性。
连贯性：评估解释步骤之间逻辑关系的强度。使用微调的自然语言推理（NLI）模型来衡量If-Then语句的蕴含强度。
语言不确定性 ：考虑生成解释中表达的语言确定性作为可信度的代理。使用微调的RoBERTa模型来衡量解释的假设和总结中的语言确定性。

实验效果

实验在COPA和E-CARE数据集上进行，涉及因果推理任务。实验结果表明：

IBE-Eval能够成功识别支持正确答案的最佳解释，准确率高达77%，比随机选择高出约27%，比GPT 3.5作为裁判的基线提高了约17%。
不确定性、简洁性和连贯性是预测可信度和解释质量的最佳预测因子。
LLM生成的解释倾向于符合IBE预期，并且IBE-Eval与人类判断显著相关。
在COPA数据集上，人类评估者平均能够以96%的准确率识别与正确答案相关的解释，在E-CARE数据集上，这一准确率为91%。

推荐阅读指数：★★★★☆

后记

如果您对我的博客内容感兴趣，欢迎三连击 (***点赞、收藏和关注 ***）和留下您的评论，我将持续为您带来计算机人工智能前沿技术(尤其是AI相关的大语言模型，深度学习和计算机视觉相关方向)最新学术论文及工程实践方面的内容分享，助力您更快更准更系统地了解 AI前沿技术。

【大语言模型】ACL2024论文-15 大型语言模型中的最佳解释推断