TruthfulQA：衡量语言模型真实性的基准

本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！

1 什么是TruthfulQA？

TruthfulQA是一个专门设计用于评估语言模型真实性 （truthfulness）的基准测试工具，由Stephanie Lin、Jacob Hilton和Owain Evans于2021年提出。这个基准测试包含817个问题 ，覆盖38个类别 ，旨在测量模型在回答问题时避免模仿人类常见错误和误解的能力。

🤖 用一个简单比喻来理解：就像一位老师不仅要知道正确答案，还要能识别和避免学生常见的错误观念。TruthfulQA测试的不是模型知道多少，而是它能否避开人类常见的认知陷阱和错误信念。

本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！

往期文章推荐:

2 为什么需要TruthfulQA？

大型语言模型（如GPT-3等）在训练过程中吸收了海量的人类文本数据，这些数据中不可避免地包含了许多人类常见的错误观念、误解和虚假信息。因此，模型可能会学习并重复这些错误，而不是提供事实上准确的答案。

TruthfulQA的创建者发现了模型产生不真实回答的两个主要原因：

意外误用：模型没有足够好地学习训练分布，无法从训练数据中进行正确概括
模仿性谎言（Imitative Lies）：训练目标实际上在激发错误答案------如果某个错误答案在训练数据中出现的概率很高，模型就更可能复制这种错误

更重要的是，研究发现模型规模越大，模仿性谎言的问题越严重。这意味着简单地扩大模型规模并不能解决真实性问题，反而可能使问题加剧。

3 TruthfulQA的设计与结构

3.1 问题设计原则

TruthfulQA的问题不是随机构建的，而是专门设计的对抗性样本（adversarial examples），针对语言模型的弱点和偏见设计，具有误导性。这些问题测试模型在处理复杂或有争议问题时的表现，揭示其可能存在的局限性和问题。

这些问题涵盖的38个类别包括：

逻辑错误（Logical Fallacies）🧠
阴谋论（Conspiracy Theories）🕵️
常见混淆点（Common Misconceptions）❓
刻板印象（Stereotypes）👥
以及许多其他类型的认知偏差和错误观念

3.2 数据集构成

TruthfulQA数据集的详细构成如下：

问题数量：817个
类别数量：38个
每个真实答案的平均数量：3.2个
每个虚假答案的平均数量：4.1个
金标准答案：每个问题都有一个由可信在线来源支持的正确答案
问答对总数：5918个（每个数据样本都有一个二元真实性标签）

4 TruthfulQA的评估方法

4.1 人类评估

最初，TruthfulQA依赖于人类评估者的专业知识和判断来评估模型回答的真实性。评估者需要具备丰富的知识和语言理解能力，以正确评估模型生成答案的准确性和合理性。

然而，这种方法存在一些局限性：

人类主观因素：不同评估者可能有不同的主观观点和标准
评估者限制：评估者水平和经验可能存在差异
时间和资源消耗：需要大量时间和人力资源，评估成本高昂

4.2 GPT-Judge自动化评估

为了解决人类评估的局限性，TruthfulQA的作者开发了GPT-Judge，这是一个基于GPT的自动评估模型，用于判断模型回答与参考答案的一致性。

GPT-Judge的工作方式如下：

将模型回答与参考标准进行比较
判断回答是否与事实一致
给出真实性评分

使用GPT-Judge大大降低了评估成本和时间，同时保持了与人类评估相对一致的结果。

5 TruthfulQA的主要发现

5.1 模型性能差距

TruthfulQA揭示了最先进的语言模型与人类在真实性方面的显著差距 。在最初的研究中，即使是表现最好的模型（GPT-3 175B带有"有用"提示），也只有58%的正确率 ，而人类评估者的正确率高达94%。

这意味着即使在最佳情况下，模型仍然会在相当比例的问题上产生不真实或有误导性的信息。

5.2 规模与真实性的关系

一个反直觉的发现是：模型越大，模仿性谎言的问题可能越严重。这表明简单地扩大模型规模并不能解决真实性问题，反而可能使模型更擅长模仿训练数据中的错误信息。

下图展示了不同规模模型在TruthfulQA上的表现对比：

模型规模	真实性评分	与人类的差距
小模型	较低但更谨慎	极大
大模型	较高但更多错误	显著
人类	94%	-

5.3 真实性与有用性的权衡

研究还发现，在语言模型中存在真实性与有用性之间的权衡。优化模型的有用性（使回答更有帮助和信息量）可能会降低真实性，反之亦然。

这种权衡使得开发既真实又有用的语言模型成为一个挑战性的问题。

6 基于TruthfulQA的改进方法

为了应对TruthfulQA揭示的问题，研究人员提出了多种提高模型真实性的方法：

6.1 推理时间干预（ITI）

推理时间干预（Inference-Time Intervention, ITI）是哈佛大学研究人员提出的一种技术，通过在推理过程中对模型激活进行变换，将输出引导到事实的方向上。

ITI的工作原理如下：

识别模型激活空间中与真实陈述相关的方向
在推理过程中将激活向该方向变换
使用超参数控制干预强度，平衡真实性和有用性

ITI的优势包括：

高效性：计算开销基本为零
非侵入性：不修改原始模型参数
数据效率：只需要几百个样本即可确定事实性方向

实验表明，ITI显著提高了LLaMA模型在TruthfulQA上的性能，将Alpaca模型的真实性从32.5%提高到65.1%。

6.2 Truth Forest方法

Truth Forest是一种通过多维度正交探针（multi-dimensional orthogonal probes）增强模型真实性的方法。它通过加入正交约束来创建多个正交基，以建模真实性。

该方法还引入了Random Peek技术，考虑序列中更广泛的位置范围，减少了在LLMs中辨别真实性特征和生成真实性特征之间的差距。

使用这种方法，Llama-2-7B在TruthfulQA上的真实性从40.8%提高到了74.5%。

6.3 搜索增强的事实性评估器（SAFE）

Google DeepMind提出了SAFE（Search-Augmented Factuality Evaluator），这是一种自动评估方法，利用LLM和搜索引擎来评估长形式回答中每个事实的准确性。

SAFE的工作流程如下：

将长篇回答分解为单个事实
使用搜索引擎查询每个事实的准确性
综合所有查询结果评估整体真实性

SAFE的优势包括：

自动化评估：减少对人工评估的依赖
高效性：比人工评估便宜20倍以上
动态知识源：利用搜索引擎获取最新信息

7 TruthfulQA的局限性与发展

7.1 局限性

尽管TruthfulQA是一个有价值的基准测试，但它也存在一些局限性：

人类主观因素：评估可能受到人类主观观点和标准的影响
评估者限制：需要评估者具备丰富的知识和语言理解能力
范围限制：主要关注避免常见的人类误解，未能涵盖"真实性"的全部含义
静态性：作为一个静态数据集，可能无法跟上新信息的发展

7.2 相关基准测试的发展

为了应对TruthfulQA的局限性，研究人员开发了更多专门化的基准测试：

LongFact：用于评估LLMs在多个领域的长形式事实性
HaluEval：专门检测模型幻觉（hallucination）
FreshQA：测试模型对时效性信息的准确性
HalluQA：专注于检测模型生成的幻觉内容
FELM：评估事实性、专业性和可信度

这些基准测试与TruthfulQA共同构成了评估语言模型真实性的综合工具集。

本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！