大模型GUI系列论文阅读 DAY4续：《Large Language Model Agent for Fake News Detection》

摘要

在当前的数字时代，在线平台上虚假信息的迅速传播对社会福祉、公众信任和民主进程构成了重大挑战，并影响着关键决策和公众舆论。为应对这些挑战，自动化假新闻检测机制的需求日益增长。

预训练的大型语言模型（LLMs）在各种自然语言处理（NLP）任务中表现出卓越的能力，这促使人们探索其在新闻真实性验证方面的潜力。然而，传统的 LLM 使用方式通常是非代理化（non-agentic）的，即模型基于直接提示一次性生成响应。

为此，我们提出了一种新的代理化（agentic）方法------FactAgent ，用于假新闻检测。FactAgent 使 LLM 能够模拟人类专家在新闻真实性验证中的行为，而无需额外的模型训练。FactAgent 遵循结构化工作流程，将复杂的新闻真实性检查任务拆解为多个子步骤，LLM 利用其内部知识或外部工具来完成简单任务。在工作流程的最终步骤，LLM 汇总整个过程中的所有发现，以确定新闻声明的真实性。

与手动人工验证相比，FactAgent 提供了更高的效率。实验研究表明，FactAgent 在无需训练的情况下能够有效地验证新闻声明。此外，FactAgent 在工作流程的每个阶段以及最终决策时，均提供透明的解释，为最终用户提供有关假新闻检测推理过程的深刻见解。

FactAgent 具有极高的适应性，使得 LLM 可以轻松利用更新的工具，同时也可以使用领域知识对工作流程本身进行调整。这种适应性使 FactAgent 能够广泛应用于不同领域的新闻真实性验证。

1. 引言

在现代数字时代，社交媒体和在线平台的普及加剧了假新闻 的传播。假新闻通常以可信新闻的外观呈现，但其实包含虚假或误导性信息。假新闻的泛滥对社会福祉、公众信任和民主进程构成严重威胁，可能引发恐慌、影响公众舆论，并左右关键决策。为了减少假新闻传播的负面影响，尤其是在其广泛传播之前，及时检测假新闻至关重要。

尽管PolitiFact 、Snopes 等事实核查网站雇佣专业人员进行手动核查，但面对信息爆炸的时代，这种人工核查方式往往耗时且难以扩展。因此，自动化假新闻检测解决方案至关重要。近年来，基于深度神经网络的假新闻检测模型被广泛研究，并已显示出一定的成效。然而，这些模型通常依赖于人工标注的数据进行训练，而这种标注数据可能难以获得，或者在实践中成本较高。

大型语言模型（LLMs） 在各种自然语言处理（NLP）任务中表现出了卓越的能力，这促使我们探索其在假新闻检测中的潜力。专业事实核查人员在核查新闻时，往往需要整合来自多个（有时是相互矛盾的）来源的信息，以形成一致的叙述，这凸显了在发布之前核实细节的重要性。

FactAgent：代理化的假新闻检测方法

在本研究中，我们提出了一种创新的代理化（agentic ）方法------FactAgent ，专门用于假新闻检测。与传统的非代理化方式（LLMs 仅响应直接提示或在上下文中生成答案）不同，FactAgent 采用结构化工作流程，将复杂的新闻核查任务拆解为可管理的子步骤。LLMs 在此流程中利用其内部知识和外部工具，协同解决整体任务。

主要贡献

我们提出的FactAgent在假新闻检测方面的主要贡献包括：

基于代理的结构化工作流程

FactAgent 采用结构化的工作流程，使LLMs能够整合内部知识和外部工具以核查新闻声明。FactAgent无需依赖人工标注数据，具备高效性，并能够轻松适应不同新闻领域的核查需求。
早期检测和可解释性

FactAgent 能够在假新闻传播的早期进行识别，而无需依赖社交媒体传播信息。此外，在核查的每个步骤中，FactAgent 提供透明的解释，增强可解释性，帮助用户理解决策过程。
高效性与适应性

在三个真实世界数据集上的实验结果表明，FactAgent 在假新闻检测方面表现优异。我们比较了基于专家设计的工作流程与自动化自生成工作流程的效果，结果突显了领域知识在专家工作流程设计中的重要性。

2. 相关工作

2.1 假新闻检测方法

当前的假新闻检测方法可以分为两大类：基于内容的方法 和 基于证据的方法。

基于内容的方法

关注新闻文本本身的语言模式，例如写作风格和文章立场。这些方法通常利用 NLP 技术（如 LSTM、BERT）来分析文本特征。
基于证据的方法

通过检索知识图谱或网页上的信息来验证新闻真实性。例如，Popat等人（2018）提出了 DeClarE 框架，利用双向 LSTM 和注意力机制来建模声明与证据的语义关系。

虽然现有的深度学习方法在假新闻检测方面取得了一定成效，但它们仍依赖于人工标注数据，这限制了其在没有标注数据的环境中的泛化能力。相比之下，FactAgent 不需要任何模型训练，而是结合LLMs的语义理解能力和外部搜索引擎进行证据检索。

2.2 代理化 LLM 研究

近年来，LLMs 的发展催生了多种应用场景，例如虚拟角色模拟、多人辩论等。相比于让 LLM 自主设计问题解决方案，FactAgent 采用结构化的专家工作流程，确保每一步都严格遵循人类专家的核查方式，利用LLMs的内部知识和外部工具来完成假新闻检测。

3. 方法论

FactAgent 通过模拟人类专家的行为，将复杂的新闻核查任务拆解为多个子步骤，并结合LLMs的内部知识和外部工具进行验证。为了实现这一目标，我们将核查工具分为两类：

基于 LLM 内部知识的工具（如语言工具、常识工具等）
结合外部知识的工具（如搜索工具、URL工具等）

工作流程示意图（图1）显示，FactAgent 在接收到新闻声明后，首先利用 LLM 判断该新闻是否与政治相关，如果是，则使用所有工具，否则跳过政治相关的工具。在最终步骤，所有证据将被汇总并与专家核查清单进行比对，以确定新闻声明的真实性。

4. 实验与结果

4.1 实验设置

我们在三个英文数据集（Snopes、PolitiFact 和 GossipCop）上评估了 FactAgent 的性能。实验对比了 FactAgent 与多种基线方法，包括：

LSTM、TextCNN、BERT 等监督学习方法
HiSS 方法（分层提示技术）
零样本（Zero-shot）提示方式

实验采用准确率、F1分数 等指标进行评估。

4.2 假新闻检测性能（RQ1）

实验结果表明，FactAgent 在所有数据集上的表现优于其他基线模型，尤其是在未使用人工标注数据的情况下表现出色。这证明了FactAgent 结合 LLM 内部知识与外部工具的优势。

4.3 领域知识的重要性（RQ2）

实验表明，遵循专家工作流程的 FactAgent 在性能上优于自动化自生成的工作流程。这表明领域知识在核查流程设计中的重要性。

4.4 外部搜索引擎的重要性（RQ3）

排除外部搜索工具的实验结果显示，FactAgent 的性能下降，这表明仅依赖 LLM 内部知识无法有效检测假新闻，外部搜索引擎在验证冲突信息方面起着至关重要的作用。

4.5 决策策略的影响（RQ4）

使用多数投票决策策略的 FactAgent 性能低于基于专家清单的策略，说明让LLM灵活整合各工具信息比简单的投票规则更有效。

5. 结论

本文提出的 FactAgent 框架通过结构化工作流程使 LLM 能够像人类专家一样核查新闻真实性。与监督学习模型不同，FactAgent 无需训练或调整超参数，具有高效性和适应性。实验表明，FactAgent 在各个数据集上均展现了优越的泛化能力和解释能力。未来研究可进一步探索 FactAgent 在社交媒体数据、多模态分析及决策优化方面的潜力。