【新智元导读】让AI智能体学会「三思而后行」和「换位思考」，实现对虚假欺骗信息的甄别与应对，为通用人工智能增加安全屏障。

大语言模型（Large Language Models，LLMs）的进展促进了AI智能体（特别是LLM智能体）的蓬勃发展。在通往通用人工智能的道路上，AI智能体将有能力在无人监管的情况下进行自主思考与决策。

然而，较少有研究者关注如何在未来无人监管的情况下，防止AI智能体被欺骗和误导。由于人类社会中存在很多误导和欺骗性的信息，如果AI智能体无法有效识别和应对这些信息，可能会在未来造成不可估量的后果。

近日，清华大学自动化系与通用人工智能研究院的研究团队以阿瓦隆（Avalon）桌游为例，测试了当前大语言模型在充满欺骗的环境下存在的问题，并针对这些问题提出了ReCon（Recursive Contemplation，递归思考）框架。

其通过借鉴人类思考中的「三思而后行」以及「换位思考」的特点，极大地提升大语言模型识别和应对欺骗的能力，从而提高了人类用户使用AI智能体的安全性与可靠性。此外，这项研究还进一步讨论了现有的大语言模型在安全、推理、说话风格、以及格式等方面存在的局限性，为后续研究指出可能的方向。

论文地址：arxiv.org/abs/2310.01...

项目地址：shenzhi-wang.github.io/avalon_reco...

该研究的贡献主要体现在四个方面： 1. 发现了当前LLM智能体在应用于欺骗性环境时的局限性，并提出用阿瓦隆桌游来测试LLM智能体识别和应对欺骗的能力； 2. 从人类的「三思而后行」以及换位思考得到启发，提出ReCon框架，主要包含两阶段的思考过程（即构思思考以及改进思考），该两阶段过程分别包含了一阶视角转换和二阶视角转换的换位思考方式； 3. 在阿瓦隆桌游环境中，将提出的ReCon框架应用于不同的LLMs并进行大量实验。在胜率以及多维度评估等指标上，ReCon都能在无需任何微调以及额外数据等情况下，极大地提升LLMs识别和应对欺骗的能力； 4. 进一步对ReCon的有效性提出可能的解释，并讨论了当前LLMs在安全、推理、说话方式、和格式上的不足，为后续研究指出了可能的方向。

LLMs在欺骗性环境中面临的挑战

尽管目前大语言模型（Large Language Model, LLMs）在多个领域表现出强大的潜能，但在欺骗性环境中的应用表现仍然有待提升。

作为LLM智能体在欺骗性环境中应用的初步尝试，研究者选择了阿瓦隆游戏（一款涉及推理和欺骗的桌游）作为实验环境，在此基础上探究目前LLM智能体面临的三大挑战。

图1 LLMs在欺骗性环境中所面临的挑战，以及提出的ReCon框架较好地解决了这些挑战

挑战一：恶意信息的误导

首先， LLM智能体在面对别有用心的恶意欺骗性信息时容易被误导。如图1（a）所示，当采用「Chain-of-Thoughts（CoT）」方法时，模型不仅没有识别出欺骗，反而进一步加强了对坏人角色有益性的错误信念。

挑战二：私有信息泄露

其次，LLM智能体在保护隐私信息方面存在不足。如图1（b）所示，即使在提示不要暴露私有信息的情况下，LLM智能体依然可能在言语中泄露角色的私有信息（例如Merlin暴露自己的身份），从而增加了被对手针对或陷害的风险。

挑战三：内部思考的不透明性

最后，即使在使用CoT方法情况下，对于人类用户而言，LLM智能体的思维过程仍然存在一定的不透明。如图1（c）所示，LLM智能体在扮演坏人角色欺骗好人角色时，人类用户难以知道其真实意图。LLM智能体内部思考的不透明使得人类用户无从知晓LLM智能体的真实思考过程，从而较难在造成难以挽回的后果前预先干预。

面对这些挑战，现有的思维方法可能难以应对这些复杂环境。因此，研究者认为有必要重新考虑LLM智能体在欺骗性环境中的策略，以帮助LLM智能体应对欺骗、保护隐私，并提高决策透明度。

方法概览

针对上述挑战，研究团队提出了ReCon（Recursive Contemplation，递归思考）框架，其旨在增强LLM智能体在复杂和潜在欺骗性环境中的决策能力。

如图2所示，ReCon提出了两个主要的构思阶段：构想思考和改进思考，并在其中综合了两个独特的思考过程：一阶视角转换和二阶视角转换。

图2 Recursive Contemplation（ReCon）方法示意图。ReCon包含构想思考（Formulation Contemplation）和改进思考（Refinement Contemplation）两个阶段，这两阶段的思考过程分别包含了一阶视角转换和二阶视角转换（First-order / second-order perspective transition）。

1. 构思思考的设计

构思思考是ReCon框架中的第一阶段，旨在生成LLM智能体的初始思考和发言内容。在这一阶段中，模型首先应用一种被称为「一阶视角转换」的认知过程。

一阶视角转换让LLM智能体从自身的视角出发，对其他游戏参与者可能持有的角色和意图进行推断。具体来说，LLM智能体会根据已有的游戏记录和角色信息，运用一阶视角转换来形成关于其他参与者角色和意图的初步假设。

这些初步的角色假设不仅为LLM智能体提供了一个认知框架，还会被纳入到整体的思考过程中，并且这些信息不会被其他游戏参与者所知晓。这样做的目的是为了更好地保护私密信息，同时也为后续的决策和行动提供了基础。

在构思思考阶段，模型依据一阶视角转换原则，对当前游戏环境和其他参与者的角色进行初步分析。接着，模型形成初始的内部思考和发言，为后续交流奠定基础。通过这一设计，研究者确保了模型输出的逻辑连贯性和一致性。

2. 改进思考的设计

改进思考是ReCon框架中的第二阶段，紧接着构思思考之后进行。这一阶段的核心目的是对初始思考和言论内容进行更为精细的优化和调整。

在改进思考阶段，引入了「二阶视角转换」的概念。二阶视角转换要求LLM智能体从其他游戏参与者的视角出发，重新评估其构思思考的思考和发言内容。

具体来说，在阿瓦隆游戏中，LLM智能体会思考：「如果我按照刚才的言论内容发言，其他角色可能会如何看待我的言论？」这样的二阶视角转换为接下来的改进过程提供了基础。

基于二阶视角转换的概念，LLM智能体生成一个改进后的构思思考的思考内容和发言内容。这一过程不仅考虑了LLM智能体自身的初步思考，还结合了二阶视角转换中对其他参与者可能的心理状态和反应的分析。

最终，LLM智能体发表这个经过改进的发言内容，并将其加入到游戏的公开讨论记录中。

实验及结果

为了检验ReCon框架在不同大语言模型上的适用性，该研究在ChatGPT和Claude两种模型上进行了实验。

图3展示了ReCon的评估结果，其中图3（a）和（b）展示了ReCon（分别用ChatGPT和Claude实现）作为好人一方时使用ReCon及其各种变体的结果，而图3（c）则描绘了ReCon作为坏人一方的方法的结果。可以观察到，ReCon的四种设计（即构想思考/改进思考和一阶/二阶视角转换）都明显地提高了在各种情况下的成功率。

值得注意的是，当好人一方使用ReCon时，一阶/二阶视角转换的作用比较明显；而当坏人一方使用ReCon时，改进思考更具影响力。

图3 整局游戏测试中成功率对比结果

在详细分析了ReCon及其变体的表现后，研究者遵循主流基准的评估方法，进一步利用GPT-4在六维度指标上进行评估。这旨在全面地衡量ReCon及其变体的有效性。

具体地，六维度评估指标包括：信息隐藏（CCL）、逻辑一致性（LG）、团队贡献（CTR）、说服力（PRS）、信息量（INF）、创造性（CRT）。

为了在实际场景中准确地量化这些评估指标，研究者使用ChatGPT进行了20场完整的阿瓦隆游戏，以收集用于多维度分析评估的测试数据。

如图4所示，对于分配给好人一方的每个提示，研究团队使用4种不同的方法生成了4种不同的响应，总计超过2300个响应。

随后，基于上述6个指标，使用GPT-4对不同方法在相同提示下的响应进行二分类的偏好比较。

图4 多维度指标评估结果，数值（取值0~1）表示两方法比较中被GPT-4偏好的比例

图4显示，在所有6个指标上，ReCon明显优于基线CoT。同时，在大多数指标上，构想思考和改进思考都带来了显著的提升。

然而，与CoT和没有构想思考的ReCon相比，ReCon和没有改进思考的ReCon在说服力（PRS）方面的表现低于预期。

研究者分析详细的游戏日志，将这一不如预期的PRS表现归因于构想思考。构想思考让LLM智能体在发言之前进行思考，从而产生更为简洁而有针对性的发言，减少了例如「我相信我们一定会战胜坏人，让我们团结起来！」这样虽然具有煽动性但缺乏深入信息和分析的发言。

在深入分析了ReCon不同变体的表现后，研究者进一步研究了一阶和二阶视角转换，以及构想思考和改进思考在各个评估指标上的影响。

图5 多维度指标上的进一步评估，数值（取值0~1）表示两方法比较中被GPT-4偏好的比例

图5（a）和（b）显示，从ReCon中移除一阶和二阶视角转换会降低所有指标的表现。当进一步从去除改进思考和去除构想思考的ReCon版本中删除这两种视角转换时，几乎所有指标（除信息隐藏CCL外）的表现都有所下降，如图5（c）和（d）所示。

这些结果验证了一阶和二阶视角转换的有效性。

然而，图5（c）和（d）中降低的信息隐藏CCL分数表明，为了更好的隐藏私有信息，有必要将一阶（或二阶）视角转换与改进思考（或构想思考）相结合。这一系列的分析和图表进一步证实了ReCon框架在多维度评估中的优越性，特别是在包含欺骗性信息的环境中。

讨论

研究者进一步分析了阿瓦隆游戏日志，对ReCon框架在欺骗性环境的有效性做了定性的解释，并讨论了当前LLM的一些局限性。

ReCon如何帮助隐藏私有信息

在实验中可以发现，ReCon非常有助于提高LLM智能体在欺骗性环境中隐藏私有信息的能力，从而减少LLM智能体被欺骗和针对的情况。

研究团队从游戏日志中分析ReCon具体如何帮助LLM智能体隐藏私有信息。

如图6 (a)所示，构想思考中提出的先思考后说话的机制可以将关于私有信息的讨论限制在思考部分，从而一定程度上避免说话部分的泄露。

图6 （a）ReCon如何协助隐藏私有信息的定性解释；（b）现有LLM在对齐上的局限

此外，改进思考中对初始发言的进一步修改也可以极大程度上避免私有信息的泄露。上述观察与人类为避免说错话而「三思而后行」是一致的。

2. 对齐越狱

在探讨LLM如何与复杂人类价值观对齐时，研究者发现现有的对齐方法（如RLHF）虽然在一定程度上减少了模型产生恶意内容的可能性，但这种对齐主要集中在内容层面，而难以延伸到逻辑层面。

如图6（b）所示，研究团队观察到，虽然GPT-4会拒绝直接要求它生成欺骗内容的请求；但在相同的欺骗性逻辑下，如果换成阿瓦隆游戏的语境，GPT-4则不会拒绝。这种对模型对齐的「越狱」可能会为别有用心之人使用LLM生成危害性内容提供了方便，因此亟需研究针对逻辑而不是内容的对齐。

3.推理能力不足

图 7 LLM在推理能力上的局限

研究团队通过研究阿瓦隆游戏日志发现，目前LLM在复杂逻辑推理方面仍有所欠缺。如图7所示，例如当LLM智能体扮演Percival角色时，面对Morgana提出的一个包括Merlin和Morgana自己的队伍，该LLM智能体无法推断出Morgana的身份。

相比之下，对于较高阶的人类玩家，他们会迅速识别出队伍提出者必定是Morgana，而另一名玩家是Merlin。因为Merlin的能力是知道谁是坏人一方的角色，肯定不会提出这样的队伍组合。上述案例体现出LLM目前还较难完成复杂的逻辑推理。

4. 过于正式的回应

从游戏日志中，研究者发现大语言模型的回应风格有时过于正式和详细，语言风格与人类在游戏中的风格有着明显的差距。如表1所示，虽然在合适的提示下，LLM具备模仿人类语言风格的能力，但在阿瓦隆游戏中，在说话和思考的过程中模仿人类的语言风格可能会对其表现造成负面影响。

表1 模仿人类语言风格会对LLM智能体在阿瓦隆游戏中的性能造成负面影响

5. LLM智能体格式响应的比较分析

为了从LLM智能体的回应中提取关键信息，有时需要要求模型以特定的格式来回应。

比如，在团队提案投票环节，模型需要用方括号强调出他们的决定，例如「 $approve$ 」或者「 $disapprove$ 」，以便把决定和分析区分开。

结果发现，在合理的提示下，ChatGPT和Claude可以较好地遵循这些格式要求，但LLaMA2-70b-chat却较难在整局游戏中一直遵循格式要求。

总结来说，针对LLM智能体在欺骗性环境遇到的挑战，研究团队提出了ReCon架构以提升LLM智能体识别和应对欺骗的能力。

定量和定性的实验证明了ReCon框架在处理欺骗和误导性信息的有效性。研究团队给出了ReCon有效性的定性解释，并进一步讨论了当前LLM智能体的不足，为后续研究提供了可能的方向。

更多研究细节，可参考原论文。

参考资料：arxiv.org/abs/2310.01...

清华&通院让AI智能体成功识破谎言！ReCon框架玩转「阿瓦隆」，三思后行+换位思考

【新智元导读】 让AI智能体学会「三思而后行」和「换位思考」，实现对虚假欺骗信息的甄别与应对，为通用人工智能增加安全屏障。