CultureLLM 与 CulturePark：增强大语言模型对多元文化的理解

本文介绍团队刚刚在加拿大温哥华召开的顶会NeurIPS 2024上发表的两篇系列工作：CultureLLM 和CulturePark。此项研究以生成文化数据并训练文化专有模型为主要手段，旨在提升已有基础模型的多文化理解能力，使得其在认知、偏见、价值观、在线教育等不同场景下的文化理解任务上均得到提升。

**论文1：**CultureLLM: Incorporating Cultural Differences into Large Language Models,

**论文：**https://arxiv.org/abs/2402.10946

**代码：**https://github.com/Scarelette/CultureLLM

**论文2：**CulturePark: Boosting Cross-cultural Understanding in Large Language Models

**论文：**https://arxiv.org/abs/2405.15145

**代码：**https://github.com/Scarelette/CulturePark

CultureLLM

我们首先提出的模型叫做CultureLLM，其核心思想是利用大模型对Prompt的敏感性来生成句子结构多性化、语义不变的训练样本，以对当下的训练数据进行扩充。如下图所示，我们首先从World value survey这一权威调查问卷中采样50个问题和答案，然后利用数据增强对问题进行改写、答案则保持不变。之后，我们用种子数据和生成的数据来为每个文化训练一个专有模型。为了验证CultureLLM的有效性，我们在一些文化相关的下游任务上进行验证，包括内容审查任务以及生成任务，这些数据集都是多语言数据集。

语义不变的数据增强

我们数据增强的具体任务是生成具有相同语义信息的QA对。首先，我们从WVS中提取一个QA对，之后用GPT-4生成k个具有相同语义的句子，然后对生成的句子进行句法分析，转换成语义模版。最后，根据每个句子的上下文信息找到同义词来填补语义模版的空。

实验结果

我们微调了一个CultureLLM-One和9个针对特定文化的CultureLLM，涵盖以下9种文化：阿拉伯（Ar）、孟加拉（Bn）、中国（Zh）、美国（En）、德国（De）、韩国（Ko）、葡萄牙（Pt）、西班牙（Es）和土耳其（Tr）。这些文化既包括高资源文化，也包括低资源文化，因此可以作为具有代表性的评估对象。我们采用了与文化相关的公共数据集，这些数据集是多语言数据集，总共有59个测试集，涵盖9种语言，共包含68,607个测试样本。

我们在上图中展示了每种文化和任务的平均结果，并对每个结果进行了归一化处理后取平均值。我们的结论如下：

特定CultureLLM和CultureLLM-One都显著优于其他方法，其中特定CultureLLM表现最佳。具体而言，CultureLLM 显著超越了GPT-3.5（提升）、Gemini（提升）和RAG（提升），在部分任务上性能可与GPT-4媲美甚至更优。
CultureLLM-One在59项任务中比GPT-3.5高出4%以上，但性能不及特定文化模型。这表明单一 LLM可能不是解决低资源文化任务的最佳方案，因为不同文化的数据可能会相互交织，影响模型的性能。
从文化角度看，CultureLLM在英语、中文和西班牙语文化中表现最佳，而在韩语文化中没有显著提升，在所有四种模型的性能相似。我们推测原因可能是这些基础模型对韩语文化的接触较少。

CulturePark

在CulturePark 中，我们提出了一个由大型语言模型（LLM）驱动的多智能体框架，用于模拟人类跨文化交流。CulturePark 通过多智能体的交流, 用于生成多样化且高质量的文化数据集。包括一名主要代理人（英语代理 Lily），以及若干文化代理人（例如阿拉伯代理Abdul），这些文化代表与主要代理人互动并围绕一个文化话题进行讨论。当一个初始问题作为输入提供给框架时，这些智能体就该问题展开讨论并表达各自的观点。他们不同的文化背景和性别促成了多样化的观点，并相互激发更深层次的思考。原始问题及其真实答案可以通过创建新问题和更全面的答案来增强。

最终，这些互动生成了一个跨文化对话数据集，包含对不同文化的深刻且全面的思考以及丰富的信息知识。随后，我们对原始数据集进行精炼，进行事实验证并提高其多样性，用于微调特定文化的LLM，以应用于下游任务，如图所示。

多智能体自由交互的数据增强

CulturePark 是一个由大型语言模型（LLM）驱动的跨文化交流框架，用于生成文化相关的数据，来构建特定文化的LLM和进行文化对齐。该框架受认知冲突理论（CCT）和社会认知理论（SCT）的启发，模拟来自不同文化的人之间的交流，以促进对文化话题的更深入理解。CCT认为，认知冲突有助于个体进行更深入的思考，而SCT强调，个体可以通过解释和辩论深化对不同观点的理解。如图所示，我们设计了两种类型的文化智能体：主要代理人和文化代表。具体而言，主要代理人Lily来自英语文化，负责与来自不同文化的代表进行所有对话，如来自阿拉伯文化的Abdul和来自西班牙文化的Javier。我们向LLM输入系统提示，其中包含背景设定和初始问题以启动对话。初始问题来自于WVS和GAS，这两个流行的文化调查，如"你怎么看待'我生活中的一个主要目标是让我的父母感到骄傲'？请提供你的观点和理由"。之后，智能体进行跨文化对话以生成对话数据。目前，CulturePark 支持 8 种文化和 2 种性别，并且可以轻松添加更多文化。

我们设计了改进的提示技术，以保持高质量的对话。首先，通过设计自我校准 提示，减少了主要代理人和文化代表的文化偏见，以校准他们的输出。我们使用一个种子数据，其中包含目标文化对输入问题的态度，以引导对话。所有后续的陈述应与种子中的答案相符合。如图所示，我们引入了Abdul文化中的观点，并要求Abdul和Lily遵循各自的文化进行表达。其次，输出的冗余问题，即LLM在多轮对话后总是生成类似的对话，我们通过设计两种对话风格来解决这个问题：一种是自我引导 提示，可以引导对话生成更多样化且信息量丰富的数据，例如"在你的文化中有没有与之前讨论的问题相关的内容？"和"你同意她的观点吗？提供更多理由支持你的想法"；另一种是自由聊天，不需要人工参与，激发LLM的内在创造力。

实验结果

内容审核

内容审核对于维护不同文化背景下在线平台至关重要。为了进行此次实验，我们评估了我们文化特定模型在8种不同文化中的有效性：阿拉伯文化、孟加拉文化、中国文化、德国文化、韩国文化、葡萄牙文化、西班牙文化和土耳其文化。我们在7项内容审核任务上对这8种不同文化进行评估，任务目标是检测以下内容：仇恨言论、攻击性语言、垃圾信息、辱骂性言论、偏见性言论、威胁性言论和言论立场的零样本评估，评估指标为平均F1得分。

我们在上图中分别对文化和任务类型进行了分析。最有趣的观察是，我们的模型在5种文化中超过了GPT-4，并在其余3种文化中接近GPT-4的表现，尽管用于微调的数据是由GPT-3.5-turbo生成的，而GPT-3.5-turbo的性能远不及 GPT-4。

文化对齐

霍夫斯泰德的文化维度理论是一个基于从不同国家收集的数据，用于理解各国文化差异的框架。我们要求LLMs回答VSM 13中的24个问题，以评估文化对齐。如图所示，我们的模型大幅超越了GPT-3.5和GPT-4，表明它们在文化对齐和文化理解方面具有出色的能力。

文化教育

受到情境学习理论的启发，我们利用CulturePark 进行文化教育，在该平台上，我们微调的模型充当外国人与人们讨论文化问题，从而创造跨文化交流的情境并学习特定文化知识。例如，想要了解阿拉伯文化的人可以与我们的阿拉伯文化模型进行交流。我们聘请了24名中国参与者，每位参与者都获得了文化学习大纲，并被要求根据大纲与模型进行对话。他们可以向模型提出任何相关问题，并表达他们的观点。之后，参与者参加了VSM 13文化理解考试，他们之前从未接触过此类测试。

上图展示了不同参与者的平均结果。我们得出了以下发现：

首先，使用我们模型进行学习的参与者在所有文化的文化考试中表现优于使用GPT-4的参与者。这表明，我们的微调模型在文化理解方面优于GPT-4。
其次，参与者与我们的模型交流时，比与GPT-4 交流时满意度更高。
此外，许多参与者表示，GPT-4 的回答模糊不清。尽管我们已将 GPT-4 提示为来自特定文化的人，但它总是以中立的词汇回应，没有明确的观点或想法。而我们的模型能够提供直截了当的观点。

未来展望

增强大模型的多语言理解能力是使AI真正走入千家万户的重要环节。近年来关于文化与大模型的研究也渐渐被研究者所重视。我们期待未来会有更多更好的工作出现。