AI Alignment: A Comprehensive Survey---分布转移下的学习

分布转移下的学习

可靠的人工智能系统的构建在很大程度上取决于它们适应不同数据分布的能力。训练数据和训练环境通常是对真实部署场景的不完美近似,并且可能缺少关键要素,例如对抗压力 (Poursaeed et al, 2021)(例如,监督学习系统中的高斯噪声 (Gilmer et al, 2019) 和自动驾驶系统中的影子攻击 (Ma et al, 2012))、多智能体交互 (Critch and Krueger, 2020; Dafoe et al, 2021)、人类监督者无法有效评估的复杂任务 (Leike et al, 2018)29 以及可以被玩弄或操纵的奖励机制 (Krueger et al, 2020)。训练分布和测试分布(或环境)之间的这种差异被称为分布偏移(Krueger 等人,2020 年;Thulasidasan 等人,2021 年)。

因此,在训练分布下保持一致的 AI 系统(即追求符合人类意图的目标)可能无法在部署(或测试)分布下保持其一致性,从而可能导致部署后出现严重的错位问题。这种潜在的失败促使人们研究在数据分布中保留对齐属性(即遵守人类意图和价值观)。

从对齐的角度来看,我们更关心的是 AI 系统追求不一致和有害的目标,而不是追求目标的能力不足。因此,强调对齐属性意味着我们专注于跨分布的目标泛化,而不是能力的泛化(Di Langosco 等人,2022 年;Ngo 等人,2024 年)。本节主要讨论在分布偏移下学习时对齐属性的保留。

我们首先介绍分布偏移带来的对齐挑战(§3.1)。随后,我们深入研究解决分布偏移的方法,并特别讨论两种方法:(1)在训练过程中引导优化的算法干预(§3.2),以及(2)通过在训练过程中引入特定元素来扩展训练分布的数据分布干预(§3.3),包括对抗训练(Yoo and Qi,2021;Bai et al,2021;Ziegler et al,2022)和合作训练(Dafoe et al,2021)(§3.3.2)。我们在分布偏移下学习的框架如图 6 所示。

分布偏移挑战

在介绍具体技术之前,我们首先说明为什么对齐的主要挑战之一是在分布偏移下学习,更具体地说,是在分布偏移下保留对齐属性(即遵守人类意图和价值观)。我们介绍了两个与分布偏移问题有关的对齐挑战,即目标错误泛化(Di Langosco 等人,2022 年)和自动诱导分布偏移(ADS)(Krueger 等人,2020 年)。

AI 系统的训练优化了它们在训练输入分布下对训练奖励/损失的追求。然而,这种坚持可能不适用于输入分布发生质变即分布偏移的情况。这些变化包括对抗压力(Poursaeed 等人,2021 年)、多智能体交互(Critch 和 Krueger,2020 年)、人类监督者无法有效评估的复杂任务(Di Langosco 等人,2022 年)以及可以被玩弄或操纵的奖励机制(Krueger 等人,2020 年)。这里值得区分两种不同的失败模式:目标错误概括(Di Langosco 等人,2022 年),其中给出了原始分布和偏移分布,以及自动诱导的分布偏移(Krueger 等人,2020 年),其中人工智能系统通过自己的行为改变数据分布以追求奖励。

目标错误泛化,这类挑战指的是 AI 系统在训练分布中表现完美,但在训练分布中学习到的能力无法在 OOD 部署中泛化,AI 可能会表现出不符合人类意愿的目标追求 (Di Langosco et al, 2022)。目标错误泛化30 应与其他形式的错误泛化 (例如,能力错误泛化) 区分开来,在 OOD 设置中,代理变得无能;相反,具有目标错误泛化的代理在 OOD 设置中能够胜任地追求不想要的目标。

一个简单的例子是虚假相关性 (或捷径特征) 的情况 (Geirhos et al, 2019; Di Langosco et al, 2022)。例如,在图像分类数据集中,绿草是标签牛的高度预测特征。然而,必须注意的是,这个特征需要在各种数据分布中更加一致和可靠 (Murphy, 2023)。此外,因果混淆(即不知道因果结构)中的错误泛化(顾问与环境之间的交互)可能导致目标错误泛化(De Haan 等人,2019 年;Tien 等人,2022 年)。

图 6:分布偏移下的学习框架。分布偏移带来的主要挑战是目标错误泛化和自动诱导的分布偏移(§3.1)。在我们的框架中,我们还介绍了两种解决分布偏移的方法:在训练过程中引导优化的算法干预(§3.2)和通过引入现实世界元素有针对性地扩展训练分布的数据分布干预(§3.3)。

目标错误泛化的一大危险在于"针对人类真正想要的东西进行优化"和"针对人类的赞许进行优化"之间的难以区分;后者可能包括欺骗或操纵人类评估者(Shevlane 等人,2023 年)以获得他们的赞许。例如,Amodei 等人(2017 年)发现,在一项需要机械手抓取小球的任务中,机械手会利用镜头前的视差来伪造动作,使其看起来像是抓到了球,但实际上并没有抓到球。这种行为会欺骗人类注释者,使其认为任务已经完成。

当 AI 系统通过人类反馈进行训练或微调时,无法区分这两个目标,因为这两个目标在训练中都表现完美,而且不清楚 AI 系统会学习哪一个。事实上,在训练过程中,人类评估者可能会被欺骗或操纵,这意味着 AI 系统可能更倾向于优化人类的赞许,而不是人类想要的。这种现象的当前例子存在于推荐系统 (Kalimeris et al, 2021; Adomavicius et al, 2022)、法学硕士 (Perez et al, 2023) 和强化学习系统 (Amodei et al, 2017)。

最后,与目标错误泛化密切相关的一种故障模式是 mesa 优化器的错位 (Hubinger et al, 2019c),其中具有学习模型权重的 ML 模型在推理过程中在其自身内执行优化 ("mesa 优化") (Hubinger et al, 2019c; Dai et al, 2023),并且这种优化的目标与模型的训练目标不一致。

自动诱导分布偏移 (ADS) 在训练 AI 系统时,我们通常只考虑代理本身的优势和劣势,而忽略了这些代理对环境的影响。过去的研究通常假设数据是独立同分布的(Besbes et al, 2022),忽略了算法对数据分布的影响。然而,Krueger et al (2020) 认为,在现实中,代理可以在决策和执行过程中影响环境,从而改变环境生成的数据的分布。他们将这类问题称为 ADS。一个现实世界的例子是推荐推荐系统,推荐算法选择的内容可能会改变用户的偏好和行为,从而导致用户分布的转变。分布的转变反过来又进一步影响推荐算法的输出(Carroll et al, 2022)。随着人工智能系统对世界的影响越来越大,我们还需要考虑在智能体融入人类社会后对整个社会数据分布的潜在进一步影响。

图 7:总结与算法干预相关的关键概念和文献的树状图。根节点表示旨在在训练过程中引导优化的算法干预。主要分支代表两种主要方法,即跨分布聚合(旨在在训练期间最小化不同分布的风险,以基于不变关系而不是虚假特征找到预测因子)和通过模式连接导航(旨在基于模式连接进行微调以增强模型泛化性能)。进一步的子分支列出了重要技术,例如分布稳健优化 (DRO)、不变风险最小化 (IRM)、风险外推 (REx) 和基于连接的微调 (CBFT)。

算法干预

在说明算法干预方法时,我们首先概述了两类在训练过程中引导对各种分布进行优化以缓解分布转变的方法,即跨分布聚合(§3.2.1)和通过模式连接进行导航(§3.2.2)。在第一部分中,我们介绍了从最初的经验风险最小化 (ERM) (Vapnik, 1991) 方法到风险外推 (REx) (Krueger et al, 2021) 等方法,后者旨在缓解因模型依赖虚假特征而引起的问题。在第二部分中,我们介绍了基于连通性的微调,它指导训练期间损失景观的导航,以鼓励在非虚假相关性上收敛,并使用模式连通性的见解来实现这一点 (Lubana et al, 2023)。

跨分布聚合

分布转移的主要原因之一是模型中与核心目标不同的虚假相关性 (Geirhos et al, 2019)。通过将不同领域(或不同分布)的学习信息整合到优化目标中,我们期望模型学习真实的信息和不变的关系。在以下段落中,我们首先介绍 ERM 作为背景,然后介绍一些方法,通过在训练过程中整合不同分布的损失景观来直接学习如何解决分布偏移问题。

经验风险最小化 (ERM) 考虑一个场景,其中已经开发了一个模型来有效地根据特征识别对象。优化目标可以表示为:其中 L(y, f (x,w)) 表示数据标签 y 与模型输出 f (x,w) 之间的损失,而 P(x,y) 表示目标数据分布 (Vapnik, 1991)。

然而,数据集和现实世界之间往往存在偏差,这意味着从数据集中学习到的特征不一定是我们想要模型获取的特征。ERM 是统计方法中用来优化这种偏差的一种策略。它基于这样的假设:鉴于现实世界目标数据分布的不可访问性,数据集中的经验数据理想情况下应该与这个未知的目标分布非常接近 (Vapnik, 1991; Zhang et al, 2018b)。在这种情况下,目标函数得到优化并重新定义为:其中 l 可以是一个训练分布或不同训练分布中的不同示例。

最小化上述目标函数允许模型学习不同分布中的不变关系。朴素 ERM 做出了一个朴素的假设,即数据是从目标数据分布中采样的。但是,如果源分布(或训练分布)与目标分布之间存在显着差异,仍然会出现严重的泛化问题(Szegedy 等人,2013 年)。

分布稳健优化 (DRO) 许多研究认为,对分布偏移的敏感性通常源于对与核心概念无关的虚假相关性或捷径特征的依赖(Geirhos 等人,2019 年;Hendrycks 和 Dietterich,2018 年)。例如,模型可能会根据背景特征进行判断,而不是使用图像中的正确特征(Geirhos 等人,2019 年;Beery 等人,2018 年)。在先前研究奠定的基础之上(Ben-Tal 等人,2009 年;Peters 等人,2015 年;Krueger 等人,2021 年),OOD 泛化可以表述如下:

这种优化旨在通过降低风险函数集 {re |e ∈ D} 中的最大值来增强扰动集(表示为 D)的最坏情况性能。在分布稳健性优化 (DRO) (Duchi et al, 2021) 中,扰动集涵盖不同领域的训练分布的混合,通过最小化上述目标函数,我们期望模型可以找到不同训练分布之间的不变关系。然而,应该注意的是,简单地将 DRO 应用于过度参数化的神经网络可能会导致次优结果 (Sagawa et al, 2020)。因此,将 DRO 与增加的正则化技术(例如 l2 惩罚(Cortes et al, 2009)或提前停止(Prechelt, 2002))相结合可以显着提高泛化性能。

有关 DRO 的更多详细信息,请参阅例如 Rahimian 和 Mehrotra (2019);Sagawa 等人 (2020); Lin 等人 (2022a) 不变风险最小化 (IRM) Arjovsky 等人 (2019) 引入了一种创新的学习范式,用于估计不同训练环境中的非线性、不变、因果预测因子,从而促进稳健的 OOD 泛化。IRM 旨在训练一个在各种环境中具有稳定性能的预测模型,同时降低对虚假特征的依赖性。IRM 可以被认为是不变因果预测 (ICP) (Peters 等人,2015) 的扩展,它涉及假设检验以确定导致每个特定环境内结果的直接因果特征,而不是间接特征。IRM 进一步将 ICP 扩展到以高维输入数据为特征的场景,其中变量可能缺乏明确的因果意义。IRM 的基本思想是,当面对许多能够实现低经验损失的函数时,选择一个在所有环境中都表现出强大性能的函数更有可能获得基于因果特征而不是虚假特征的预测因子 (Murphy, 2023)。

风险外推 (REx) REx 的基本形式涉及对一组扰动外推域 (MM-REx) 进行稳健优化,并对训练风险的方差施加额外惩罚 (V-REx) (Krueger et al, 2021)。通过降低训练风险并增加训练风险的相似性,REx 迫使模型学习不同域分布中的不变关系。放大训练域之间的分布变化可以减少风险变化,从而加强风险的平等。以 CMNIST(Arjovsky et al, 2019)为例,尽管建立颜色与标签之间的联系比连接 logit 与标签更直接,但增加颜色的多样性可以破坏这种虚假的相关性(或快捷特征),并帮助模型学习 logit 与标签之间真正的不变关系。根据先前的研究(Vapnik, 1991; Peters et al, 2017; Krueger et al, 2021),REx 可以表述如下:首先,风险函数可以定义如下:

其中 L(·) 表示固定损失函数,不同的训练域或环境可以表示为 Pe (X,Y) 分布。接下来,MM-REx 项可以建模为:其中 n 表示不同分布或域的数量,λmin 控制风险外推的程度。继续讨论 V-REx 项,它可以建模为:

其中 α ≥ 0 控制风险降低和强制风险平等之间的权衡。在 MM-REx 项中,λmin 可以设置为接近 −∞;因此,特定域的损失可能很高,这意味着模型可能会学习虚假相关性。最小化 MM-REx 和 V-REx 可以降低训练风险并增加训练风险的相似性,从而鼓励模型学习不变关系。此外,REx 在实验环境中显示出巨大的潜力(Krueger et al, 2021),特别是在因果识别方面,使其成为实现稳健泛化的有力方法。

解决 LLM 中的分布转移问题在 LLM 的背景下,先前的研究表明,RL 经常利用捷径来获得高回报,而忽略了具有挑战性的样本(Deng et al, 2023b)。这种对长尾训练样本的规避使得 LLM 无法有效处理一般场景下的分布变化,这不符合人们对这些模型的期望:作为通用 AI 助手,它们应该在各个领域保持一致的性能。最近,许多工作试图在 LLM 中实现跨分布聚合来解决这个问题。Zheng 等人 (2024) 使用 RL 在不同的数据组或领域中学习统一的策略,自动对数据进行分类并有意最大化性能方差。这种策略增加了对具有挑战性的数据的学习能力,避免了对简单数据的过度优化。Yao 等人 (2024) 专注于利用域间连接。具体来说,它们在训练阶段获得特定于训练域的函数,并在测试阶段根据领域关系调整其权重,实现鲁棒的 OOD 泛化。

通过模式连接进行导航

继上面关于跨分布聚合的讨论之后,在本节中,我们介绍模式连接作为先决内容。然后,我们主要讨论基于连通性的微调 (CBFT) (Lubana 等人,2023) 方法,说明模式连通性如何通过改变一些参数来引导模型基于不变关系而不是虚假相关性进行预测。

模式连通性模式连通性是指人们可以在损失函数空间中识别出一条连接两个或多个不同局部最小值或模式的直接路径的现象 (Garipov 等人,2018;Draxler 等人,2018)。根据先前的研究(Benton 等人,2021 年;Pittorino 等人,2022 年;Lubana 等人,2023 年),正式定义如下:模型在数据集 D 上的损失表示为 L(f (D;θ)),其中 θ 表示模型的最优参数,f (D;θ) 表示在数据集 D 上训练的模型。如果 L(f (D;θ)) < ϵ,我们将 θ 定义为该数据集上损失的最小化器,其中 ϵ 是一个较小的标量值。

如果存在从 θ1 到 θ2 的连续路径 γ,使得当 θ0 沿该路径 γ 变化时,始终保持以下条件,则通过在数据集 D 上进行训练实现的最小化器 θ1 和 θ2 被认为是模式连通的:

本质上,模式连接需要在参数空间中始终如一地找到最小化器之间的连接路径,遍历低损失区域而不深入高损失区域。这意味着即使在参数空间内对模型的参数进行微小调整,模型的性能也可以保持相对稳定,从而减轻显着的性能下降(Garipov 等人,2018 年)。这一概念为设计更有效的优化算法奠定了基础,使模型能够在不同任务之间共享知识和经验,从而提高模型性能和泛化能力。

此外,如果两个模型使用相同的输入属性进行预测,我们可以将它们定义为机制相似。一些研究表明,缺乏线性连接意味着机制上的差异,这表明简单的微调可能不足以消除在训练前阶段学习到的虚假属性(Lubana 等人,2023 年;Juneja 等人,2022 年)。然而,通过微调来解决非线性连接区域很有希望,从而有效地修改模型的机制来解决OOD错误泛化的问题。

基于连通性的微调(CBFT)如上所述,最近的研究表明,两个模型之间缺乏线性连通性意味着根本的机制差异。Lubana等人(2023)发现,当对相似的数据进行训练时,模型往往会形成相似的推理机制。这可能是模型出现偏差的一个重要原因,例如依赖图像的背景信息进行分类而不是图像中描绘的对象。如果在微调过程中不调整这种模型机制,模型可能会依赖于这些错误属性。为了克服这个问题,他们提出了一种改变模型机制的有效策略,旨在最大限度地减少以下损失:其中,原始训练数据集表示为 D,我们假设可以获得一个没有虚假属性 C 的最小数据集,表示为 DNC。

除了 LCE 表示模型预测 f (DNC;θ) 和真实标签 y 之间的交叉熵损失之外,CBFT 还有两个主要目标:(1) 第一个目标是通过在损失景观中重新定位模型来修改模型的底层机制,打破与当前最小化器的任何线性联系。这是通过最大化 LB(称为屏障损失)来实现的。(2) 第二个目标涉及减轻对原始训练数据集中虚假属性的依赖。这是通过优化 LI 来实现的,从而无需 C 即可发现不变关系。CBFT 有望将机制从通过虚假特征预测目标转变为通过真实特征预测目标,只需改变模型的部分参数即可。

数据分布干预

除了算法优化之外,扩展训练数据分布以包含现实世界元素的方法也可以减少训练和部署分布之间的差异。在本节中,我们特别关注对抗压力和多智能体动态的引入。

对抗性训练

AI 系统可能缺乏对抗鲁棒性,这意味着某些旨在使其失败的输入会导致模型表现不佳 (Zheng et al, 2016),这已在图像 (Huang et al, 2017) 和文本 (Zou et al, 2023b; Shah et al, 2023) 中得到体现,图像 (Geirhos et al, 2019; Bhattad et al, 2019; Shamsabadi et al, 2020; Casper et al, 2022) 和文本 (Jia and Liang, 2017) 中语义特征的变化,甚至完全从头开始生成的示例 (Song et al, 2018b; Ren et al, 2020; Ziegler et al, 2022; Chen et al, 2024b) 中得到体现。这些故障模式在红队部分 (§4.1.3) 中介绍。值得注意的是,除了 AI 模型策略的稳健性之外,控制高级 AI 系统训练的奖励模型的稳健性也很重要,因为梯度下降优化过程可以看作是一个可能利用奖励模型漏洞的对手,这种现象被称为奖励模型过度优化,已被实验证明 (Gao et al, 2023)。

我们认为对抗性稳健性是一种分布偏移失败的情况,部分原因是 AI 系统的训练分布(训练输入不是对抗性构造的)和测试分布(示例可以对抗性构造)之间的不匹配。对抗训练方法 (Yoo and Qi, 2021; Bai et al, 2021; Ziegler et al, 2022) 通过多种方式将对抗性示例引入训练输入 (Bai et al, 2021),从而扩大训练分布并缩小分布差异,从而缓解了这一问题。

对抗训练与对抗攻击类似,最早始于图像分类设置 (Engstrom et al, 2019a),但后来扩展到广泛的设置。除了视觉模型之外,对抗训练算法还被提出用于语言模型(Wang et al, 2019a; Liu et al, 2020; Ziegler et al, 2022)、视觉-语言模型(Gan et al, 2020; Berg et al, 2022)等。在模型类型方面,对抗训练已经应用于分类模型(Bai et al, 2021)、生成模型(Ziegler et al, 2022)和 RL 代理(Pinto et al, 2017; Tan et al, 2020)。

对抗训练主要有两种类型:基于扰动和不受限制。

  • 基于扰动的对抗训练。与基于扰动的对抗攻击(见§4.1.3)类似,基于扰动的对抗训练将对抗性扰动的示例(即对正常数据输入进行微小更改,旨在降低模型性能)引入训练(Goodfellow 等人,2014 年)。此类技术(Bai 等人,2021 年)包括在损失函数中添加正则化项的基线方法,以评估模型在基于梯度的扰动输入(Goodfellow 等人,2014 年)、无监督(Carmon 等人,2019 年)或自监督(Hendrycks 等人,2019 年)方法上的性能,以及各种补充技术,例如引入课程学习,在训练过程中逐渐加剧对抗压力。
  • 无限制对抗训练。镜像无限制对抗攻击(见§4.1.3),无限制对抗训练将基于扰动的对抗训练推广到包括任何可以欺骗模型的对抗性示例,而不一定是通过向另一个示例添加少量噪音而获得的对抗性示例。这包括生成对抗训练,它使用生成模型从头开始产生任意对抗输入(Poursaeed 等人,2021),以及在训练输入中添加句法或语义上修改的对抗示例(Ziegler 等人,2022;Mao 等人,2022),这令人惊讶地消除了对模型非对抗性能的负面影响。大多数关于无限制对抗攻击的研究也适用于无限制对抗训练(概述见§4.1.3),并且构成无限制对抗训练方法的重要组成部分。

图 8:总结与数据分布干预相关的关键概念和文献的树状图。根节点表示数据分布干预,它试图在训练期间结合多种分布,例如对抗性示例和多智能体交互。主要分支代表有前途的方法,即结合对抗压力的对抗训练和结合多智能体动态的合作训练。进一步的子分支列出了关键技术,例如基于扰动和不受限制的对抗训练,合作方法还包括环境构建、社会现实设置、零样本协调和其他基于多智能体强化学习 (MARL) 的技术。

合作训练

合作人工智能(Dafoe 等人,2020 年,2021 年)旨在解决人工智能系统的不合作和集体有害行为(见§1.1.2)。人工智能系统缺乏协作能力可以看作是分布转移下的一种失败形式------系统是在单智能体环境中进行训练的,这与现实世界有着本质的不同,现实世界可能是多智能体。这种差异实际上是数据分布的差异,因为环境中其他智能体的存在会从本质上改变环境状态转换动态,从而导致观察和奖励的联合分布发生变化。我们通过扩展训练分布以通过协作训练包含多智能体交互来解决这个问题。

我们介绍了协作人工智能的一个分支(我们称之为协作训练),它专注于多智能体强化学习 (MARL) 训练的特定形式,并在 §4.3.1 中补充了正式的博弈论方法。合作训练的 MARL 分支倾向于强调 AI 系统的协调能力(例如,机器人足球队的协调(Ma 等人,2022 年)),而不是合作激励(例如,减轻像囚徒困境这样的失败模式(Phelps and Russell,2023 年)),后者是博弈论分支的重点。在这里,我们只介绍 MARL 分支,因为它与扩展训练数据分布相关。

MARL 领域传统上分为三个分支:完全合作(所有代理共享相同的奖励函数)、完全竞争(底层奖励构成零和博弈)和混合动机设置(奖励激励既不是完全合作也不是完全竞争,对应于一般和博弈)(Gronauer and Diepold,2022 年)。其中,完全合作和混合动机设置与合作 AI 最相关,后者因其相对重要而受到特别强调被忽视(Dafoe 等人,2020 年)。我们还涵盖了其他研究前沿,包括零样本协调(Hu 等人,2020 年;Treutlein 等人,2021 年)、环境构建(Leibo 等人,2021 年)和社会现实环境(Du,2023 年)。

  • 完全合作的 MARL。MARL 的完全合作设置的特点是所有代理共享奖励函数(Gronauer 和 Diepold,2022 年)。这种统一性使我们能够完全忽略合作激励问题(因为所有激励都是完全一致的),而是专注于通过协调有效地实现共同目标。常用的方法(Oroojlooy 和 Hajinezhad,2023)处于中心性范围内------从纯独立训练的基线解决方案(Tan,1993)到用分散通信补充独立训练的方法(Foerster 等人,2016),然后是价值分解,分解全局奖励并确定每个代理的贡献(Guestrin 等人,2001;Sunehag 等人,2018)。
  • 混合动机 MARL。MARL 的混合动机设置的特点是合作和竞争激励的混合------代理的奖励并不相同,但也不是零和游戏(Gronauer 和 Diepold,2022)。这包括团队相互对抗的游戏环境(Jaderberg 等人,2019)和更细致入微的设置,例如谈判(Cruz 等人,2019;FAIR 等人,2022)。混合动机 MARL 的技术示例(同样从分散到集中排序)包括使用类似 IRL 的方法从人类互动中学习(Song 等人,2018a),使沟通具有战略性和选择性(Singh 等人,2018)以及通过授予评论家访问全局信息的权限来调整演员评论家方法(Lowe 等人,2017)。
  • 零样本协调。零样本协调的目标是使 AI 系统能够与其他代理(包括人类代理)有效协调,而无需一起训练或专门设计为与这些代理协调(Hu 等人,2020;Treutlein 等人,2021)------完全陌生的人类仍然可以有效合作,我们希望 AI 系统也能做到这一点。早期的研究成果以"临时协调"的名义发表,涵盖评估(Stone 等人,2010 年)、博弈论和统计方法(Albrecht 和 Ramamoorthy,2013 年)以及人类建模(Krafft 等人,2016 年)。最近的进展包括其他游戏(Hu 等人,2020 年),它将训练伙伴策略的某些方面随机化以实现稳健性,32 引入多层递归推理(Cui 等人,2021 年),以及异信念学习(Hu 等人,2021 年),通过将伙伴过去的行为解释为非共谋策略,消除了自我游戏中的任意惯例。
  • 环境构建。游戏环境一直是合作训练的流行场景,例如 Hanabi(Muglich 等人,2022 年)、外交(Cruz 等人,2019 年;FAIR 等人,2022 年)和足球(Ma 等人,2022 年)。从更简单的角度来看,博弈论模型,尤其是基于经典多智能体困境的模型,也是一种流行的环境选择(Wang 和 Beliaev,2021 年;Christoffersen 等人,2023 年)。此外,Melting Pot(Leibo 等人,2021 年)是一个多智能体环境框架和套件,专为合作 AI 研究而设计。也有关于无监督环境设计的研究,旨在实现环境构建过程的部分自动化(Dennis 等人,2020 年;Jiang 等人,2021 年)。
  • 社会现实环境。有人提出,合作 AI 研究应更多地关注社会现实环境 (Du, 2023),这些环境往往是大规模多智能体 (包括 AI 智能体和人类智能体),在智能体的组成和交互模式方面都高度多样化。这一愿景 (Critch and Krueger, 2020) 的影响包括但不限于构建更现实和开放的环境 (Klügl et al, 2005; Lehman et al, 2008; Wang et al, 2019b; Suo et al, 2021)、扩大 MARL (Sun et al, 2020; Du, 2023) 以及纳入新的控制手段,例如社会制度和规范 (Singh, 2014)。
相关推荐
熊文豪14 分钟前
深入解析人工智能中的协同过滤算法及其在推荐系统中的应用与优化
人工智能·算法
Vol火山24 分钟前
AI引领工业制造智能化革命:机器视觉与时序数据预测的双重驱动
人工智能·制造
m0_748240541 小时前
AutoSar架构学习笔记
笔记·学习·架构
tuan_zhang1 小时前
第17章 安全培训筑牢梦想根基
人工智能·安全·工业软件·太空探索·战略欺骗·算法攻坚
Antonio9152 小时前
【opencv】第10章 角点检测
人工智能·opencv·计算机视觉
互联网资讯2 小时前
详解共享WiFi小程序怎么弄!
大数据·运维·网络·人工智能·小程序·生活
helianying552 小时前
AI赋能零售:ScriptEcho如何提升效率,优化用户体验
前端·人工智能·ux·零售
积鼎科技-多相流在线3 小时前
探索国产多相流仿真技术应用,积鼎科技助力石油化工工程数字化交付
人工智能·科技·cfd·流体仿真·多相流·virtualflow
siy23333 小时前
[c语言日寄]结构体的使用及其拓展
c语言·开发语言·笔记·学习·算法