文章目录
前言
项目地址:https://github.com/LucasAlegre/morl-baselines
参考论文:A Toolkit for Reliable Benchmarking and Research in Multi-Objective Reinforcement Learning
人工智能研究中普遍存在着"复现性危机"。这并非源于学术不端,而是由多种复杂因素共同造成的。例如,许多AI模型的训练时间极其漫长,导致研究者难以进行严格、充分的统计分析;同时,论文中常常缺少关键信息,比如精确的超参数设置和那些"秘而不宣"的实现层优化技巧。

由此可以看出:在AI研究中,实现层面的细节优化,其影响力有时甚至超过算法本身的理论创新。
这篇论文引用的两个案例有力地印证了这一点:
• Engstrom等人的研究发现 : 在深度强化学习领域,对算法进行实现层面的优化,其带来的性能提升可能比更换一种全新算法的影响还要大 。
• Huang等人的工作更为具体: 他们为了在著名的PPO算法上达到顶尖性能,识别并总结出了多达"37个特定的代码级技巧"。
这些发现迫使我们直面一个残酷的现实:如果缺乏标准化的实现和公平的比较基准,许多所谓的"算法进步"可能只是特定代码优化的产物。这凸显了标准化工具对于确保研究结果的可靠性和推动领域真正进步的极端重要性。
强化学习算法的研究受到了广泛关注,这在很大程度上得益于其在一系列高挑战性问题上取得的卓越成效(Mnih 等,2015b;Silver 等,2017;Bellemare 等,2020)。这一发展趋势使得该领域每年发表的论文数量大幅增长。然而,强化学习研究的快速发展并未同步催生出设计周全、性能可靠的工具来支撑规范化的算法评估流程 ,这直接导致了该领域出现可复现性危机。例如,部分具有影响力的论文所呈现的研究结果,其有效性与可复现性时常受到科研人员的质疑。
强化学习研究的可复现性之所以常成为难题,存在多方面原因。其中一个核心因素在于,训练强化学习智能体需要耗费大量时间 ,这使得研究人员难以收集充足的数据,对实验结果开展严谨的统计分析。因此,部分研究者可能在缺乏充分实证的情况下,宣称其提出的方法性能优于当前的前沿技术。此外,许多论文未能提供足够的关键信息(如超参数取值、实现层面的优化策略等),导致其他研究者无法可靠地复现其研究结果。最后,实验环境实现缺乏标准化这一问题,也进一步加剧了可复现性的挑战。
相关工作
机器学习研究中实验结果的可复现性难题已成为公认的挑战。这一问题的重要程度不断提升,以至于像神经信息处理系统大会(NeurIPS)这样的顶级学术会议,都专门推出了可复现性计划,旨在完善该领域研究的实施、成果传播与评估标准(Pineau 等,2020)。
帕特森等人(Patterson et al., 2023)针对强化学习实证评估所采用的方法论问题展开了深入探讨,这些问题包括:在新环境中部署基准算法时超参数调优不足、仅基于有限次数的实验运行对性能指标取平均值、未对随机种子进行控制,以及出现环境过拟合现象等。
Gymnasium 环境库(托尔斯等,2023,前身为 OpenAI Gym(布罗克曼等,2016))为强化学习的研究与实验提供了标准化的应用程序编程接口(API)以及一系列参考环境。
该库的下载量已达数百万次,如今已成为强化学习领域的事实标准工具库,助力研究人员在各类问题中便捷地测试算法性能。尽管 Gymnasium 应用广泛,但它仅能对单目标马尔可夫决策过程(MDP)进行建模
一些近期推出的项目(如 openrlbenchmark(黄等,2023))可助力各类学习指标的分析,并通过权重与偏差(Weights and Biases)这类实验追踪软件应对可复现性挑战,这类工具能更便捷地将不同基准算法的超参数公开(比瓦尔德,2020)。
在多智能体强化学习领域,研究人员常用 PettingZoo(特里等,2021)设计新型环境,用 EPyMARL(帕普达基斯等,2021)开发新的学习算法。朱等人(Zhu et al., 2023)近期推出了 D4MORL 数据集仓库,该仓库包含专为离线场景下评估多目标强化学习算法而设计的数据集。尽管强化学习的这些分支领域已享受到标准化工具库带来的便利,但据我们所知,目前尚无公开且被广泛采用的标准化工具库,能够提供常用多目标强化学习任务域与前沿算法的可靠实现方案,以专门助力该领域的研究工作。
本文的第一个贡献 ------MO-Gymnasium 环境库,正是通过为多目标强化学习提供标准化 API 与一系列参考环境,来解决这一问题。
本文的第二个贡献 ------MORL-Baselines 算法库,包含一系列代码清晰、结构规范、维护及时且性能可靠的多目标强化学习算法实现方案。值得强调的是,库中所有算法均与 MO-Gymnasium 环境库的 API 完全兼容。
最后,新提出算法的性能通常需要与已发表的基准算法进行对比,但相关实验所采用的方法论并非总能达到科学严谨的标准。为解决这一问题,我们构建了一个数据集,包含 MORL-Baselines 算法在所有 MO-Gymnasium 环境中运行得到的训练结果。该数据集可通过 openrlbenchmark 平台获取,其中记录了每个算法在各项实验中使用的全部超参数信息。研究人员无需从零开始重新训练模型,即可基于该数据集将新算法与现有基准算法进行对比。
综合工具包
为了系统性地解决MORL领域的复现性难题,该研究提出的解决方案并非一个孤立的工具,而是一个由三部分组成的综合性工具包,构成了一个功能互补的"生态系统"。

- MO-Gymnasium :一个标准化的"虚拟试验场" 为了解决因测试平台不一致而导致结果无法比较的问题,研究人员创建了MO-Gymnasium。它提供了一个统一的API和超过20个精心设计的MORL环境,使得所有研究人员都能在完全相同的基准上轻松、公平地测试他们的算法,从根本上确保了比较的有效性。
推出了 MO-Gymnasium 环境库(其前身为 MO-Gym(Alegre 等,2022b))。MO-Gymnasium 的 API 在设计上尽可能与 Gymnasium 的 API 保持一致,这使其能够继承 Gymnasium 的诸多功能特性(例如用于修改任务域特定属性的封装器(wrappers)功能) ,仅在必要时对原生 API 进行拓展。这种设计让 MO-Gymnasium 自动实现了与各类多目标强化学习基准任务域的向后兼容。两个框架的核心区别在于:在 MO-Gymnasium 中,智能体执行动作后(即调用step方法后)返回的奖励值为向量形式,而非 Gymnasium 中的标量形式。
对于已知真实帕累托前沿(PF)的环境,用户可通过 MO-Gymnasium API 提供的pareto_front()方法直接调用该前沿数据。
此外,为保障实验可复现性,每个环境都配有专属版本号(例如后缀-v0)。每当环境的修改可能影响算法性能时,该任务域对应的版本号便会随之递增。
封装器模块:MONormalizeReward:用于对奖励向量中的指定分量进行归一化处理;
LinearReward:这一封装器可对多目标马尔可夫决策过程(MOMDP)环境的奖励函数进行线性标量化转换,将其转化为标准的马尔可夫决策过程(MDP)环境。------ 该功能使 MO-Gymnasium 能够直接兼容各类主流的、基于 Gymnasium 开发的强化学习工具库,例如 Stable-Baselines 3(Raffin 等,2021)与 cleanRL(Huang 等,2022b)。

- MORL-Baselines :一个可靠的"算法工具箱" 为了解决隐藏的实现细节(而非算法本身)主导性能的"独门秘方"问题,研究人员构建了MORL-Baselines。它首次开源了10多种先进MORL算法的高质量、标准化实现,确保每个人都从同一个可靠的基础上出发,让真正的算法创新得以彰显。
该库提供了丰富的功能模块,助力研究人员设计新算法,包括帕累托前沿的计算与分析方法、多指标性能评估工具、经验回放缓冲区以及实验追踪工具等。
采用神经网络作为函数逼近器的算法基于 PyTorch 框架(Paszke 等,2019)实现,而表格型算法则依托 NumPy 库(Harris 等,2020)开发。表 1 中的算法按照输出策略类型分类:一类是生成单一策略(基于用户给定的效用函数),另一类是生成多个策略(用于逼近 覆盖集(CCS)或帕累托前沿(PF))。此外,需注意不同算法的优化目标存在差异 ------ 部分算法针对期望标量化回报(ESR)进行优化,另一部分则以标量化期望回报(SER) 为优化目标。最后需要说明的是,MORL-Baselines 中的算法可支持不同类型的观测空间与动作空间(例如图像类观测空间)。

表格型算法
- 多目标 Q 学习(MOQL) (Van Moffaert 等,2013b):该算法是经典表格型 Q 学习算法(Watkins, 1989)的扩展版本,其核心是为每个目标分别学习并存储对应的 Q 值 ,再通过标量化函数将这些 Q 值转换为标量,以此指导智能体的动作选择。多策略多目标 Q 学习通过多次运行 MOQL 实现,每次运行对应不同的偏好权重,具体采用哪种方法选择下一个待优化的偏好权重向量,由对应的专用策略决定。目前,MORL-Baselines 支持三种权重向量生成方式:随机生成权重向量、乐观线性支持法(OLS)(Roijers, 2016)以及广义策略改进线性支持法(GPI-LS)(Alegre 等,2023)。
- 帕累托 Q 学习(PQL) (Van Moffaert & Nowé, 2014):该算法的目标是同时学习帕累托前沿中的所有策略,其实现方式是存储一组非支配 Q 值集合。在学习阶段,算法会采用与下一节所述类似的指标,将这些非支配 Q 值集合转换为标量,进而指导动作选择。需要注意的是,该算法仅适用于确定性环境。
深度多目标强化学习算法
- 期望效用策略梯度(EUPG) (Roijers 等,2018b):该算法提出了一种策略梯度更新方式,在期望标量化回报(ESR)场景下,能够同时考虑当前已获得的回报与未来预期回报,以此计算期望效用 。尽管该算法采用神经网络作为策略函数,但目前仅在离散动作空间场景下完成了性能验证。
- 包络算法(Envelope)(Yang 等,2019):该算法使用单个神经网络,以偏好权重向量为条件输入(Abels 等,2019),实现对覆盖集(CCS)的逼近。
- 预测引导式多目标强化学习(PGMORL) (Xu 等,2020):这是一种进化算法 ,其核心是维护一个策略种群 ,种群内的策略均通过近端策略优化(PPO)算法(Schulman 等,2017b)训练得到。该算法的特点是在每次迭代中,预测出最具潜力的偏好权重向量与策略进行后续训练,从而更高效地优化帕累托前沿。
- 帕累托条件网络(PCN)(Reymond 等,2022):该算法采用单个神经网络,以各目标的期望回报为条件输入,通过监督学习的方式训练网络,使其能够在确定性环境中预测出可产生期望回报的动作。
- 广义策略改进线性支持法(GPI-LS)(Alegre 等,2023):该算法基于广义策略改进(GPI)理论(Barreto 等,2017),对所学覆盖集中的策略进行组合,并在每一步训练中确定智能体应优先优化的偏好权重向量。
- 广义策略改进优先动态规划(GPI-PD):这是 GPI-LS 算法的基于模型扩展版本,该算法利用学到的环境模型与广义策略改进理论,对经验回放缓冲区中的样本进行优先级排序。
- 凹增强帕累托 Q 学习(CAPQL) (Lu 等,2023):该算法是软演员 - 评论家(SAC)算法(Haarnoja 等,2018)的多目标扩展版本,其实现方式是将奖励权重向量作为策略网络与评论家网络的条件输入。
评估指标
在单目标强化学习场景中,策略性能 通常通过对应的期望回报 来衡量。与之不同的是,多目标强化学习场景下的策略性能,一般基于帕累托前沿计算的多目标指标进行评估 。尽管这些指标已在多目标优化领域得到广泛应用,但多目标强化学习领域尚未就 "不同问题与场景下应优先选用何种指标" 形成统一共识。

为此,本框架支持所有常用的多目标强化学习评估指标。这些指标可分为两类:基于效用的指标 (这类指标需要对效用函数的特性作出假设,例如线性假设)与公理化指标(这类指标无需任何假设,但向用户提供的性能信息的直观性可能较弱)。关于这些指标的详细论述,可参考 Hayes 等人的研究(2022)。

- 基准数据集(Benchmark Dataset) :一个公开透明的"排行榜" 为了解决训练时间过长导致无法进行严格比较的难题,研究团队建立了一个公开的基准数据集。该数据集托管在openrlbenchmark平台上,允许研究者即时将自己的成果与预先计算好的顶尖结果进行对比,无需耗费数月时间复现所有基线,极大地提升了研究效率和整个领域的透明度。
用户开展新实验时,可借助该数据集将新的实验结果与已有数据进行组合、对比及聚合,并通过 Weights and Biases(W&B)可视化面板实现结果的实时可视化 。此外,用户还能基于后续分析需求处理原始数据,无需重新训练前沿算法,即可直接对比新算法与前沿技术的性能指标;同时,该数据集还存储了每次实验运行对应的超参数与命令行配置。例如,用户可通过 W&B 面板中名为 eval/front 的模块,获取基准测试中各算法求解得到的近似帕累托前沿。


补充
- 根据该论文,导致强化学习领域出现"可复现性危机"的因素有哪些?
训练RL智能体所需时间长,难以收集足够数据进行严格统计分析;论文中常缺少超参数值和实现优化等关键信息;以及使用的环境实现缺乏标准化。
- MO-Gymnasium API与标准Gymnasium API的主要区别是什么?这个区别如何体现多目标特性?
前者在step方法调用后返回的是一个奖励向量(vector),而不是一个标量(scalar)。这个设计直接体现了MORL需要同时处理多个目标奖励的特性。