从“盲目试错“到“智能导航“的化学空间搜索策略

一、第一性原理分析：为什么"智能搜索"比"生成"更接近材料发现的本质

1.1 化学空间的规模：超越直觉的数字

在项目二中，我们分析了生成式模型如何"创造"新材料。但生成只是逆设计的第一步------生成的候选材料需要在近乎无限的化学空间中被"找到"。这个空间到底有多大？

考虑一个最简单的场景：一个包含 5 种主元元素的高熵合金。如果每种元素的浓度以 1% 为步长在 5%-35% 之间变化（高熵合金要求每种主元元素浓度在 5%-35% 之间，且总和为 100%），那么这个 5 维空间中可行的成分组合数量就超过 10 万种 。如果再考虑工艺参数（熔炼温度、保温时间、冷却速率、热处理温度和时间等），搜索空间扩大到 数百万甚至数亿种组合。

生成式模型可以在这个空间中"创造"候选点，但如何确保这些候选点是"好的"？如何确保我们不会错过更好的候选点？这就是搜索策略的核心问题。

1.2 两类搜索哲学的根本区别

生成式方法 （项目二覆盖）的核心假设是：我们可以从已知材料的分布中"学习"什么材料是"好的"，然后生成类似的新材料。这是一种自下而上的方法------从数据中学习模式，然后外推。

搜索优化方法 （本项目的核心）的核心假设是：我们可以在化学空间中"导航"------通过策略性地选择下一次实验的位置，用尽可能少的实验次数找到最优解。这是一种目标导向的方法------从目标性能出发，逐步逼近最优解。

这两种方法不是相互替代的，而是互补的：生成式方法用于"发现全新的候选区域"，搜索优化方法用于"在候选区域内高效搜索最优解"。但在实际操作中，由于实验成本的限制，搜索优化方法往往更接近材料发现的实际工作流程------因为科学家通常是在一个已知的大致范围内（"CoCrFeNi 基高熵合金"）搜索最优的成分和工艺组合，而不是从零开始"创造"一个全新的材料体系。

二、强化学习：在化学空间中"学会游戏规则"

2.1 RL 在材料逆设计中的核心机制

强化学习的核心框架可以概括为：智能体（Agent）在环境（Environment）中执行动作（Action），获得奖励（Reward），通过不断试错学习最优策略（Policy）。

在材料逆设计的语境下：

智能体：RL 算法（如 DQN、PPO、A3C 等）
环境：虚拟的材料设计空间（成分组合 + 工艺参数）
动作：添加/替换/删除某种元素、调整浓度比例、改变工艺参数
奖励：预测材料性能与目标性能之间的接近程度

Nguyen & Truong（2025）在 npj Computational Materials 上展示了目标条件强化学习（Goal-Conditioned RL, GCRL）在有机半导体材料逆设计中的应用。其核心创新是：给定一个目标 HOMO-LUMO 能隙，模型通过一系列结构修改（添加/删除苯环或噻吩环）来构建满足该目标的分子。

2.2 AIMatDESIGN：数据稀缺条件下的知识增强 RL

AIMatDESIGN（npj Computational Materials, 2025/2026）是当前 RL 应用于材料逆设计的最先进框架。其核心创新在于三个层面：

第一层：虚拟设计环境

AIMatDESIGN 构建了一个虚拟环境，其中 ML 分类和回归模型（edRVFL，具有极高的 R² 值）作为"材料模拟器"，为 RL 智能体提供即时的性能反馈。这使得 RL 智能体可以在虚拟环境中进行数万次的"试错"，而不需要实际的材料合成------将实验成本从"每次数千美元"降低到"几乎为零"。

第二层：自适应奖励机制

这是 AIMatDESIGN 最核心的创新。传统的 RL 方法使用固定的奖励函数（如"目标性能与预测性能的差值"），但这在高维材料空间中容易陷入局部最优。AIMatDESIGN 引入了基于差异的经验池（difference-based experience pool），根据智能体的学习进度动态调整奖励函数：

在学习初期，奖励函数鼓励广泛的探索（任何接近目标的尝试都获得正向奖励）
在学习后期，奖励函数聚焦于精细的优化（只有显著改进的尝试才获得正向奖励）

这种自适应机制模拟了人类学习的过程：初学者需要大量的正向鼓励，而专家需要严格的反馈。

第三层：LLM 驱动的自动模型精炼（AMR）

这是 AIMatDESIGN 最具革命性的创新。当检测到 ML 代理模型的预测出现偏差（方差/相关性漂移）时，系统自动调用 LLM 来修正代理模型的输出，确保奖励函数的保真度。

定量效果：消融实验表明，去除 AMR 模块后，RL 模型的成功率（SR_done）下降了 4.5%。这意味着 LLM 专家知识的注入在数据稀缺条件下提供了约 5% 的性能提升------在高维搜索空间中，这个差异可能意味着"找到最优解"和"错过最优解"之间的区别。

2.3 RL 方法的优势与局限

优势：

自主探索：RL 智能体不需要人类先验地定义搜索路径，它可以在化学空间中自主导航，发现人类直觉可能忽略的区域
适应性强：RL 可以动态调整搜索策略，根据学习到的经验优化后续的搜索方向
多目标处理：通过设计多目标奖励函数，RL 可以同时优化多个相互冲突的性能指标

局限：

奖励函数设计的困难：在材料逆设计中，奖励函数需要同时考虑多个性能指标（强度、韧性、感知灵敏度、成本等）和约束条件（热力学稳定性、合成可行性）。设计一个能够正确引导智能体的奖励函数本身就是一项高难度的工程
数据稀缺：AIMatDESIGN 论文明确指出，其方法的核心挑战是"数据稀缺"（data scarcity）。虽然虚拟环境可以生成大量训练数据，但这些数据的可靠性取决于代理模型的准确性------如果代理模型在某个成分区域的预测误差很大，RL 智能体就会被误导
计算成本：RL 需要数万甚至数百万次的交互才能收敛到一个好的策略。虽然每次虚拟交互的成本很低，但总的计算成本仍然可观

三、贝叶斯优化：最高效的全局寻优策略

3.1 贝叶斯优化的核心逻辑：在"探索"与"利用"之间走钢丝

贝叶斯优化（Bayesian Optimization, BO）的核心思想可以用一句话概括：在有限的实验预算下，用最少的时间找到最优解。

它与其他优化方法的本质区别在于：BO 不仅预测"哪里可能好"（利用），还量化"哪里不确定"（探索）。这两个目标通过采集函数（Acquisition Function）统一为一个决策标准：

期望改进（Expected Improvement, EI）：预测某个点的性能改进的期望值，同时考虑改进的幅度和改进的概率
概率改进（Probability of Improvement, PI）：某个点的性能超过当前最优值的概率
上置信界（Upper Confidence Bound, UCB）：预测均值加上不确定性的加权项

系统思维分析：BO 的"探索-利用"平衡本质上是一个资源分配问题------是继续深入挖掘当前已知的最优区域（利用），还是冒险去未知区域寻找可能更好的解（探索）？这个权衡没有"最优答案"，只有"最适合当前情况的策略"。

3.2 NASA 基准测试：5 种 BO 框架的客观对比

NASA 技术报告（Toma et al., 2026）系统比较了五种 BO 代理模型框架在材料发现任务中的表现：

框架	代理模型	优势	适用场景
Ax	高斯过程（GP）	理论成熟、不确定性量化精确	连续参数空间、小规模搜索
BayBE	GP + 蒙特卡洛神经网络	灵活性强、支持混合参数类型	混合离散/连续参数空间
Lolopy	随机森林（RF）	计算效率高、对非线性关系鲁棒	大规模离散参数空间
Hyperopt	TPE 估计器	对高维空间友好	高维参数空间、超参数优化
随机搜索	---	基线对照	评估其他方法的实际增益

测试覆盖了三种典型的材料设计场景：

离散固体电解质成分空间：纯离散参数（元素种类和比例）
混合层压复合材料设计：离散（材料类型）+ 连续（层厚比例）
连续 Ishigami 分析函数：标准优化基准

关键发现：

高斯过程（Ax）在小规模连续空间上表现最优，但在大规模离散空间上计算成本急剧增加
随机森林（Lolopy）在大规模离散空间上计算效率最高，但不确定性量化精度不如 GP
TPE 估计器（Hyperopt）在高维空间上表现稳定，但在小规模空间上不如 GP

3.3 层次高斯过程（HGP-BO）：高熵合金空间的深度优化

Khatamsaz 等人（2024/2025）在 Los Alamos National Laboratory 的工作中，提出了层次高斯过程（Hierarchical Gaussian Process, HGP）用于高熵合金空间的贝叶斯优化。

核心挑战：高熵合金的成分空间是高度异质的------不同成分区域的材料性能分布差异巨大。传统的单一 GP 模型假设整个空间遵循相同的统计分布，这在高熵合金空间中是一个不合理的假设。

HGP 的解决方案：使用多个 GP 模型，每个模型负责成分空间的一个子区域，通过层次化结构协调不同模型之间的信息传递。这使得模型可以在局部区域内学习精细的性能变化，同时在全局范围内保持搜索方向的一致性。

多任务 GP 的扩展 ：Khatamsaz 等人还提出了多任务贝叶斯优化（Multi-task BO），将成分优化和工艺优化作为两个相关的任务联合学习。其核心洞察是：成分和工艺之间存在强相关性------某种成分在某种工艺下可能表现优异，但在另一种工艺下可能表现很差。通过联合学习，模型可以更高效地利用有限的数据。

定量效果：在高熵合金的强度-韧性权衡优化中，HGP-BO 相比传统单一 GP 方法减少了约 30-40% 的实验次数（数据来源：OSTI 文献综述）。

3.4 多目标贝叶斯优化：在 Pareto 前沿上导航

高熵合金（包括自感知高熵材料）的设计本质上是多目标优化 ------需要同时优化强度、韧性、感知灵敏度、成本等多个指标。这些指标往往相互冲突（如强度与韧性的经典权衡），因此不存在"单一最优解"，而是存在一组Pareto 最优解------即无法在不损害某个指标的前提下改进另一个指标的所有解的集合。

NSF 资助的多目标贝叶斯合金设计研究（Khatamsaz, Vela & Arróyave, 2023）指出："强度-韧性权衡的根源在于，使材料变强的机制（如晶界强化、固溶强化）往往同时使材料变脆。"这一洞察意味着，多目标优化不是在"找到最优解"，而是在"Pareto 前沿上为特定应用选择最合适的权衡点"。

批判性分析 ：多目标贝叶斯优化的核心挑战不是算法本身，而是目标权重的设定------在 Pareto 前沿上的哪个点"最优"取决于应用场景。对于航空航天应用，可能更看重强度；对于生物医学应用，可能更看重韧性。这意味着优化过程需要与领域专家持续对话，而非完全自动化。

四、DeepMind GNoME：深度学习在材料发现中的"规模效应"

4.1 GNoME 的方法论定位

DeepMind 的 GNoME（Graph Networks for Materials Exploration, 2023）常被归类为"强化学习"方法，但严格来说，它更准确地描述为大规模图神经网络驱动的主动学习。

GNoME 的核心流程是：

使用图神经网络（GNN）预测晶体结构的形成能（类似于 DFT 的代理模型，但计算速度快几个数量级）
利用主动学习策略生成候选结构：从已知结构出发，通过元素替换和结构扰动生成数百万种候选
用 GNN 筛选出热力学稳定的候选（约 38 万种）
对候选进行 DFT 验证

关键数字 ：GNoME 发现了 220 万种新晶体 ，其中 38 万种是热力学稳定的。这是材料发现史上最大规模的单一发现。

4.2 GNoME 与 RL/BO 的对比

GNoME 与 AIMatDESIGN、HGP-BO 等方法的核心区别在于：

GNoME 是"生成 + 筛选"模式：首先生成数百万候选，然后用 GNN 筛选。这是一种"先广后精"的策略。

AIMatDESIGN/HGP-BO 是"导航"模式：直接在化学空间中搜索，每次选择信息量最大的实验点。这是一种"精准打击"的策略。

适用场景差异：

当搜索空间巨大且实验成本极低（纯计算筛选）时，GNoME 的"生成 + 筛选"更高效
当搜索空间大但实验成本极高（需要实际合成）时，AIMatDESIGN/HGP-BO 的"导航"更高效

4.3 GNoME 的方法论意义：规模效应的边界

GNoME 的最大贡献不是发现了多少新材料，而是证明了**"图神经网络在大规模上可以达到前所未有的泛化水平"**（DeepMind 官方表述）。这意味着 ML 代理模型的精度和可靠性已经达到了可以用于大规模材料筛选的水平。

但 GNoME 也暴露了规模效应的边界：

220 万种新晶体中，只有约 17%（38 万）是热力学稳定的
其中又有多少是可合成的？有多少具有实际应用价值？这些问题 GNoME 没有回答
GNoME 的筛选标准是"热力学稳定性"，但对于自感知高熵材料这类需要特定功能性能（感知灵敏度）的材料，稳定性只是必要条件，而非充分条件

五、主动学习与闭环自治：从"离线优化"到"在线学习"

5.1 主动学习的核心逻辑

主动学习（Active Learning）与贝叶斯优化密切相关，但两者的侧重点不同：

贝叶斯优化侧重于"在参数空间中搜索最优解"
主动学习侧重于"选择信息量最大的样本进行标注，以提高模型精度"

在材料发现的语境下，主动学习的应用场景是：当代理模型的预测不确定性较高时，优先选择这些区域进行实验验证，从而以最少的实验次数最大程度地提高模型精度。

5.2 自动驾驶实验室（SDL 2.0）：闭环发现的最新前沿

NC State 大学（2025 年 7 月）报道了"自动驾驶实验室 2.0"的最新进展。其核心创新是动态流实验（Dynamic Flow Experiments）：

传统的自动驾驶实验室使用稳态流实验------等待化学反应完成后表征材料。新的动态流实验中，化学混合物在系统中连续变化，并被实时监测。

定量效果 ：动态流系统在相同时间内生成的数据量比稳态流系统至少多 10 倍 ，并且能够在训练后的第一次尝试中就找到最佳候选材料。

韩国团队与 Merck KGaA、POSCO Holdings 的合作（RSC Digital Discovery, 2026）展示了类似的方法在固态电池材料发现中的应用：使用超快高温合成（UHS）将合成时间从数小时缩短到约 20 分钟，大幅加速了闭环迭代周期。

5.3 系统思维分析：闭环自治的本质

自动驾驶实验室的本质是一个反馈控制系统：

复制代码

[AI 预测] → [机器人合成] → [自动表征] → [数据反馈] → [模型更新] → [AI 预测] → ...

这个系统的核心挑战不是任何一个单独组件的性能，而是组件之间的协同效率：

AI 预测的精度决定了搜索方向的正确性
机器人合成的速度决定了迭代周期
自动表征的可靠性决定了反馈数据的质量
模型更新的速度决定了系统对新知识的吸收能力

如果其中任何一个组件成为瓶颈，整个系统的效率就会受到限制。这正是为什么动态流实验的创新如此重要------它通过改变实验范式（从稳态到动态），将数据生成速率提高了 10 倍，从而解除了整个系统的主要瓶颈。

六、与自感知高熵材料的具体关联

6.1 自感知高熵材料的搜索空间特征

自感知高熵材料的逆设计面临独特的搜索空间挑战：

高维离散-连续混合空间：

离散维度：元素种类选择（从 30+ 种常见金属元素中选择 5-8 种主元 + 多种微量添加元素）
连续维度：每种元素的浓度比例（5%-35%）、工艺参数（温度、时间、冷却速率）

多目标冲突：

力学性能：强度 vs 韧性（经典权衡）
感知性能：灵敏度 vs 稳定性（高灵敏度往往意味着信号波动大）
成本：稀有元素（Co、Ni） vs 经济性

数据稀缺：自感知高熵材料的公开实验数据极少------这是一个全新的研究领域，没有大规模的训练数据集。

6.2 推荐的技术路线

针对自感知高熵材料的特点，建议采用分阶段搜索策略：

第一阶段：大范围粗搜索（GNoME 模式）

利用大规模 GNN 代理模型，对高熵合金成分空间进行粗粒度筛选
筛选标准：热力学稳定性（形成能 < 0 eV/atom）+ 基本力学性能
输出：数千种候选成分

第二阶段：多目标精搜索（AIMatDESIGN 模式）

在候选成分上应用知识增强的 RL 方法
奖励函数设计：力学性能（40%）+ 感知性能（30%）+ 成本（15%）+ 稳定性（15%）
LLM 专家知识注入：利用文献中的高熵合金领域知识校正代理模型偏差
输出：数十种最优候选

第三阶段：实验验证与主动学习（SDL 模式）

对排名最高的候选进行合成和表征
实验结果反馈更新代理模型
主动学习选择下一轮实验的候选成分
迭代直至找到满足所有目标的材料

6.3 关键缺口

感知性能代理模型的缺失：当前的代理模型（GNN、RF、GP 等）都是在力学性能或热力学性能上训练的，没有感知性能（压阻系数、应变灵敏度）的预测能力。这是自感知高熵材料逆设计中最大的数据缺口。

解决方案：

从文献中提取分散的感知性能数据（LLM 辅助文献挖掘）
利用分子动力学模拟生成虚拟感知性能数据
使用迁移学习：从力学性能代理模型预训练，用少量感知性能数据微调

七、研究局限性与置信度标注

结论	置信度	依据	限制说明
RL 在数据稀缺条件下需要知识增强	$HIGH$	AIMatDESIGN Nature 论文 + 消融实验	仅针对材料逆设计场景验证，其他领域适用性未知
BO 的探索-利用平衡是核心优势	$HIGH$	NASA 基准测试 + Khatamsaz 多篇论文	BO 的效率依赖于代理模型精度，在代理模型偏差大的区域效果下降
GNoME 证明了规模效应	$HIGH$	DeepMind 官方报告 + 220 万晶体发现	规模效应不等于质量------38 万稳定晶体中实际可用的比例未知
层次 GP 优于单一 GP	$MEDIUM$	OSTI 文献综述（30-40% 实验减少）	具体增益因材料体系而异
动态流实验比稳态流效率高 10 倍	$HIGH$	NC State 实验数据	仅适用于流体/溶液体系，固态合金不适用
分阶段搜索策略优于单一方法	$MEDIUM$	逻辑推论 + 部分实验支持	需要针对自感知高熵材料的具体验证
感知性能代理模型是最大缺口	$HIGH$	当前文献中无相关代理模型的报道	这是一个"已知的未知"------确认了缺口的存在

参考文献

AIMatDESIGN Team. (2025). Knowledge-Augmented Reinforcement Learning for Inverse Materials Design under Data Scarcity. npj Computational Materials, 12(1). https://doi.org/10.1038/s41524-025-01894-x
Nguyen, T.M., & Truong, T.N. (2025). Inverse Design Using Goal-Conditioned Reinforcement Learning for Organic Semiconductor Materials. npj Computational Materials, 11(1). https://doi.org/10.1038/s41524-025-01852-7
Khatamsaz, D., Janssen, J., Perez, D., et al. (2024). Hierarchical Gaussian Process-Based Bayesian Optimization for Materials Discovery in High Entropy Alloy Spaces. arXiv preprint arXiv:2410.04314.
Khatamsaz, D., Vela, B., & Arróyave, R. (2023). Multi-objective Bayesian alloy design using multi-task Gaussian processes. Materials Letters, 351, 135067.
DeepMind. (2023). Millions of new materials discovered with deep learning. Google DeepMind Blog. https://deepmind.google/blog/millions-of-new-materials-discovered-with-deep-learning/
Toma, P., Goodin, J., Hearley, B., & Xie, S. (2026). Benchmarking Bayesian Optimization Frameworks and Acquisition Strategies for Materials Discovery and Autonomous Laboratories. NASA Technical Reports Server.
NC State University. (2025). Researchers Hit 'Fast Forward' on Materials Discovery with Self-Driving Labs. news.ncsu.edu.
RSC Digital Discovery. (2026). Self-driving laboratories in Korea: a new era of autonomous discovery. https://doi.org/10.1039/D6DD00024J
Arróyave, R., Khatamsaz, D., & Vela, B. (2022). A perspective on Bayesian methods applied to materials discovery and design. MRS Communications, 12(6).
OAE Publishing. (2024). Multi-objective optimization in machine learning assisted materials design and discovery. Journal of Materials Informatics. https://doi.org/10.1038/s41524-025-01852-7