入选 ICML 2025,清华/人大提出统一生物分子动力学模拟器 UniSim

清华大学刘洋老师组、人民大学高瓴人工智能学院黄文炳老师组共同提出了一种统一的生物分子时间粗化(time-coarsened)动力学模拟器 UniSim 。 该方法在大量 3D 分子结构数据上通过去噪 + 力场混合预训练获得统一的全原子表示模型,基于随机差值(stochastic interpolant)生成式框架学习分子在长时间步长下的转移向量场(vector field),并引入力引导核快速适配不同化学环境。 UniSim 首次实现了跨分子类型(小分子、多肽、蛋白质)、跨化学环境的统一时间粗化动力学模拟框架, 推动了深度学习在分子模拟领域的实用化进程。

相关成果以「UniSim: A Unified Simulator for Time-Coarsened Dynamics of Biomolecules」为题,入选 ICML 2025 。

论文地址:

go.hyper.ai/5NWuO

更多 AI 前沿论文:
go.hyper.ai/UuE1o

为什么需要统一的时间粗化模拟器

研究人员认为,在分子动力学模拟领域,构建一个统一的时间粗化模拟器是合理且必要的。一方面,统一建模框架是跨分子体系协同模拟的基础。 例如,在模拟蛋白---配体相互作用等复杂体系时,蛋白质与小分子往往共处于同一物理环境中,若模型仅适用于某一类分子,将难以在全原子尺度下准确还原二者间的耦合行为。因此,具备统一表示能力的模拟器能够在同一模型框架内同时处理跨种类分子,为多分子复合物建模提供坚实基础。

另一方面,统一模型有助于融合不同类型分子的结构与动力学数据,从而提升模型的泛化与迁移能力。 当前可用的分子轨迹数据高度稀缺且分布不均,而蛋白、多肽、小分子等各类数据各有所长,若能在同一模型中共同参与预训练与学习,将显著提升模型对原子层级结构的整体理解,使其具备更强的跨分子域迁移能力。

与此同时,引入时间粗化模拟也是提升模拟效率的核心途径。 传统分子动力学模拟依赖于极小时间步(如飞秒级)逐步推进,计算成本高昂,难以覆盖蛋白质折叠等长时间行为。时间粗化方法通过直接学习从当前状态跃迁至未来状态的映射关系,在保持物理一致性的前提下,以远大于传统步长的时间尺度快速生成轨迹,大幅提高模拟效率,使在实用时间内进行长时间模拟成为可能。

UniSim 对小分子、多肽及蛋白质可统一进行动力学模拟

统一表示:破解多尺度、多类型分子的表征难题

尽管统一的全原子表示模型是跨分子种类动力学模拟的基石,但实现这样的模型在技术层面仍面临如下挑战:

*首先,分子系统涵盖了从数十个原子的有机小分子,到上千原子的蛋白大分子,规模差异巨大、结构复杂多样。若直接以全原子形式全量参与训练,将导致模型对不同种类的分子有不同范围的注意力机制,从而抑制了模型的交叉迁移能力。

*其次,实现统一全原子表示的基础是使用统一的原子级词表。一种直观的方式是直接使用元素周期表作为词表进行嵌入表示。然而,这种方式忽略了多肽、蛋白质中大量存在的规律性单元,比如天然氨基酸等子结构,从而导致在蛋白质类型数据上表现不佳。

*最后,为了充分学习分子在不同状态下的表征,大量稳态与非稳态分子 3D 结构数据将被纳入预训练数据集。 对非稳态分子进行预训练的通用范式是学习原子所受力。然而,不同数据集在计算原子力场时使用的力场参数均有差异,存在标签数据不对齐的情况。

为了实现统一建模,UniSim 引入了 3 项关键技术分别解决上述难题:

*梯度-环境子图:合理平衡分子规模

在数据预处理阶段,将对大分子(原子数大于 1,000)的 3D 结构数据进行切割。给定 rmin < rmax ,预处理时将随机选取分子中任意原子,以该原子为球心,分别以 rmin 和 rmax 为半径作球,并将小球中包含的原子视为梯度子图,大球中包含的原子视为环境子图。 基于原子间作用力一般随距离指数级衰减的物理先验,当 rmax-- rmin 选取恰当时,原分子中环境子图外的原子与梯度子图内的原子的相互作用将可以忽略不计。因此,训练时将以环境子图代替原分子作为输入,而仅有梯度子图参与损失函数计算,从而合理平衡了分子结构数据的规模,提升了模型交叉迁移的能力。

*原子嵌入扩展:获得更精细的原子表征

该研究在元素周期表的基础上,为同一元素引入可学习的多个离散嵌入表示作为扩展词表, 用于捕捉原子所在的规律性子结构。基于一个简单的图神经网络,UniSim 将综合各原子的邻域信息,得到原子对应扩展词表中各嵌入表示的概率,通过加权求和得到原子的扩展嵌入表示。这种表示兼顾了原子级准确性与特定分子种类中的规律性子结构,从而实现了高效且精细的原子表示。

*多头混合预训练:混合学习不同分子状态与标签分布的数据

UniSim 采用如下方式对稳态与非稳态分子结构进行联合学习:对于稳态数据,文章借助去噪预训练(denoising pretraining)的范式,通过对加噪数据进行去噪以学习原子表征;对于非稳态数据,模型将直接学习保守力场,且不同力场参数对应不同的输出头,从而避免了不同的标签分布引入的误差。

文章使用 TorchMD-NET 作为满足 SO(3) 等变性的基础图神经网络模型,基于上述关键预训练技术, 完成了在大规模多源 3D 分子数据上的预训练,实现了统一原子表示模型的有效构建。

向量场模型:从轨迹中学习长时间尺度状态转移

传统分子动力学模拟受限于数飞秒的积分步长,难以高效采样蛋白质折叠等长时间行为。 UniSim 采用随机差值(stochastic interpolant)框架,在经过预训练的全原子表示模型后接入几何向量感知器(Geometric Vector Perceptron)作为向量场模型(vector field model)。 该模型通过学习长时间步长下分子状态间的转移向量场,实现了端到端的时间粗化动力学建模。

训练时将选取真实动力学轨迹中相距给定时间步长的分子构象对作为训练样本,在插值路径上引入随机扰动,并联合学习速度场(velocity)与去噪器(denoiser),实现了连续时间上的轨迹生成。相较于传统数值积分,UniSim 可显著提升模拟效率,突破传统模拟在时间尺度上的瓶颈。

力引导核:快速适应复杂化学环境

不同溶剂、温度、压力条件下的分子动力学具有不同的势能面,极大影响生成构象的分布。为此,UniSim 引入了力引导核(force guidance kernel),以定义在随机差值框架上的虚拟中间力场(intermediate forcefield)引导轨迹采样。 该中间力场在生成路径的两端(即初态和末态)等价于真实 MD 力场,在设计上与物理先验保持高度一致性,从而使生成构象更符合目标力场下的玻尔兹曼分布。

通过拟合中间力场,UniSim 无需修改预训练模型与向量场模型参数,仅需针对目标力场学习一个可插拔的力引导核,即可高效适配新的化学环境, 有效增强了模型的泛化与迁移能力。

UniSim 模型整体架构

实验验证:多分子类型

为了验证 UniSim 在不同分子类型上的通用性,研究人员在前向模拟(forward simulation)任务上对多种分子类型数据进行系统性评估,包括小分子、多肽与蛋白质 3 类分子。 通过与领域内同为时间粗化动力学模拟的深度学习模型进行对比,实验旨在探讨统一原子表示是否有助于提升模型对分子状态的理解与跨模态泛化能力,以及力引导核的介入如何影响模型在目标力场下生成构象的合理性与分布相似度等关键指标上的表现。

结果显示,UniSim 在所有分子类型上均实现全面超越, 在分布相似度上表现优异,并且在关键的构象合理性指标上(Val-CA)上有明显提升。需要说明的是,在前向模拟这一生成任务上,轨迹中各构象均为自回归生成,存在巨大的累积误差,因此提升构象合理性相当困难。

在多肽动力学数据集 PepMD 上的表现

在蛋白质动力学数据集 ATLAS 上的表现

在多肽与蛋白质的前向模拟任务上, UniSim 相比现有方法如 FBM 、 ITO 、 SD,在分布相似性(TIC-2D)、结构合理性(VAL-CA)、接触图误差(CONTACT)等指标上全面领先。特别地,在引入力引导核后,UniSim 在分布相似度等指标上均保持原有水平,但在关键的构象合理性指标上有明显提升。同时,在复杂的蛋白质系统中,UniSim 仅通过数百步前向模拟即可跳跃能垒并覆盖多个亚稳态,为高效模拟大型生物分子打开新方向。

在小分子动力学数据集 MD22 上的表现

UniSim 在小分子 Ac-Ala3-NHMe 与 DHA 上的自由能投影与 TIC-2D 图

丙氨酸二肽(Alanine-Dipeptide)案例研究

进一步,为了探究 UniSim 在长时间分子动力学模拟中的稳定性,研究人员将模型在经典体系丙氨酸二肽(alanine-dipeptide)上进行微调,并进行了 100,000 步的长时间尺度模拟。通过与 MD 结果的对比,UniSim 成功复现 5 个已知的关键亚稳态, 并准确地恢复了丙氨酸二肽在动力学过程中的自由能景观,充分验证了模型在长时间模拟下的稳定性与物理一致性。

MD 与 UniSim 在丙氨酸二肽上生成轨迹的 Ramachandran 图与 TIC-2D 图对比

展望

UniSim 是首个实现跨分子类型与跨化学环境的统一时间粗化动力学模拟框架, 为深度学习在药物发现、蛋白设计等场景中的广泛应用提供了可行路径。研究人员也指出未来可进一步探索以下方向:

  • 更高效的跨模态构象优化机制,提升生成样本的有效性;

  • 更长时间尺度上的轨迹建模,揭示复杂的生物物理机制;

  • 探究复合物体系中的动力学机制,聚焦分子间相互作用。

相关推荐
从零开始学习人工智能8 分钟前
LHM深度技术解析:基于多模态Transformer的单图秒级可动画3D人体重建模型
深度学习·3d·transformer
司小豆14 分钟前
机器学习基本概念与建模流程
机器学习
从零开始学习人工智能27 分钟前
多模型协同:基于 SAM 分割 + YOLO 检测 + ResNet 分类的工业开关状态实时监控方案
人工智能·yolo·分类
s1533530 分钟前
12-OPENCV ROCKX项目 人脸拍照
人工智能·opencv·计算机视觉
alasnot1 小时前
BERT情感分类
人工智能·深度学习·bert
只有左边一个小酒窝1 小时前
(九)现代循环神经网络(RNN):从注意力增强到神经架构搜索的深度学习演进
人工智能·rnn·深度学习
phoenix@Capricornus2 小时前
杉山将(Sugiyama Masa)《图解机器学习》
机器学习
UQI-LIUWJ2 小时前
论文略读:REEF: Representation Encoding Fingerprints for Large Language Models
人工智能·语言模型·自然语言处理
强盛小灵通专卖员2 小时前
基于YOLOv12的电力高空作业安全检测:为电力作业“保驾护航”,告别安全隐患!
人工智能·深度学习·安全·yolo·核心期刊·计算机期刊