AI4Science 模型 平台 开源 智能 未来

人工智能驱动药物研发进展

人工智能(AI)技术的快速发展为药物研发带来了革命性变革,其 在蛋白质结构预测 、蛋白质设计 、抗体药物设计及小分子药物设计等领域的应用显著提升了研发效率 与成功率。深入分析了AI在蛋白质结构预测 中的突破及其在靶点发现、虚拟筛选 等环节的应用潜力; 探讨了AI驱动蛋白质设计从结构预测到功能创新的闭环模式;剖析了AI在抗体序列优化、亲和力成 熟及新型抗体设计 中的作用;梳理了AI在小分子药物靶点识别虚拟筛选ADMET 优化中的最新 成果。指出AI应用中面临的数据质量、模型可解释性实验验证 等挑战,并展望了多模态数据融合、 动态行为预测自动化平台的未来发展方向。通过全面剖析AI赋能药物研发的现状与问题,旨在为 加速新药创制、提升人类健康福祉提供科学视角与思考启示,提供一个关于AI赋能药物研发领域科技 问题的全面且深入的视角,并激发对未来发展方向的思考,以期促进AI技术在药物研发领域的更有效 应用,加速新药创制进程,最终惠及人类健康。

近年来,人工智能(artificial intelligence,AI)技术 的发展为破解上述困境带来了曙光。AI凭借其卓越 的数据处理能力、模式识别能力 以及泛化预测能力, 在药物研发的各个环节都展现出了巨大的应用潜 。正在改变着药物研发的范式。

AI驱动蛋白质结构预测:AlphaFold3的 突破与应用

1.1 AI在蛋白质结构预测中的应用

DeepMind公司开发的AlphaFold系列模型是AI 驱动蛋白质结构预测领域的里程碑式突破。Alpha Fold2的预测精度可以与实验方法相媲美。2024年, DeepMind发布了AlphaFold3,进一步拓展了结构预 测的能力

AlphaFold3,提高了蛋 白质结构预测的精度和速度,被认为是加速药物发现 的关键技术

AlphaFold3不仅能够预测蛋白质的三维结构 ,还 能预测包括脱氧核糖核酸(DNA)核糖核酸(RNA)配体 以及修饰在内的生物分子复合物的结构。其采 用了更先进的Pairformer注意力机制,能够基于成对表示处理高效地捕捉蛋白质序列中的长程依赖关系, 并利用更全面的生物学数据库进行训练。AlphaFold3在多个评估指标上超越AlphaFold2, 尤其是在预测蛋白质−配体等复合物结构方面取得 了0到1的突破。这为研究复杂的生物分子相互作 用,及开发靶向特定复合物的药物提供了强有力的 工具。

首先,在靶点发现与验证方面 ,AlphaFold3能够帮助研究人员快速获取与疾病相关的蛋白质结构模 型 。有了这些预测结构,研究人员可以初步理解蛋白质的功能机制,++识别潜在的药物结合位点++,从而加速 靶点发现和验证的过程,然而这一过程通常还需要结构生物学的方法进一步验证

虚拟筛选先导化合物发现 方面,AlphaFold3 同样展现了巨大价值。传统的虚拟筛选通常依赖已知 的蛋白质结构,++现在,研究人员可以利用AlphaFold3 预测的结构来进行筛选。通过结合分子对接等方法, 可以筛选出潜在的先导化合物++,提升发现效率

抗体药物设计 是另一个受益匪浅的领域。AlphaFold3能预测抗体−抗原复合物结构,让研究人员得以 深入理解抗体与抗原的结合机制,并据此初步指导抗 体的序列优化、亲和力成熟以及人源化改造。 此外,AlphaFold3在酶工程与蛋白质药物设计中 也可以应用。它不仅能预测天然蛋白质的结构,还能用于分析工程化改造后的蛋白质结构。这为研究人员提供了强有力的工具,来指导酶的定向进化或新型蛋白质药物的设计

1.3 AlphaFold3的局限性与挑战

虽然AlphaFold3在许多情况下表现优异,但其准确性仍++受限于训练数据的质量和数量++ 。对于结构复 杂的蛋白质,其预测精度可能无法保证。此外, AlphaFold3目前在预测蛋白质的动态行为构象变化 方面能力有限 。 计算资源需求是另一个显著挑战。AlphaFold3 的训练和预测过程需要消耗大量算力,这种高门槛可能阻碍其在不同领域的普及。 结构预测结果的验证也很重要。AlphaFold3 给出的结构只是理论预测,依然需要通过实验方法加以确认。作为药物研发的第一步,预测结果只是起点。

2.1 AI在蛋白质设计中的应用 AI在蛋白质设计中的核心优势 在于能够结合序列生成、结构预测功能优化,显著提升效率和成功率,图2描述AI在蛋白质设计中的常见应用场景。

首先,在序列生成优化方面 ,AI通过逆向设计 技术,可以从目标结构出发生成相应序列,++使用生成模型也可以快速设计具有目标功能的蛋白质序列++ 。 其次,在结构导向的设计方面,AI利用蛋白质结构预测的突破进一步推动了设计能力。例如,基于深度学习 模型ProteinMPNN 能够学习蛋白质序列与功能之间的映射关系,生成具有特定催化活性或结合能力的序列。这些序列随后可通过结构预测工具进行折叠验证,确保其三维结构与预期功能相匹配

近年来,AI在蛋白质设计领域取得了显著进展。 David Baker 团队开发的RFdiffusion 模型已成功设计出多种新型蛋白质,包括高效催化酶和具有特定结合能力的蛋白质分子

在工业应用方面,AI驱动的蛋白质设计平台正逐 步成熟。例如,Ginkgo Bioworks等公司开发了基于 AI的酶设计工具Ginkgo Enzyme Services,通过优化结构显著提升了工业酶的催化效率。

3 AI赋能抗体药物设计:加速研发进程,提升药物疗效

抗体药物在生物制药领域中占据重要地位。其凭借靶向性强、特异性高 等优势,在肿瘤、自身免疫 疾病和感染性疾病等领域的治疗中展现了显著效果 。但传统的抗体药物研发依赖于杂交瘤技术、++噬菌体展示技术++ 等,面临着周期长、成本高、成功率低的难题。AI技术在抗体序列优化、人源化改造、亲和力成熟和新型抗体设计等方面的应用,有望加速抗体药物的研发进程,提高抗体药物的疗效和安全性。

首先,在抗体序列优化方面,AI能够提升抗体疗效并降低免疫原性。例如,深度学习模型能够分 析抗体互补决定区(complementarity−determining region,CDR)序列与抗原表位的相互作用,优化CDR 设计以增强抗体结合能力

抗体亲和力成熟是另一个AI发挥作用的领域。 传统实验方法效率较低,且难以穷尽所有突变组合。 而AI技术可以通过机器学习模型,根据抗体序列和亲和力数据预测最佳突变位点和组合,指导定向进化实验,从而提升亲和力成熟的效率和成功率

3.2 AI驱动抗体药物设计的最新研究成果

David Baker团队推出的基于结构的抗体生成工具RFantibody,该方法使用抗体数据微调后的蛋 白生成模型进行从头抗体结构、序列的设计和筛选

在抗体可开发性预测方面,AI工具同样取得了突 破。Liang等开发的IsAb2.0平台结合深度学习与 多目标序列优化算法,成功实现了对纳米抗体J3的 人源化重设计。通过引入少量优化突变,获得了热稳 定性更高、表达水平更优且保留功能活性的HuJ3抗 体变体,证明了AI在人源化路径规划中的实用性。

4 AI助力小分子药物设计:加速发现、优化性质、提高效率

AI技术在小分子药物 的靶点识别、虚拟筛选、先导化合物优化 ,以及药物的吸收(absorption)、分布(distribution)、代谢(metabo lism)、排泄(excretion)和毒性(toxicity)------即ADMET性质预测等方面,正发挥着日益重要的作用。AI的应 用有望提升研发效率,并降低研发成本

近年,AI在小分子药物设计领域成果斐然。基于深度学习虚拟筛选平台,如Atomwise和Exscientia 可以预测化合物活性,已在多个项目中加速了先导化合物发现。例如,Exscientia与Sumitomo Dainippon Pharma公司合作开发的DSP−1181用于强迫症治疗,已进入临床试验,仅用12个月,远快于传统的 5年时间。 AI驱动的先导化合物优化技术也不断突破。基于生成模型和强化学习的方法能够高效探索化合物结构空间,显著提升成功率。例如,英矽智能 Insilico Medicine 公司的GENTRL模型利用生成性张量强化学习在21 d 内设计出有效的DDR1激酶抑制剂,总耗时仅46 d, 远超传统方法

随着个性化医疗技术的进步,AI将助力精准药物 研发,通过分析患者个体化的基因组和临床数据,预 测疾病风险和药物反应,设计个性化治疗方案,实现 更精准的治疗效果(图3)。此外,自动化和智能化将成为药物研发的主流趋势,高通量筛选、机器人化学合成与AI设计平台的协同工作,将使研发全流程实现自动化,大幅缩短研发周期,让药物研发最终进入 一个全新阶段。

不同的[蛋白设计]的场景的模型

抗体设计,包括ScFv、VHH、CDR设计等

酶从头设计

蛋白Binder设计

小分子Binder设计

金属离子Binder设计

多肽设计

其他模型推荐

一、关于蛋白【结构预测】
1.通过序列聚类和AlphaFold2预测多种构象
Abstract

AlphaFold2(诺奖)通过准确预测蛋白质的单体结构,彻底改变了结构生物学。然而,蛋白质的生物学功能通常取决于多种构象亚态,而致病点突变常常在这些亚态内引起种群变化。我们证明,通过序列相似性对多序列比对进行聚类,可以使AlphaFold2以高置信度采样已知变形蛋白的替代状态。使用这种方法,即AF-Cluster,我们研究了变形蛋白KaiB的预测结构在KaiB家族中的进化分布,发现两种构象的预测结果都分布在KaiB家族的不同簇中。我们使用核磁共振波谱法证实了AF-Cluster的一个预测:与更广泛研究的变体相比,蓝藻KaiB变体在相反的状态下被稳定。为了测试AF-Cluster对点突变的敏感性,我们设计并实验验证了一套三个突变,这些突变被预测会使KaiB从Rhodobacter sphaeroides的基态翻转到折叠切换状态。最后,在缺乏已知折叠切换的蛋白质家族中筛选替代状态,识别了分枝杆菌结核分枝杆菌中氧化还原酶Mpt53的推定替代状态。随着实验的进一步发展,这种生物信息学方法可能会对预测蛋白质能量景观产生重大影响,这对于阐明生物学功能至关重要。

Predicting multiple conformations via sequence clustering and AlphaFold2 | Nature

蛋白质语言模型学习相互作用序列基序的进化统计
Significance

蛋白质语言模型(pLMs)在蛋白质结构预测和设计方面表现出色。然而,它们对蛋白质结构内在生物物理学的理解程度尚不明确。我们提出了一套分析,剖析旗舰pLM ESM-2如何预测结构。受蛋白质异构体被预测为结构片段时出现一致误差的启发,我们开发了一种完全无监督的方法来统一评估任何pLM,使我们能够将协同进化统计数据与线性模型进行比较。我们进一步发现,ESM-2在预测残基间接触时不需要完整上下文。我们的研究突出了pLMs的当前局限性,并有助于更深入地理解其潜在机制,为更可靠的蛋白质结构预测铺平了道路。

Abstract

蛋白质语言模型(pLMs)已成为预测和设计蛋白质结构和功能的强大工具,但这些模型在多大程度上从根本上理解蛋白质结构的固有生物物理特性仍然是一个悬而未决的问题。受pLM结构预测器错误预测蛋白质异构体非物理结构的发现所启发,我们研究了pLM进化尺度建模(ESM-2)中接触预测所需的序列上下文性质。我们通过使用"分类雅可比"计算证明了ESM-2存储了共同进化的残基统计信息,类似于马尔可夫随机场和多元高斯模型等更简单的建模方法。我们进一步通过比较序列掩码策略,研究了ESM-2如何"存储"预测接触所需的信息,发现提供局部序列信息窗口使ESM-2能够最佳地恢复预测接触。这表明pLMs通过存储成对接触的基序来预测接触。我们的研究突出了当前pLMs的局限性,并强调了理解这些模型潜在机制的重要性。

Protein language models learn evolutionary statistics of interacting sequence motifs | PNAS

使用CarbonDesign进行精确和稳健的蛋白质序列设计
Abstract

蛋白质序列设计对于蛋白质工程至关重要。尽管基于深度学习的方法近年来取得了进展,但要实现准确和稳健的序列设计仍然是一个挑战。在这里,我们提出了CarbonDesign,这是一种从AlphaFold的成功成分中获得灵感,并专门为蛋白质序列设计而开发的方法。在其核心,CarbonDesign引入了Inverseformer,它从骨架结构中学习表示,并使用一个摊销的马尔可夫随机场模型进行序列解码。此外,我们将其他重要的AlphaFold概念整合到CarbonDesign中:一种端到端网络回收技术,以利用蛋白质语言模型中的进化约束,以及一种多任务学习技术,用于在设计的序列旁边生成侧链结构。CarbonDesign在包括第15届蛋白质结构预测关键评估(CASP15)数据集、连续自动模型评估(CAMEO)数据集以及RFDiffusion生成的从头蛋白质的独立测试集上优于其他方法。此外,它支持序列变异功能效应的零样本预测,使其成为生物工程应用的 promising 工具。

Accurate and robust protein sequence design with CarbonDesign | Nature Machine Intelligence

AlphaFold3,预测蛋白质-蛋白质相互作用突变效应的秘密武器
Abstract

AlphaFold3在预测蛋白质-蛋白质复合物结构方面设定了新的顶尖水平。然而,生物分子相互作用的完整图景不能仅通过静态结构完全捕捉。在蛋白质工程和抗体发现领域,从结构到功能的联系通常由结合能介导。这项工作将AlphaFold3与SKEMPI(一个常用的结合能数据集)进行了基准测试。我们证明AlphaFold3学习到了独特的信息,并与力场、基于特征的以及其他深度学习方法协同作用,在预测蛋白质-蛋白质相互作用上的突变效应。我们假设AlphaFold3通过学习更平滑的能量景观,捕捉了突变更全局的效果,但它缺乏对完整原子细节的建模,这些细节更适合由力场方法处理,后者具有更崎岖的能量景观。结合这两种方法可能是一个有趣的未来方向。我们所有的基准测试结果都公开可在https://github.com/luwei0917/AlphaFold3_PPI

AlphaFold3, a secret sauce for predicting mutational effects on protein-protein interactions | bioRxiv

使用AlphaFold 3进行生物分子相互作用的结构准确预测
Abstract

AlphaFold 21的推出在蛋白质结构及其相互作用建模方面引发了革命,为蛋白质建模和设计带来了广泛的应用。在这里,我们描述了我们的AlphaFold 3模型,该模型采用了大幅更新的基于扩散的架构,能够预测包括蛋白质、核酸、小分子、离子和修饰残基在内的复合物的联合结构。新的AlphaFold模型在许多之前的专用工具上表现出显著更高的准确性:与最先进的对接工具相比,蛋白质-配体相互作用的准确性远更高;与核酸特异性预测器相比,蛋白质-核酸相互作用的准确性要高得多;与AlphaFold-Multimer v.2.37相比,抗体-抗原预测的准确性显著更高。总而言之,这些结果表明,在单个统一的深度学习框架内,在整个生物分子空间中进行高精度建模是可能的。

Accurate structure prediction of biomolecular interactions with AlphaFold 3 | Nature

二、关于[蛋白突变】改造
ProteinGym:蛋白质设计与健康预测的大型基准测试
Abstract

预测蛋白质突变的影响对于许多应用至关重要,从理解遗传疾病到设计能够应对气候、农业和医疗保健等最紧迫挑战的新型蛋白质。尽管基于机器学习的蛋白质模型在解决这些问题上激增,但由于使用了不同的、往往是人为设计的实验数据集,以及模型在不同蛋白质家族中的表现各异,对其各自效益的评估仍然具有挑战性。应对这些挑战需要规模化。为此,我们推出了 ProteinGym,这是一套大型且整体的基准测试,专门用于蛋白质适应性预测和设计。它不仅涵盖了超过 250 个标准化深度突变扫描测定的广泛集合,涉及数百万个突变序列,还包括提供高质量专家注释的精心整理的临床数据集,用于描述突变影响。我们设计了一个稳健的评估框架,结合了适应性预测和设计的指标,考虑到底层实验方法的已知局限性,并涵盖零样本和监督设置。我们报告了来自各个子领域(如基于比对、逆向折叠)的 70 多个高性能模型在统一基准套件中的表现。我们开源了相应的代码库、数据集、MSAs、结构、模型预测,并开发了一个用户友好的网站,方便数据访问和分析。

Conclusion

ProteinGym解决了缺乏大规模基准数据的问题,以便对为蛋白质设计和适应性预测开发的模型进行可靠评估。它促进了在多个感兴趣维度(例如,MSA深度、突变深度、分类群)上的方法直接比较,基于不同的真实数据集(例如,DMS实验与临床注释),并适用于不同的模式(例如,零样本与监督)。我们期望ProteinGym基准以及我们随之公开的各种数据资源,能成为机器学习和计算生物学社区的有价值资源,并且我们计划随着新的实验和基准的可用,持续更新这些基准。

网站: ProteinGym

ProteinGym: Large-Scale Benchmarks for Protein Design and Fitness Prediction

关于蛋白【从头设计】
参考链接:---------------------------------------------------------------------------------------------------------------------------------

中国科学院上海药物研究所,上海 [1]何欣恒,高斯涵,李俊睿,等.人工智能驱动药物研发进展[J].科技导报,2025,43(12):29-37.

相关推荐
laplace01233 小时前
大模型整个训练流程
人工智能·深度学习·embedding·agent·rag
aiguangyuan3 小时前
从零实现循环神经网络:中文情感分析的完整实践指南
人工智能·python·nlp
Master_oid3 小时前
机器学习30:神经网络压缩(Network Compression)①
人工智能·神经网络·机器学习
xinyuan_1234563 小时前
不止于提速:德州数智招标采购交易平台,重塑采购生态新效率
大数据·人工智能
沃达德软件3 小时前
智能车辆检索系统解析
人工智能·深度学习·神经网络·目标检测·机器学习·计算机视觉·目标跟踪
java1234_小锋3 小时前
【专辑】AI大模型应用开发入门-拥抱Hugging Face与Transformers生态 - 使用datasets库加载Huggingface数据集
人工智能·深度学习
kkk_皮蛋4 小时前
作为一个学生,如何用免费 AI 工具手搓了一款 Android AI 日记 App
android·人工智能
TTGGGFF4 小时前
从零到一:五分钟快速部署轻量化 AI 知识库模型(GTE + SeqGPT)
人工智能
凤希AI伴侣4 小时前
凤希AI积分系统上线与未来工作模式畅想-2026年1月25日
人工智能·凤希ai伴侣