AI agent 驱动的药物发现、药物设计与蛋白设计：方法进展、系统架构与未来展望

AI智能体驱动的药物发现、药物设计与蛋白设计：方法进展、系统架构与未来展望

摘要

药物研发面临耗时漫长、成本高昂且失败率高的核心困境，传统计算工具虽在一定程度上加速了研发流程，却受限于碎片化的操作范式与孤立的模型应用。生成式人工智能的崛起，特别是变分自编码器、生成对抗网络、Transformer及扩散模型的发展，为分子设计提供了全新的数据驱动范式。与此同时，大语言模型与AI智能体的出现，正在推动药物研发从"单点工具辅助"向"全流程自主闭环"演进。本文系统综述了AI智能体驱动下的小分子药物设计与蛋白设计方法进展。首先梳理了变分自编码器、生成对抗网络、Transformer及扩散模型等核心生成架构的原理、优势与局限，进而聚焦于AI智能体系统在靶点发现、虚拟筛选、先导优化及自动化实验闭环中的典型应用，并深入探讨了蛋白序列-结构-功能联合设计、多智能体协作框架以及抗体、酶等功能蛋白设计的前沿进展。本文进一步分析了小分子设计与蛋白设计的融合趋势，包括多模态基础模型与协同设计平台的兴起。针对当前领域面临的数据偏差、可解释性不足、评估体系缺失及系统工程挑战，本文提出了系统性的批判性反思，并展望了从静态预测走向动态闭环、从单模态模型走向多模态智能体系统、从离线计算走向在线实验学习的未来图景，最终勾勒出"基础模型+智能体+机器人"融合驱动的自主科学发现新范式。

关键词：AI智能体；药物设计；蛋白设计；生成式人工智能；扩散模型；大语言模型；自主科学发现

1. 引言

1.1 药物发现与蛋白设计的现实挑战

现代药物研发正陷入"反摩尔定律"的困境：尽管科学技术持续进步，新药研发的成本却以指数级攀升，而产出效率持续走低。传统药物发现从靶点识别到上市批准通常耗时10至15年，临床开发阶段中位数达8.3年。即便进入临床试验，最终获得监管批准的候选药物比例仅约7.9%，这意味着超过90%的投入最终付诸东流。据估算，单款新药的平均研发成本已突破20亿美元，其中大部分源于后期临床失败的沉没成本。

这一困境的根源可追溯至多个层面：首先，人类蛋白质组中约2万个蛋白质与疾病相关的近4000个靶点中，目前仅有500余个成功转化为上市药物靶点。大量疾病相关蛋白因缺乏明确的配体结合口袋、具有高度保守的活性位点或呈现天然无序状态，被归入"不可药"靶标的范畴。其次，可成药化学空间的规模估计高达10^60量级，传统高通量筛选所能覆盖的范围如同沧海一粟。再者，先导化合物发现后的多参数优化------包括活性、选择性、ADMET（吸收、分布、代谢、排泄、毒性）性质及可合成性------往往是多维目标的艰难平衡，任何一个维度的缺陷都可能导致后期失败。

1.2 人工智能在分子设计中的阶段性演进

人工智能介入药物研发的历程可大致划分为三个范式阶段。第一阶段可称为计算辅助时代 （20世纪80年代至21世纪初），以定量构效关系模型、分子对接和药效团模型为代表。这些方法本质上是对已知知识的模式匹配，虽能加速筛选，却难以突破现有化学空间的边界。第二阶段是生成式AI时代（约2016年至今），以变分自编码器在分子生成中的开创性应用为标志。生成对抗网络、Flow模型、Transformer及扩散模型相继被引入分子设计领域，实现了从"筛选既有分子"到"创造全新分子"的范式跃迁。2020年首个AI设计药物DSP-1181进入临床试验，标志着这一范式的可行性获得初步验证。

第三阶段，即正在兴起的AI智能体时代，其特征是从单一模型向多模型协同、从孤立任务到全流程闭环的演进。大语言模型的发展赋予了AI系统规划、推理与调用工具的能力，使计算机不再仅仅是辅助工具，而可能成为自主执行科研任务的"智能体"。

1.3 从生成模型到AI智能体

生成式AI的突破为分子设计提供了强大的"创造引擎"：变分自编码器通过隐空间学习实现分子连续表示与插值；扩散模型通过迭代去噪生成高质量的3D分子结构，在对接精度上达到RMSD约1.5Å的水平；基于Transformer的蛋白质语言模型如ProGen能够生成具有催化活性的功能性酶。然而，这些模型本质上是"孤岛式"的------它们擅长执行特定任务，却缺乏对整体研发流程的理解与协调能力。

AI智能体的出现正在改变这一格局。智能体以大语言模型为核心控制器，通过感知环境、规划行动、调用工具、反思迭代，能够自主执行复杂的多步骤任务。在药物发现场景中，这意味着一个系统可以自主完成从文献挖掘靶点、生成候选分子、预测性质、规划合成路线到与实验平台交互的全流程。生成模型作为智能体的"手"执行具体生成任务，而智能体作为"脑"统筹全局，二者的融合正在重塑药物研发的方法论基础。

1.4 本综述的研究范围与结构

本文旨在系统梳理AI智能体驱动下的小分子药物设计与蛋白设计方法进展。研究范围涵盖三个核心维度：其一，生成式AI在分子设计中的方法基础，包括各类生成架构的原理、优势与局限；其二，AI智能体系统在药物发现与蛋白设计中的典型应用与架构模式；其三，小分子设计与蛋白设计的融合趋势与未来方向。

全文结构如下：第2章界定核心概念并提出统一框架；第3章回顾AI在药物发现中的研究基础；第4章深入分析生成式AI在小分子设计中的方法进展；第5章聚焦AI在蛋白设计中的应用；第6章和第7章分别探讨AI智能体在药物发现与蛋白设计中的系统架构与案例；第8章讨论两大领域的融合趋势；第9章审视数据与评估体系；第10章剖析当前挑战；第11章展望未来发展方向；第12章总结全文。

2. 基本概念与理论框架

2.1 Drug Discovery、Drug Design 与 Protein Design 的定义与边界

在深入讨论之前，有必要厘清三个核心术语的内涵与外延。

Drug Discovery（药物发现） 指从靶点识别到临床前候选化合物确定的完整过程，涵盖靶点验证、命中化合物发现、先导化合物优化及ADMET评价等环节。它是一个多学科协同的探索性过程，强调"发现"而非"创造"。

Drug Design（药物设计） 则是药物发现的核心环节，特指基于靶点结构或已知配体信息，理性设计具有期望生物活性的分子。根据设计对象的不同，可细分为基于配体的药物设计（已知活性分子出发）和基于结构的药物设计（靶点三维结构出发）。

Protein Design（蛋白设计） 广义上属于药物设计的子领域，但因研究对象从化学小分子转向生物大分子而具有独特的方法论体系。蛋白设计的核心目标是创造具有特定结构和功能的蛋白质序列，包括酶的设计、结合蛋白设计、抗体设计等。与小分子设计相比，蛋白设计面临更复杂的序列-结构-功能关系映射问题。

2.2 AI Agent 的定义、组成与能力边界

AI智能体（AI Agent）是指能够感知环境、进行决策并执行行动以实现特定目标的自主系统。在科学发现场景中，AI智能体的核心组成包括：

认知核心：通常由大语言模型担任，负责理解任务、规划步骤、推理决策。如FROGENT系统中的Orchestrate Agent统筹全局工作流。
工具集：涵盖各类计算工具与模型，包括分子生成模型（扩散模型、VAE）、性质预测模型、分子对接工具、文献检索API等。BioLab系统集成了219种工具，覆盖DNA、RNA、蛋白质、细胞、化学分子五个生物学尺度。
记忆模块：记录历史决策与执行结果，支持反思与迭代优化。StructBioReasoner采用锦标赛式竞争框架，通过多智能体竞争生成并优化治疗假说。
执行接口：与外部环境（如实验自动化平台）交互的通道，实现计算-实验闭环。

当前AI智能体的能力边界在于：能够自主执行明确定义的多步骤计算任务，但在处理高度不确定的探索性问题时仍需要人类监督；能够调用工具完成任务，但对工具输出结果的批判性解读能力有限。

2.3 单模型、生成式AI、基础模型与AI Agent的区别

为厘清概念演进脉络，有必要对相关术语进行辨析：

单模型（Single Model）：针对特定任务训练的机器学习模型，如分子性质预测器、对接打分函数。特点是"专而精"，但难以泛化至任务边界之外。
生成式AI（Generative AI）：一类能够学习数据分布并生成新样本的模型，包括VAE、GAN、扩散模型等。其核心价值在于"创造"而非"预测"。
基础模型（Foundation Model）：在大规模数据上预训练、可通过微调适应下游任务的通用模型，如蛋白质语言模型ESM、化学语言模型ChemBERTa。特点是"通才"基础，但需适配具体任务。
AI智能体（AI Agent）：以基础模型为认知核心，通过规划、工具调用、反思迭代完成复杂任务的自主系统。它超越了"模型"的范畴，进入"系统"层面。

从演进关系看，单模型是"工具"，生成式AI赋予工具"创造力"，基础模型提供"通识"，而AI智能体将这些要素整合为具备"自主性"的科研协作者。

2.4 AI Agent驱动的分子发现统一框架

基于上述分析，本文提出AI智能体驱动的分子发现统一框架（图1，此处为文字描述）。该框架包含三个核心层级：

感知层：接收多模态输入，包括靶点信息（序列、结构）、文献知识、实验数据、用户指令等。通过检索增强生成技术整合外部知识库。

认知层：以大语言模型为核心，负责任务分解、工具选择、执行规划与结果反思。多智能体架构中，不同智能体各司其职------规划Agent制定策略，执行Agent调用工具，评估Agent批判结果。

执行层：集成各类专业工具，包括小分子生成模型、蛋白设计模型、性质预测器、对接引擎、合成路线规划工具等。执行结果反馈至认知层，形成"规划-执行-反思-优化"的闭环。

这一框架的核心洞见在于：将药物发现从"线性流程"重构为"迭代探索循环"，智能体在其中扮演着"科学家"的角色------提出假说、设计实验、解读结果、优化下一轮假说。

3. AI在药物发现中的研究基础

3.1 靶点发现与疾病机制建模

靶点识别是药物发现的逻辑起点，也是最具不确定性的环节之一。传统方法依赖文献阅读与专家经验，效率有限且可能存在认知偏见。AI的介入正在改变这一格局。

基于自然语言处理的文献挖掘系统能够从海量PubMed摘要中自动抽取疾病-基因-蛋白关系，识别潜在新靶点。如UAB-SPARC开发的agentic pipeline利用Gemini模型解析阿尔茨海默病相关文献，实现了靶点识别的自动化。知识图谱技术进一步将分散的生物学关系整合为可计算的网络结构，支持基于图神经网的靶点优先级排序。

针对"不可药"靶标的挑战，计算模拟与AI方法的结合正逐步拓展可成药空间。来鲁华课题组系统总结了针对五类"不可药"靶标的计算策略：针对缺乏结合口袋的蛋白，采用"多构象亲和"策略探索无序蛋白配体；针对活性位点保守的蛋白，发展别构位点预测方法；针对蛋白-蛋白相互作用界面，设计环肽抑制剂。这些策略正在重塑"不可药"靶标的定义------从"难以药物化"走向"有待药物化"。

3.2 命中化合物发现与虚拟筛选

命中化合物发现传统上依赖高通量筛选，但实验筛选的化学空间覆盖范围极其有限。虚拟筛选通过计算模拟对化合物库进行预筛选，显著提升命中率。

基于结构的虚拟筛选利用分子对接技术评估配体与靶点的结合模式。近年来，AI增强的对接方法如DiffDock，通过扩散模型直接预测配体-蛋白复合物结构，在PoseBusters基准上实现了RMSD约1.5Å的精度。基于配体的虚拟筛选则利用定量构效关系模型预测活性，图神经网络与Transformer的应用显著提升了预测准确性。

值得注意的是，AI在虚拟筛选中的价值不仅在于加速，更在于探索传统方法难以触及的化学空间。生成模型可以设计出与已知活性分子结构迥异但功能相似的化合物，为命中发现提供全新起点。

3.3 先导优化与多参数优化

命中化合物转化为先导化合物后，需要经过多轮优化以平衡活性、选择性、ADMET性质与可合成性。这是一个典型的多目标优化问题，各目标间往往存在权衡关系。

生成模型在先导优化中的应用主要体现在两个方面：一是"约束生成"，即在保持核心骨架的前提下生成结构类似物，探索局部化学空间；二是"多目标引导生成"，通过条件生成或强化学习将多个优化目标嵌入生成过程。例如，ORGAN模型将强化学习与GAN相结合，在生成过程中引入基于药理性质的奖励信号，实现性质导向的分子优化。

3.4 ADMET与转化前预测

ADMET性质的预测是药物发现后期失败的主要防线。据统计，临床失败案例中约40%可归因于ADMET问题。因此，早期介入ADMET预测至关重要。

AI在ADMET预测中的应用涵盖两大类任务：分类任务（如是否具有hERG毒性）和回归任务（如清除率预测）。图神经网络能够充分利用分子拓扑结构信息，在多个ADMET数据集上取得最优性能。多任务学习框架通过共享表示同时预测多个ADMET终点，既提升了数据效率，也利用了任务间的相关性。一个典型智能体系统能够自动预测75种性质，包括ADMET相关描述符和理化参数，并据此指导分子迭代优化。

3.5 药物开发全链条中的AI扩展应用

AI的应用边界正从发现阶段向后扩展，渗透至药物开发的后续环节。在合成路线规划领域，基于Transformer的逆合成模型能够从反应数据集中学习反应模式，为设计分子提出可行的实验室合成路线。在制剂开发中，AI辅助预测药物的溶解性、稳定性和生物利用度。在临床转化预测中，整合临床前数据与早期临床数据，预测候选药物的临床成功概率。

这种全链条渗透的本质在于：AI正在将药物开发从"分段接力"模式转变为"全程伴随"模式------早期设计阶段即可考虑后期开发需求，减少因后期问题导致的返工与失败。

4. 生成式AI在Drug Design中的方法进展

4.1 分子表示学习

分子表示是生成式AI的基石，决定了模型能够捕捉的信息类型与层次。当前主流的分子表示策略可归纳为三类：

基于序列的表示以SMILES字符串为代表，将分子编码为线性序列。其优势在于可直接借用自然语言处理领域的成熟架构（如Transformer），但存在语法严格、无效序列比例高的问题。SELFIES作为一种鲁棒性更强的序列表示，通过自引用结构确保100%的语法有效性。

基于图的表示将分子编码为原子（节点）与化学键（边）构成的图结构。图神经网络能够直接操作这种表示，捕捉原子的局部连接模式。MolGAN采用图生成范式，在QM9数据集上实现了近100%的有效性。

基于3D坐标的表示将分子视为原子在三维空间中的点云，保留完整的几何信息。这种表示对于结构导向的药物设计尤为重要，能够描述分子的构象偏好与手性特征。扩散模型在3D分子生成中表现突出，如GeoDiff、FrameDiff等模型能够生成具有正确几何结构的分子构象。

4.2 VAE、GAN、Flow、Transformer与Diffusion模型

变分自编码器（VAE） 通过编码器将分子映射至连续隐空间，解码器从隐向量重建分子，同时通过KL散度约束隐空间的正则性。其核心优势在于隐空间的连续性支持插值与优化------研究者可在隐空间中执行梯度下降搜索具有理想性质的分子。早期SMILES-VAE面临无效生成率高的问题，Junction Tree VAE通过分子子结构树化解码显著提升了生成有效性。

生成对抗网络（GAN） 采用生成器与判别器对抗训练的策略。生成器产生假分子，判别器区分真假，二者博弈中生成器学会产生越来越逼真的样本。MolGAN结合图表示与强化学习，在生成有效性和性质控制方面取得进展。然而，GAN在分子生成中面临离散输出的可微分问题和模式坍缩风险。

Flow模型通过一系列可逆变换将简单分布映射至复杂数据分布，其优势在于精确的对数似然计算与双向推理。但在分子生成中，Flow模型受限于计算效率和架构复杂度，应用相对有限。

Transformer架构凭借自注意力机制捕获序列中的长程依赖，在分子生成领域取得显著成功。ChemBERTa通过掩码语言建模预训练，产生富含化学信息的分子嵌入。GPT风格的因果Transformer能够逐标记生成分子序列，并可条件化生成具有期望性质的分子。

扩散模型（Diffusion Models） 通过前向过程逐步向数据添加噪声，再学习反向过程从噪声恢复数据。在分子生成中，扩散模型展现出三大优势：生成样本的多样性与高质量、对3D几何的自然支持、理论框架的完备性。DiffDock在蛋白-配体对接任务中实现突破性精度；RFdiffusion将扩散框架引入蛋白结构设计。表1对比了各类生成模型的典型性能指标。

表1 | 主要生成模型架构对比

模型类型	核心原理	优势	局限	分子表示	典型工具	性能指标
VAE	编码-解码+隐空间正则	隐空间连续；训练稳定	生成无效分子；性质对齐困难	SMILES、图、3D	Junction Tree VAE	有效性60-98%
GAN	生成器-判别器对抗	生成逼真；支持条件生成	训练不稳定；模式坍缩	SMILES、图	MolGAN	有效性~100%
Transformer	自注意力序列建模	长程依赖；语言模型预训练	数据需求大；资源密集	SMILES、SELFIES、序列	ChemBERTa, ProGen	困惑度低；有效性~99%
扩散模型	迭代去噪	样本多样；3D几何支持	生成慢；计算昂贵	图、3D坐标	RFdiffusion, DiffDock	RMSD_{1.5Å；有效性}100%

4.3 可控分子生成

生成式AI的核心价值不仅在于创造新分子，更在于按需创造具有期望性质的分子。可控分子生成的技术路线主要包括：

条件生成：在生成过程中引入条件变量（如靶点类型、期望logP范围），使生成分布向条件约束偏移。条件VAE、条件GAN和条件扩散模型均已应用于分子设计。

隐空间优化：利用VAE的连续隐空间，执行贝叶斯优化或梯度下降搜索，找到映射到理想性质区域的隐向量。这种方法将离散分子优化转化为连续空间优化问题，简化了求解难度。

强化学习引导：将生成模型视为策略网络，生成分子的性质评分作为奖励信号，通过策略梯度优化生成器。ORGAN和ReLeaSE等模型采用这一范式。

4.4 结构感知分子设计

结构感知设计的核心目标是生成适配特定蛋白结合口袋的配体分子。这一任务需要同时满足几何互补（形状匹配）和化学互补（相互作用模式）。

扩散模型在处理3D几何信息方面的天然优势使其成为结构感知设计的首选框架。GeoDiff等模型在生成分子构象时考虑原子间的空间约束。Target-aware扩散模型将蛋白口袋编码为条件输入，生成与口袋几何和化学性质匹配的配体分子。DiffDock则直接预测配体在口袋中的结合姿态，实现了对接与生成的统一。

4.5 分子设计中的关键瓶颈与误区

尽管生成式AI在分子设计中取得显著进展，但若干关键瓶颈值得警惕：

可合成性问题：生成模型倾向于探索化学空间，却往往忽视分子的合成可行性。许多在计算上"完美"的分子在实验室中难以合成。整合逆合成分析作为生成过程中的约束条件，或通过合成路线预测对生成分子进行后过滤，是当前的研究热点。

评价指标偏差：常用评估指标如有效性、唯一性、新颖性反映的是分布学习能力，而非药物发现的实际价值。一个在基准上表现优异的模型，生成的分子可能在生物学上无意义或在药理学上不可行。

数据分布偏差：生成模型学习训练数据的分布，而训练数据（如ChEMBL、ZINC）本身存在偏向------偏向于已知可成药化学空间，偏向于已发表的分子类型。这导致生成模型可能重复已知模式而非真正创新。

验证脱离实验：大量研究止步于计算验证，缺乏实验闭环。没有湿实验验证，生成分子的真正价值无从判断。

5. AI在Protein Design中的方法进展

5.1 蛋白设计问题的科学本质

蛋白设计的科学本质是解决"序列-结构-功能"映射这一中心法则的反问题：给定期望的结构或功能，设计出能够折叠为该结构并实现该功能的氨基酸序列。这一问题的复杂性源于多个层面：

序列空间的巨大性 ：对于长度为L的蛋白质，可能的序列数量为20^{L。一个100残基的蛋白对应20}100种可能序列，远超可枚举范围。

折叠问题的复杂性：序列如何决定三维结构是分子生物学的核心未解之谜。尽管AlphaFold2等结构预测模型取得突破，但"设计即预测"的反向推理仍需解决。

功能实现的隐式性：功能（如催化、结合）依赖于精确的三维排布与动态行为，难以用简单的目标函数完全刻画。

5.2 结构预测革命对蛋白设计的推动

AlphaFold2的突破不仅改变了结构生物学，也深刻影响了蛋白设计。高质量的结构预测能力使得设计者能够快速评估设计序列的折叠可能性，形成"设计-预测-验证"的迭代循环。ESMFold等蛋白质语言模型进一步将结构预测扩展到进化尺度。

结构预测对设计的推动作用体现在两个方向：一是正向筛选 ，对设计的候选序列进行结构预测，筛选能折叠为目标结构的序列；二是逆向推理，从结构预测模型中提取序列-结构约束，指导序列生成。RFdiffusion将结构预测网络RoseTTAFold改造为生成模型，实现了从随机噪声到功能蛋白结构的端到端生成。

5.3 序列生成、逆折叠与结构生成

蛋白设计的主流方法可归为三类：

序列生成：直接学习天然蛋白序列的统计规律，生成新的功能序列。蛋白质语言模型如ProGen在280万条序列上预训练，能够生成具有催化活性的酶。这类方法的优势在于不需要结构信息，但难以精确控制生成蛋白的折叠结构。

逆折叠（Inverse Folding）：给定目标主链结构，预测能够折叠为该结构的氨基酸序列。逆折叠本质上是结构到序列的映射，是结构导向蛋白设计的核心任务。基于图神经网络和Transformer的逆折叠模型在序列恢复率上显著提升。

结构生成：直接生成蛋白质的三维主链结构，再通过逆折叠或序列设计填充序列。扩散模型在此类任务中表现突出，RFdiffusion能够生成具有特定功能（如结合目标蛋白）的de novo结构。FrameDiff等模型进一步扩展了结构生成的设计空间。

5.4 功能导向蛋白设计

超越结构本身，蛋白设计的终极目标是创造具有特定功能的蛋白质。功能导向设计需要将功能需求转化为可计算的目标函数。

结合功能设计的目标是生成能够特异性结合目标分子的蛋白质。这要求设计序列在结合界面形成互补的几何与化学特征。Rosetta系列方法通过物理能量函数优化结合界面，而AI方法通过学习已知复合物结构模式来指导设计。

催化功能设计更具挑战性，需要精确排布催化残基并创造适合过渡态稳定的微环境。尽管已有若干成功案例，但酶设计的成功率仍远低于结合蛋白设计。

构象动态设计关注蛋白质的构象变化能力，如别构调控蛋白设计。这需要捕捉蛋白质的能量地貌，设计具有期望构象平衡的序列。

5.5 抗体、酶与结合蛋白设计

抗体设计是蛋白设计中最具临床价值的子领域。抗体通过互补决定区识别抗原，设计任务涉及CDR环区的序列优化和骨架选择。AI方法正在从"人源化改造"走向"de novo抗体设计"。BioLab系统在PD-1抗体优化中取得突破，设计的优化变体Pem-MOO-1和Pem-MOO-2的IC50值达到0.01-0.016 nM，显著超越母体药物Pembrolizumab的0.027 nM。分子动力学模拟揭示了亲和力增强的结构机制。

酶设计追求创造新型生物催化剂。ProGen生成的酶经实验验证具有催化活性。尽管活性通常低于天然酶，但这些案例证明了从头设计功能酶的可行性。

结合蛋白设计面向蛋白-蛋白相互作用调控，尤其针对小分子难以靶向的"不可药"靶点。针对无序蛋白Der f 21，StructBioReasoner系统设计的787个候选结合物中，超过50%在结合自由能上优于文献报道的人工作为参照的蛋白。

5.6 蛋白设计中的评估与挑战

蛋白设计的评估体系远较小分子领域复杂。结构层面，可评估设计序列与目标主链结构的匹配度（序列恢复率、RMSD）。功能层面，结合亲和力可通过对接或实验测定，催化活性需通过酶动力学表征。稳定性评估可借助实验或预测工具（如Tm预测）。

当前蛋白设计面临的核心挑战包括：

设计成功率低：即便采用最先进的方法，设计蛋白成功折叠并具有功能的概率仍然有限，反映了对序列-结构-功能关系理解的不足。

动态性缺失：多数设计方法聚焦于静态结构，忽视蛋白质的构象动态。对于需要构象变化实现功能的蛋白（如酶、信号蛋白），这种简化可能致命。

可开发性评估不足：设计的蛋白可能存在聚集倾向、免疫原性、表达困难等问题，这些"可开发性"属性在计算设计阶段往往被忽视。

6. AI Agent在Drug Discovery中的应用

6.1 文献与知识图谱驱动的假设生成

科学发现的起点是提出可验证的假说。AI智能体正在成为科研假说的"生成器"，通过整合文献知识与领域数据，自主提出新的研究假设。

在这一应用场景中，智能体通过检索增强生成技术访问PubMed、专利数据库等知识源，抽取疾病-基因-药物三元关系，构建可推理的知识图谱。基于图谱的推理可识别未被探索的靶点-疾病关联，或发现已有药物的新适应症。UAB-SPARC开发的agentic pipeline利用Gemini解析阿尔茨海默病相关文献，实现了靶点识别的自动化。该流程不仅识别潜在靶点，还对靶点的可药性进行评估，为后续设计提供优先级排序。

BioLab系统的Planner Agent能够将抽象的生物学问题（"设计靶向巨噬细胞的抗体"）分解为具体的执行步骤：靶点挖掘→抗原表位识别→抗体设计→优化→评估。这种从问题到方案的自动转化，本质上是假说生成与实验设计的统一。

6.2 自动化虚拟筛选与命中发现

传统虚拟筛选需要研究者手动准备靶点结构、选择化合物库、配置对接参数、分析对接结果------这是一系列繁琐且易错的操作。AI智能体可将这一流程自动化执行。

FROGENT系统展示了这一能力的雏形。该系统由Orchestrate Agent统筹全局，协调Retrieve Agent（检索相关数据）、Forge Agent（生成候选分子）、Gauge Agent（评估分子性质）三个专业智能体协同工作。在虚拟筛选场景中，Orchestrate Agent首先确定靶点，Retrieve Agent检索已知活性分子和结构信息，Forge Agent基于检索结果生成多样化的候选分子，Gauge Agent调用对接工具和性质预测模型对候选分子进行评估，最终结果反馈给研究者或进入下一轮迭代。

这种多智能体架构的优势在于：每个智能体专注于特定任务，通过标准协议通信，系统的扩展性和维护性显著提升。在八个药物发现基准测试中，FROGENT持续优于六种基线智能体。

6.3 多目标先导优化

先导优化是多目标权衡的过程，需要同时考虑活性、选择性、ADMET性质、可合成性等多个维度。AI智能体通过迭代生成-评估-筛选循环，实现多目标优化的自动化。

一个典型的智能体驱动优化流程包含以下步骤：

初始分子输入，智能体解析分子结构并识别关键药效团；
基于约束的分子生成，智能体调用生成模型产生结构类似物；
多性质预测，智能体调用ADMET预测工具评估生成分子；
筛选与排序，智能体根据多目标评分函数筛选优胜分子；
迭代优化，将优胜分子作为下一轮起点，重复上述步骤。

在一项实证研究中，经过两轮智能体驱动的优化，QED>0.6的分子数量从34个增至55个，符合Ghose过滤器的分子数量从32个增至55个。这一结果表明，智能体系统能够有效平衡多个优化目标，在先导优化中具有实用价值。

6.4 与实验自动化平台的闭环集成

计算的终极价值在于指导实验，实验的结果反过来修正计算模型------这一"设计-制造-测试-学习"闭环是加速科学发现的理想范式。AI智能体正在成为连接计算与实验的"桥梁"。

在这一范式中，智能体的职责包括：

将计算筛选出的候选分子转化为实验指令（如"合成化合物X，测试其对靶点Y的抑制活性"）；
监控实验进度与结果，从实验平台获取数据；
解析实验结果，对比预测值与实测值，识别预测偏差；
根据实验反馈更新模型或调整下一轮设计策略。

目前，完全自主的闭环集成仍处于探索阶段，但部分集成已实现。例如，AI设计的分子可直接输出至自动化合成平台，合成产物经纯化后进入自动化活性测试平台，测试数据自动返回设计系统。智能体在其中的角色是协调这些异构系统的交互，将"孤立的自动化"连接为"集成的自动化"。

6.5 典型系统与代表性案例比较

为直观展示AI智能体系统的能力与特点，表2对当前具有代表性的系统进行了比较。

表2 | 代表性AI智能体系统比较

系统名称	核心架构	主要功能	关键成果	特点
FROGENT	协调智能体+3专业智能体	靶点识别、小分子生成、肽优化、逆合成	在8个基准上优于基线	全流程覆盖；Model Context Protocol
StructBioReasoner	锦标赛式多智能体竞争	无序蛋白靶向生物制剂设计	Der f 21：>50%设计物优于参照；NMNAT-2：识别3种结合模式	针对"不可药"靶点；高性能计算集成
BioLab	8智能体协同+219种工具	端到端生命科学研究	PD-1抗体优化：IC50达0.01-0.016 nM	五尺度工具覆盖；实验闭环验证
模块化LLM Agent	单智能体+多工具调用	文献问答、分子生成、性质预测、3D结构生成	QED>0.6分子从34增至55	模块化设计；灵活集成新工具

从表中可见，当前系统正从"单智能体执行简单任务"向"多智能体协同完成复杂流程"演进，从"纯计算验证"向"计算-实验闭环"延伸，从"常规靶点"向"难药靶点"拓展。

7. AI Agent在Protein Design中的应用

7.1 蛋白序列---结构---功能联合设计

蛋白设计的核心挑战在于序列、结构、功能三者的协同优化。AI智能体提供了一种整合这三者的联合设计框架。

传统方法通常采用"分步走"策略：先设计结构，再通过逆折叠设计序列，最后评估功能。这种串行流程可能丢失结构-序列-功能间的耦合信息。智能体框架则支持"迭代协同"模式：结构设计智能体生成主链，序列设计智能体填充序列，功能评估智能体计算结合能或催化活性，评估结果反馈至结构设计智能体调整主链构象，形成联合优化循环。

这种协同设计的理论基础在于：序列决定结构，结构决定功能，但功能需求反过来约束结构和序列。只有将三者置于统一的优化框架中，才能逼近真正的全局最优。

7.2 多代理协作式蛋白设计流程

多智能体架构在蛋白设计中展现出独特优势。每个智能体专注于设计流程的特定环节，通过协作完成整体任务。

以BioLab系统为例，其八智能体架构包括：

Planner Agent：解析设计目标，分解任务序列；
Researcher Agent：检索相关文献、结构数据，提取设计约束；
Designer Agent：调用RFdiffusion等生成模型设计蛋白结构；
Sequencer Agent：通过逆折叠模型设计对应序列；
Predictor Agent：预测结构、稳定性、结合能力；
Critic Agent：评估设计质量，提出改进建议；
Memory Agent：记录设计历史，支持反思与重用；
Executor Agent：与实验平台交互，触发湿实验验证。

在PD-1抗体优化案例中，该架构自主完成了从靶点挖掘到优化抗体设计的全流程。多智能体通过Memory Agent共享上下文，Critic Agent的批判性反馈驱动迭代优化，最终获得的优化变体在亲和力上超越母体药物。

7.3 结合位点与界面设计

蛋白-蛋白相互作用界面的设计是蛋白设计中最具挑战性的任务之一。界面需要同时满足几何互补、化学互补、能量最小化等约束，且界面残基的突变可能影响蛋白全局折叠。

针对无序蛋白（IDP）的结合设计更具挑战性------这类蛋白缺乏稳定三级结构，传统结构导向设计方法难以适用。StructBioReasoner系统采用锦标赛式竞争框架应对这一挑战：多个智能体并行生成结合物设计假说，通过竞争机制筛选优胜方案；系统集成分子动力学模拟评估结合自由能，筛选出结合亲和力优于文献参照的设计。针对Der f 21蛋白，该系统设计的787个候选结合物中，超过50%在结合自由能上表现更优。

7.4 蛋白药物与生物治疗分子设计

抗体、融合蛋白、细胞因子等生物治疗分子的设计具有重要的临床转化价值，也对设计方法提出特殊要求。

抗体设计面临CDR环区构象多样性、骨架-抗原适配性、人源化程度、免疫原性风险等多重约束。BioLab系统在PD-1抗体优化中整合了这些约束：以Pembrolizumab为起点，通过多目标优化生成序列变体；分子动力学模拟验证结构稳定性；结合亲和力预测筛选高亲和力候选；最终实验验证确认IC50值从0.027 nM提升至0.01-0.016 nM。

这一案例表明，AI智能体能够驾驭生物治疗分子设计的复杂性，在维持可开发性的同时显著提升药效。其方法论启示在于：多目标优化需要清晰定义权衡关系，实验反馈是验证和改进设计的最终标准。

7.5 Agent与Foundation Model融合趋势

蛋白设计领域正在经历"基础模型+智能体"的深度融合。基础模型提供领域知识的深度表示，智能体负责在具体任务中调用和适配这些模型。

xTrimo系列基础模型涵盖化学、蛋白质、RNA、DNA、细胞、文本六个模态，为BioLab系统提供了底层支撑。在PD-1抗体设计案例中，xTrimoProtein提供序列嵌入和结构预测能力，xTrimoChem评估抗体翻译后修饰的化学性质，xTrimoText整合文献中的抗体知识。智能体则负责协调这些模型的调用顺序、解析输出结果、整合跨模态信息。

这一融合趋势的本质是：将基础模型的"通才"知识与智能体的"任务导向"能力相结合，形成既有广度理解又有深度执行的AI科学发现系统。

8. Drug Design与Protein Design的融合趋势

8.1 统一生物分子设计问题

小分子药物与蛋白药物长期被视为两个独立领域------前者依赖有机化学，后者依赖分子生物学。然而，从设计方法论视角看，二者可统一为"生物分子设计"问题：设计者面对的是特定靶点或功能需求，需要在广阔的分子空间中搜索可行解，这一空间既包含化学小分子，也包含生物大分子。

这种统一视角具有重要的方法论意义。小分子设计中的隐空间优化、多目标约束生成等技术可迁移至蛋白设计；蛋白设计中的结构预测、逆折叠方法也可反哺小分子的结构感知设计。更重要的是，统一的框架支持"跨模态协同设计"------将小分子和蛋白作为互补工具，针对同一靶点设计联合治疗方案。

8.2 多模态基础模型

多模态基础模型是实现统一设计框架的关键技术支撑。这类模型能够在同一表示空间中编码小分子、蛋白质、核酸等不同生物分子类型，支持跨模态的推理与生成。

xTrimo系列模型展示了多模态基础模型的雏形。六个基础模型分别针对不同分子模态，但通过统一的底层架构和共享的预训练策略，实现了跨模态的知识迁移。例如，xTrimoChem学习的化学键形成规则可为xTrimoProtein的残基相互作用建模提供参考。

展望未来，真正统一的生物分子基础模型应具备以下能力：输入任意生物分子（小分子、肽、蛋白、核酸）的序列或结构，输出统一的隐空间表示；支持跨模态的生成任务（如"设计结合这个蛋白的小分子配体"）；在表示层面编码物理化学原理与生物学规律。

8.3 小分子---蛋白协同设计

许多治疗场景需要小分子与蛋白药物的协同作用：小分子抑制剂联合抗体药物克服耐药；蛋白药物递送小分子 payload 实现靶向治疗；降解剂（PROTAC）本身即小分子连接子与蛋白招募配体的复合物。这些场景对设计方法提出跨模态协同的要求。

PROTAC设计是协同设计的典型代表。PROTAC分子包含三部分：靶蛋白结合配体、E3泛素连接酶招募配体、连接二者的连接子。设计任务需要同时优化小分子配体与靶蛋白、小分子配体与E3连接酶、连接子长度与柔性的适配性------这是小分子设计与蛋白界面设计的联合优化问题。

来鲁华课题组系统总结了靶向蛋白降解的计算设计策略，指出AI方法在以下方面具有潜力：预测降解剂-靶蛋白-E3连接酶三元复合物结构；设计连接子的长度与连接位点；优化降解剂的"钩状效应"避免浓度过高时降解效率下降。

8.4 未来的统一设计平台

融合小分子设计与蛋白设计的统一平台正在浮现。这类平台的核心理念包括：

统一的分子表示：支持小分子、肽、蛋白在同一框架下的混合表示，既保留化学细节也保留结构信息。

可组合的设计模块：平台集成各类生成模型（小分子生成、蛋白序列生成、蛋白结构生成）、预测模型（性质、结构、相互作用）、评估模型（可合成性、可开发性），支持按需组合成定制化工作流。

智能体驱动的流程编排：用户输入高层目标（"设计靶向X的双功能分子，一端结合Y蛋白，一端招募E3连接酶"），智能体负责将目标转化为具体任务序列，选择合适模型执行，整合结果并迭代优化。

实验闭环接口：平台与自动化合成、表达纯化、活性测试平台对接，实现计算-实验的实时交互与闭环学习。

这类平台的远景是：将药物发现从"专家驱动的长周期探索"转变为"智能体驱动的短周期工程"，显著提升研发效率与成功率。

9. 数据、评估与基准体系

9.1 数据来源与质量问题

数据是AI模型的"燃料"，但生物医药领域的数据具有特殊性。主要数据来源包括：

公共数据库：ChEMBL收录生物活性数据，PDB存储蛋白结构，UniProt提供蛋白序列与功能注释，ZINC提供可购买化合物信息。这些数据库为模型训练提供了基础资源。

专利与文献：大量化合物数据仅存在于专利和学术文献中，需要通过自然语言处理技术进行挖掘和结构化。

专有数据集：制药企业的内部筛选数据和临床前数据是最高质量的资源，但通常不公开，形成"数据壁垒"。

数据质量问题贯穿始终：实验数据存在测量误差与批次效应；公开数据偏向成功案例（发表偏倚）；标注不一致导致训练信号噪声；数据量不足（尤其在蛋白设计领域，实验验证的突变体数量有限）。

9.2 小分子设计评估指标

小分子生成模型的评估已形成相对成熟的指标体系：

有效性：生成的分子是否符合化学价键规则。现代模型通常能达到>95%的有效性。
唯一性：生成分子中不重复的比例，反映生成多样性。
新颖性：生成分子与训练集分子的结构差异程度，常用Tanimoto相似度阈值衡量。
性质分布：生成分子的理化性质（logP、分子量、TPSA等）是否与目标分布一致。
药物相似性：QED分数、Lipinski规则符合度等指标评估生成分子的类药性。
可合成性：合成可及性分数（SA Score）预测分子在实验室合成的难易程度。

这些指标的优势在于计算便捷、可重复，但缺陷也显而易见------它们反映的是"分布匹配度"，而非"药物发现价值"。一个在所有指标上得分优秀的分子，可能在生物学上无意义。

9.3 蛋白设计评估指标

蛋白设计的评估更为复杂，尚无统一标准：

结构相似性：设计序列折叠后的结构与目标结构的RMSD、TM-score、lddt等指标。
序列恢复率：逆折叠任务中，预测序列与天然序列的匹配程度。
稳定性预测：预测的熔解温度、聚集倾向、表达产量。
功能评估：结合亲和力（可通过对接打分或实验测定）、催化活性（需实验验证）、特异性。
可开发性：免疫原性预测、人源化程度（针对抗体）、翻译后修饰位点评估。

蛋白设计的黄金标准始终是实验验证------结构解析确认折叠正确性，功能实验确认预期活性。

9.4 AI Agent系统评估框架

AI智能体作为复杂系统，其评估需要超越单模型指标，建立多维度框架：

任务完成度：系统能否成功执行端到端任务？例如，从靶点输入到候选分子输出的完整流程是否自动化执行。

效率增益：相比人工执行相同任务，智能体系统节省多少时间？减少多少人机交互？

决策质量：智能体的规划是否合理？选择的工具是否适合任务？对结果的解读是否准确？

鲁棒性：系统对输入噪声、工具故障、意外情况的应对能力。

可解释性：系统的决策过程是否可追溯？能否向用户解释"为何选择这个分子"？

当前，AI智能体系统的评估仍处于起步阶段。FROGENT在八个基准任务上的评估、BioLab在PubMedQA等推理任务上的评估提供了初步范式，但缺乏统一的评估基准。

9.5 Benchmark缺失与标准化需求

综述各章节的讨论揭示了一个共同问题：领域内缺乏统一、全面的基准体系。

小分子生成虽有GuacaMol、MOSES等基准，但侧重分布学习而非药物发现价值。蛋白设计的评估各自为政，不同研究采用不同的数据集和指标。AI智能体系统更是缺乏标准化评估任务------各系统在自定义任务上表现优异，却难以横向比较。

标准化需求日益迫切：需要建立覆盖多模态的基准数据集；需要设计反映真实研发场景的评估任务；需要制定统一的指标计算规范；需要构建可复现的评估平台。没有这些基础设施，领域的进步可能迷失在"各自声称最优"的迷雾中。

10. 当前挑战与限制

10.1 生物学与化学机理复杂性

AI模型的强大能力来源于数据中的模式学习，但生物学与化学的深层机理远超模式识别的范畴。

生物学系统具有层次性、动态性和冗余性。一个靶点在通路中的位置、细胞类型特异性表达、翻译后修饰调控、代偿机制等因素，共同决定靶点的真实可药性。AI模型如果仅基于静态的序列或结构数据进行预测，难以捕捉这种系统层面的复杂性。

化学反应与分子间相互作用的量子力学本质，同样超越模式识别的能力边界。扩散模型能够生成几何合理的配体-蛋白复合物，但结合自由能的准确预测仍需量子化学计算或高精度分子力学力场。当前AI模型在预测结合亲和力时，往往依赖训练数据中隐含的相关性，而非真正的物理理解。

10.2 数据偏差与外推能力不足

"数据决定模型"是机器学习的金科玉律，但这也意味着模型继承甚至放大了训练数据的偏差。

公开数据存在多重偏差：已发表化合物偏向成功案例，PDB结构偏向易于结晶的蛋白，ChEMBL数据偏向热门靶点。模型学习这些偏差后，在热门靶点家族上表现优异，在新颖靶点或非常规化学空间上外推能力有限。

更根本的问题在于：药物发现本质上是在探索"未知的有效"------训练数据覆盖的是"已知的化学空间"，而真正的创新往往位于这个空间的边界之外。如何让模型在保持化学有效性的同时探索真正的未知空间，是生成式AI面临的核心挑战。

10.3 可解释性、可靠性与不确定性

AI模型在药物发现中的"黑箱"属性引发多重担忧。

可解释性方面，当模型推荐某个分子时，它无法解释"为何是这个分子""基于什么理由"。这使得领域专家难以信任模型输出，也难以从模型失败中学习。对于监管机构而言，可解释性的缺失可能成为审批障碍。

可靠性方面，模型在训练分布内表现优异，但在分布边缘可能产生荒谬输出。更危险的是，这些错误输出往往以"看起来合理"的形式出现，容易误导使用者。

不确定性量化是缓解可靠性问题的关键。当前多数模型以点估计输出预测值，不提供置信区间或概率分布。研究者无法判断"模型对这个分子的高活性预测是高度确信还是纯属猜测"。

10.4 工具链、工具链、工具链、工具链

尽管"工具链"在原文中被重复，但其核心思想是系统工程层面的挑战，本文将完整阐述如下：

工具链、实验链与系统工程难题。当前AI药物发现面临"工具丰富但系统脆弱"的困境。各计算工具（生成模型、预测模型、对接软件）由不同团队开发，采用不同的输入输出格式、运行环境和依赖库，整合这些工具形成可靠工作流需要大量工程投入。

实验链的整合更具挑战性。自动化合成平台、纯化系统、测试平台往往来自不同供应商，接口标准各异，数据格式不统一。智能体系统需要适配这些异构系统，实现"无缝对接"而非"勉强连接"。

系统工程难题体现在：系统整体可靠性取决于最薄弱环节，任何一个工具失败都可能导致整个工作流中断。当系统包含数十个工具和模块时，故障诊断和容错设计变得极为复杂。

10.5 安全、伦理、知识产权与监管问题

随着AI系统从辅助工具走向自主设计，新的治理问题浮出水面。

安全与双重用途风险：AI设计的分子可能具有毒性或环境危害。更值得警惕的是，同样的技术可用于设计生物武器或化学武器。如何建立"负责任的设计"框架，防止技术滥用，是亟待解决的问题。

知识产权争议：AI生成分子的专利性如何界定？发明人是AI系统、开发者还是使用者？不同司法管辖区的法律存在差异，形成法律不确定性。

监管审批准入：监管机构如何评估AI设计药物的安全性与有效性？需要建立哪些新标准？FDA和EMA等机构正在探索AI药物的监管框架，但尚未形成成熟路径。

伦理考量：AI系统可能加剧研发资源的不平等分配，使资源向拥有先进AI能力的机构集中，加剧"中心-边缘"格局。如何确保技术的普惠性，是值得关注的伦理议题。

11. 未来展望

11.1 从辅助设计走向自主发现

AI在药物发现中的角色正在经历从"工具"到"协作者"再到"自主发现者"的演进。当前阶段，AI智能体作为"高级协作者"，能够在人类监督下执行复杂任务。未来5-10年，有望出现具备真正自主性的科学发现系统。

自主发现的核心能力包括：提出原创科学假说；设计实验验证假说；从实验结果中学习并修正假说；在无人类干预的情况下持续迭代。这种能力将彻底改变药物研发范式------从"科学家设计实验、AI辅助执行"转向"AI设计实验、科学家监督指导"。

11.2 从静态预测走向动态闭环优化

当前AI模型多为"静态"预测器------接受输入，产生输出，任务结束。未来的发展方向是"动态"闭环优化------设计-制造-测试-学习循环实时运行，模型持续从新数据中学习。

在这一范式中，计算不再是药物发现的前置阶段，而是贯穿全程的"伴随系统"。每一轮实验数据即时反馈至模型，更新预测，指导下一轮设计。这种动态闭环将显著提升学习效率和设计质量。

11.3 从单模态模型走向多模态智能体系统

单模态模型（如仅处理序列的蛋白质语言模型）的能力边界已经显现。未来的突破在于多模态智能体系统------能够同时处理和整合序列、结构、图像、文本等多类型信息的系统。

多模态系统的优势在于：从序列推测结构（如ESMFold），从结构推断功能，从文本提取知识，整合这些信息形成对生物系统的更完整理解。BioLab系统集成了六种模态的基础模型，展示了多模态系统的雏形。

11.4 从离线计算走向在线实验学习

"离线计算"指模型在固定数据集上训练后部署使用，不随新数据更新。"在线学习"指模型持续从数据流中学习，不断适应新分布。

在线实验学习的实现需要突破两个瓶颈：一是实验数据的实时获取，要求计算系统与实验平台深度集成；二是模型的高效更新算法，避免每次更新都需要从头训练。若这两个瓶颈得以突破，药物发现系统将具备"从每次实验中学习"的能力，研发效率将指数级提升。

11.5 Foundation Model + Agent + Robotics 的融合

基础模型（Foundation Model）、智能体（Agent）、机器人（Robotics）三者的融合，正在勾勒"自主科学发现"的未来图景。

基础模型提供领域知识的深度表示，充当智能体的"大脑"；智能体负责规划、决策、协调，充当系统的"认知中枢"；机器人执行实验操作，充当系统的"手"。三者融合，构成完整的"思考-决策-行动"闭环。

在药物发现场景中，这一融合意味着：基础模型理解靶点生物学和化学空间，智能体设计实验方案，机器人平台自动合成、纯化、测试化合物，结果反馈至基础模型更新知识表示------形成一个无人类干预、自主运行的发现循环。

11.6 可信、可追溯、可监管的AI科研系统

随着AI系统承担越来越多的科研责任，建立"可信AI科研系统"变得至关重要。

可信性要求系统具备不确定性量化能力，能够告诉用户"这个预测有多可靠"。可追溯性要求系统的决策过程可记录、可复现，每个设计决策都能追溯到数据来源和推理路径。可监管性要求系统设计符合法律法规和伦理准则，能够接受外部审计和监管审查。

这些属性不仅是技术需求，更是社会需求。只有当科学家、监管机构、公众对AI科研系统建立信任，其潜力才能真正释放。

12. 结论

本文系统综述了AI智能体驱动下的小分子药物设计与蛋白设计方法进展。研究表明，生成式AI与智能体系统的融合正在重塑药物研发的方法论基础：变分自编码器、生成对抗网络、Transformer和扩散模型提供了强大的分子生成能力；大语言模型赋能的智能体系统实现了从文献挖掘、靶点识别、分子生成到性质预测的全流程自动化；多智能体协作架构支持复杂的蛋白设计任务，在抗体优化、无序蛋白靶向等挑战性场景中取得突破。

小分子设计与蛋白设计正从"平行发展"走向"深度融合"。多模态基础模型的出现为统一生物分子设计框架奠定了基础；智能体驱动的协同设计平台有望将小分子与蛋白的优势互补，创造新型治疗分子。

然而，这一领域仍面临严峻挑战：生物学机理的复杂性超越模式识别范畴；数据偏差限制模型的外推能力；可解释性与不确定性量化亟待突破；系统工程难题阻碍计算-实验闭环的实现；安全、伦理与监管问题需要前瞻性布局。

展望未来，从辅助设计走向自主发现、从静态预测走向动态闭环、从单模态模型走向多模态智能体系统、从离线计算走向在线实验学习，是明确的演进方向。基础模型、智能体、机器人的深度融合，将最终实现"思考-决策-行动"自主循环的科研新范式。构建可信、可追溯、可监管的AI科研系统，是释放这一范式潜力的必要前提。

站在2026年回望，AI智能体驱动的药物发现已从概念验证走向初步应用；展望未来十年，这一领域有望真正实现"将十年研发缩短为一年，将十亿美元成本削减至千万"的愿景，为患者带来更多、更好的治疗选择。

参考文献

$1$ Generative AI for drug discovery and protein design: the next frontier in AI-driven molecular science. Medicine in Drug Discovery, 27, 100213 (2025).

$2$ Pan, Q. et al. FROGENT: An End-to-End Full-process Drug Design Multi-Agent System. arXiv preprint arXiv:2508.10760 (2026).

$3$ Sinclair, M. et al. Scalable Agentic Reasoning for Designing Biologics Targeting Intrinsically Disordered Proteins. arXiv preprint arXiv:2512.15930 (2025).

$4$ Applications of Artificial Intelligence in Biotech Drug Discovery and Product Development. MedComm, 6(8) (2025).

$5$ 来鲁华等. Computer-Aided Drug Discovery for Undruggable Targets. Chemical Reviews (2025).

$6$ UAB-SPARC. Multi-target Parallel Drug Discovery with Multi-agent Orchestration. GitHub repository (2025).

$7$ Ashyrmamatov, I. et al. A survey on large language models in biology and chemistry. Experimental & Molecular Medicine (2025).

$8$ Large Language Model Agent for Modular Task Execution in Drug Discovery. arXiv preprint arXiv:2507.02925 (2025).

$9$ BioLab: End-to-End Autonomous Life Sciences Research with Multi-Agents System Integrating Biological Foundation Models. bioRxiv (2025).

$10$ Diffusion Models at the Drug Discovery Frontier: A Review on Generating Small Molecules Versus Therapeutic Peptides. Biology, 14(12), 1665 (2025).