19 世纪末,德国细菌学家埃米尔·阿达姆·冯·贝林 (Emil Adolf von Behring) 对白喉毒素进行了深入的研究。当时,白喉如同死神的镰刀,无情地夺走许多儿童的生命。贝林在实验中给家兔注射微量白喉毒素,想观察其反应以寻找对抗毒素的方法。几天后,他惊讶地发现这些家兔不仅没有死亡,还对后续注射的白喉毒素产生了抵抗力。进一步研究发现,家兔血清中出现了一种能中和白喉毒素的物质,人类由此首次发现抗体的存在。 这一偶然发现为抗体研究的应用拉开了序幕,展现了利用人体自身力量对抗疾病的巨大潜力。
历经一个多世纪的深入探索,科学家们在抗体研究领域持续发力,却至今未能开辟出一条完全依赖计算机设计、针对特定表位生成新抗体的高效路径。时至今日,治疗性抗体的发现主要仍深陷于动物免疫或随机文库筛选这两种传统方法的泥沼之中。 在日益复杂的疾病挑战面前,这些传统方法的局限性愈发凸显,迫切需要新的突破,以实现针对特定目标的抗体能够更加高效、精准的设计,从而为抗体研究带来新的曙光。
为解决抗体发现依赖传统方法的问题,华盛顿大学生物化学教授 David Baker 团队及其合作者将微调后的 RFdiffusion 网络计算蛋白设计与酵母展示筛选结合,成功生成了能以原子级精度结合特定表位的抗体可变重链 VHHs 和单链可变片段 scFvs, 证明了从头设计抗体结构域的可行性。该方法为从头设计抗体提供了计算设计、筛选、分离和表征的合理框架,实现了结构和表位靶向的原子级精度。
相关研究成果以「Atomically accurate de novo design of antibodies with RFdiffusion」为题,已在 bioRxiv 发表预印本。
论文地址:
开源项目「awesome-ai4s」汇集了 200 余篇 AI4S 论文解读,并提供海量数据集与工具:
抗体研究技术革新:AI 的突破与挑战
抗体作为蛋白质治疗药物的主导类别,凭借其高特异性与低副作用的特点,已成为肿瘤、自身免疫疾病等领域的核心治疗手段。截至 2025 年,全球已有超过 160 种抗体药物获得监管机构批准,其市场规模在过去 10 年中以年均 15% 的速度增长,预计未来 5 年内将达到 4,450 亿美元。
然而,传统抗体开发技术长期依赖动物免疫与随机文库筛选, 面临显著瓶颈。动物免疫法需通过多次抗原注射刺激动物免疫系统产生抗体,流程通常耗时 6-12 个月, 且受限于动物个体免疫应答差异,难以获得针对如膜蛋白等复杂抗原的高效抗体;随机文库筛选法「如噬菌体展示技术」虽能扩大筛选范围,但对难以激发免疫反应的抗原,如非折叠蛋白或糖基化表位,且筛选出的抗体亲和力普遍较低。
为突破传统技术限制,计算设计与人工智能逐渐成为抗体研发的新方向。早期研究通过将残基嵌入现有抗体框架、优化互补决定区「CDR 环」构象,并结合 Rosetta 算法改造相互作用界面,成功提升了抗体性能。例如,2018 年一项研究通过计算设计将抗 PD-1 抗体的亲和力提高了 20 倍。
近年来,深度学习技术进一步推动了抗体序列生成,斯坦福大学团队在 2023 年利用神经网络设计出针对新冠病毒变体的广谱中和抗体,其体外活性较传统方法提升 3 倍。2024 年,David Baker 团队开发的 RFdiffusion 模型实现了无需预设骨架结构的结合蛋白从头设计, 该技术通过模拟蛋白质折叠物理过程,生成与目标表位形状高度互补的结合界面,已成功设计出针对流感病毒血凝素的新型抑制剂。然而,这一研究仅适用于规则二级结构,如 α 螺旋、β 折叠的表位,而抗体通常依赖复杂环状结构(如 CDR-H3)实现结合,这导致其直接应用于抗体设计仍面临挑战。
完全从头设计结构精准的抗体,即与已知抗体无同源性,仍是未解难题,存在包括动态构象模拟不足、高质量数据缺乏及实验验证周期长等问题在内的核心挑战。
抗体的结合过程涉及柔性 CDR 环的构象变化,现有算法难以精确模拟此类动态相互作用;同时,抗体-抗原复合物结构数据的稀缺制约了深度学习模型的泛化能力。尽管计算设计可大幅缩短初期研发时间,但表达纯化与活性测试仍需数周周期,形成技术闭环的瓶颈。未来突破或将依赖混合算法开发融合物理模型与生成式 AI 的工具, 基于跨尺度数据库构建整合单细胞测序与冷冻电镜数据,以及基于「干湿闭环」研发模式通过机器人自动化实现实时迭代。
从动物免疫到计算设计,抗体技术的革新不仅是生物医药领域的范式变革,更体现了多学科交叉的潜力------随着 AI 与合成生物学的发展,完全从头设计抗体的愿景或将逐步实现,为精准医疗开启新篇章。
值得注意的是,抗体计算设计领域近期迎来关键突破。2025 年 3 月,David Baker 团队基于其此前开发的 AI 蛋白质生成工具 RFdiffusion(称为:全新 RFdiffusion),发布了专门针对 CDR 环等抗体可变区优化的新版本模型。 该团队在 2024 年 3 月的研究中曾实现纳米抗体等短链功能性抗体片段的生成,但受限于抗体结构的复杂性,当时的版本(称为:普通 RFdiffusion)在设计更复杂的抗体结构时仍存在局限。
经过一年多的算法迭代,全新 RFdiffusion 通过引入抗体-抗原复合物结构数据库训练,现已能够生成更完整、更接近天然人类抗体的单链可变片段 scFv。这一进展标志着,AI 在无需模板的情况下,实现了具有完整抗原结合域的抗体重链与轻链协同设计, 为抗体设计带来了新的希望。
全新 RFdiffusion:原子级精度的从头设计抗体
为了使 RFdiffusion 适用于抗体设计,研究团队在其基础上进行了微调。如下图所示,在训练过程中,其使用 AlphaFold2 / RF2 框架来表示蛋白质主链,并通过一系列的「时间步 (T)」向蛋白质框架添加噪声,直到框架变得无法识别。在每个时间步,RFdiffusion 预测去噪后的结构,通过最小化真实结构 X₀ 和预测结构 pX₀ 之间的均方误差 m.s.e. 来进行优化。经过这种独特的训练方法后, RFdiffusion 能够在推理时从随机残基分布开始,逐步生成新的蛋白质结构。
RFdiffusion 实现抗体设计
随后,该研究将全新 RFdiffusion 用于设计单域抗体 VHHs。VHHs 是基于骆驼科动物重链抗体的可变域设计而成的,其较小的尺寸使得编码设计的基因比单链可变片段 scFv 或抗原结合片段 Fab 更容易组装且成本更低。
尽管 VHHs 仅具有 3 个 CDR 环,少于传统抗体的 6 个,但 VHHs 的平均相互作用表面积与传统抗体非常相似,这表明设计 VHHs 的方法也同样适用于抗体设计。
为了设计 VHHs,研究人员选择了一个广泛使用的嵌合 VHH 框架作为基础,针对一系列与疾病相关的靶点,包括艰难梭菌毒素 B (TcdB)、流感 H1 血凝素 HA 等,通过 ProteinMPNN 在目标背景下进行 CDR 环序列设计,然后使用微调的 RoseTTAFold2 网络进行筛选。在流感 HA 的设计中,为了使实验设计条件与计算参数一致,研究人员使用了商业生产的昆虫细胞表达的单体 HA 产品进行亲和力测量。
结果表明,RFdiffusion 能够设计出与目标表位特异性相互作用的 VHHs。 针对 RSV 位点 III、流感 HA、RBD 和 TcdB 的最高亲和力结合物分别在下图中展示。CDR 环与天然 VHHs 明显不同,表明设计超出了训练数据集的范围。对于 TcdB,目标表位是 Frizzled-7 界面,PDB 中没有针对该位点的抗体或 VHH。此外,TcdB VHH 在 CSPG4 敲除细胞中中和了 TcdB 的毒性。
VHHs 设计的生化表征
-
图 A-C: VHH 设计针对 RSV III 位点、流感 HA、RBD、TcdB 的测试结果
-
图 E: VHH 设计与训练数据集的区别
研究人员进一步探索了 RFdiffusion 在设计单链可变片段 scFv 格式中重链和轻链的能力。与 VHHs 不同,scFv 的设计更为复杂,需要在重链和轻链上构建所有 6 个 CDR 及其对接模式。然而,scFv 的基因合成面临挑战,一方面,scFv 序列较长,难以通过常规寡核苷酸对进行组装,另一方面,scFv 之间高度序列同源,特异性配对难度大。
为此,研究人员开发了逐步组装协议,实现重链和轻链的构建,既可以按设计模型特异性配对,也能在相似靶向结合模式的设计子集中组合混合。 实验结果显示,通过组合不同设计的重链和轻链对生成的新 scFv,能够以与原始设计相似的频率结合到目标表位。此外,在具有相同结合方向的设计集合中,重链和轻链的 CDR 与不同区域相互作用,可组合且不会失去结构精度,而随机配对很少产生预测的结合物。
scFv 设计的生化表征
-
图 A: 结合 TcdB 的 6 种 scFv 的多序列比对
-
图 B: AlphaFold3 预测的 scFv5 和 scFv6 与 TcdB 受体结合域复合物的结构
David Baker:抗体与 RFdiffusion 融合的进化之路
本次研究其实只是 David Baker 研究成果的冰山一角。事实上,在计算生物学的前沿领域,David Baker 团队通过人工智能驱动的蛋白质设计,实现了从病毒靶向到疾病治疗的一系列突破。
点击查看 David Baker 详细报道:从哈佛哲学系到蛋白质设计大师,David Baker:AlphaFold令我深刻认识到深度学习的力量
Baker 获诺贝尔奖后接受线上采访 图源:华盛顿大学蛋白质设计研究所
其中,RFdiffusion 模型已经成为了他们改变抗体药物开发范式的重要基础。2021 年,David Baker 团队基于 AlphaFold2 框架开发出 RosettaFold,其核心能力仅限于预测已知蛋白质的三维结构。
RoseTTAFold 开源地址:
研究团队很快意识到,真正的革命在于「生成」而非「复现」。于是,他们将扩散模型和蛋白质折叠算法相结合,于 2023 年推出了初代 RFdiffusion。这个模型就像获得了逆向工程的密钥:传统方法需要从氨基酸序列去推导结构,而 RFdiffusion 能够根据目标功能需求,反向生成全新的蛋白质骨架。 在早期测试中,它成功设计出了结合流感血凝素的纳米抗体,但其生成的抗体 CDR 环区仍然存在构象偏差,冷冻电镜显示结合界面存在 1.2Å 的均方根偏差。
论文地址:
www.science.org/doi/10.1126...
这个局限促使了 2024 年的关键升级------动态约束系统的引入。 研究团队为模型添加了抗原-抗体结合位点的物理化学参数约束,使生成过程不仅考虑结构稳定性,还模拟分子间的动态相互作用。
升级后的 RFdiffusion 在新冠刺突蛋白抗体设计中表现得非常出色:它构建的柔性环状结构精准地锁定了病毒表面保守表位,经实验验证,其结合亲和力达到 0.8nM,比天然抗体强 15 倍。 更令人瞩目的是,该模型开始挑战「不可成药」靶点:针对 IL-23 受体设计的微型抗体仅含有 58 个氨基酸,却能在 80℃ 高温和胃蛋白酶环境中保持活性,首次实现了抗体的口服给药。
论文地址:
www.biorxiv.org/content/10....
2025 年,RFdiffusion 进入了多模态融合阶段。团队将单细胞测序数据和冷冻电镜结构库进行整合,使模型能够直接根据患者免疫组库特征定制个性化抗体。在最新案例中,一名耐药性肺癌患者的肿瘤新抗原被输入系统,RFdiffusion 在 36 小时内生成了 12 种候选抗体,其中 3 种在类器官模型中显示出显著的肿瘤杀伤效应。 此时的模型已不再局限于抗体设计:它正在探索跨物种蛋白质元件的合成,例如将深海耐压菌的机械敏感离子通道和人源抗体进行融合,创造出能够感知肿瘤微环境 pH 变化的智能药物。
论文地址:
由此可见,RFdiffusion 正在从「蛋白质 3D 打印机」向「生命功能建筑师」的蜕变,重新定义合成生物学的边界。更有意思的是,这场进化远未到达终点,抗体技术的革新正在推动生物医药领域迈向崭新的高度。