深度学习绘制的细菌免疫图谱:239万抗噬菌体蛋白的发现之旅

在微观世界的漫长进化中,细菌与噬菌体之间的"军备竞赛"从未停歇。噬菌体数量约为细菌的10倍,迫使细菌发展出高度多样化的防御体系。尽管已有超过250种抗噬菌体系统被实验验证,但大量潜在机制仍隐藏在细菌基因组深处。如今,法国巴斯德研究所的研究团队利用深度学习技术,成功绘制了一幅前所未有的细菌抗病毒免疫图谱,揭示了这个隐秘世界的惊人规模。

该团队开发了三套互补的深度学习模型。ALBERT_DF将蛋白家族视为"单词"、基因排列视为"句法结构",通过基因组语境捕捉防御信号;ESM_DF则直接解析氨基酸序列,具备跨序列泛化能力;而表现最优的GeneCLR_DF采用对比学习框架,整合序列与基因组语境信息,在统一基准测试中实现了99%的精确率和92%的召回率。

基于这一高精度模型,研究团队对超过32,000个细菌基因组进行了大规模预测。结果显示,一个典型细菌基因组中约有1.5%的基因参与抗病毒防御,而此前这一比例被认为不足0.5%。更重要的是,超过85%的预测防御相关蛋白家族从未被关联到免疫功能。最终,模型共预测出约239万个抗噬菌体蛋白,并基于基因共现关系定义了约23,000个操纵子家族,其中绝大多数此前与抗病毒防御毫无关联。

这项研究的突破性发现之一,是大量预测的防御蛋白以单基因系统形式存在。这挑战了传统观点------防御功能通常由多基因协同完成。在分子多样性层面,GeneCLR_DF将防御相关的Pfam结构域家族从934个扩展至3,154个,约占全部Pfam的15%。超过40万个预测蛋白家族缺乏任何已知结构域注释,暗示着更广阔的未知空间等待探索。

实验验证进一步证实了模型的可靠性。在白色链霉菌中测试的10个候选系统中,6个表现出稳健保护作用;在大肠杆菌中测试的高分候选中,同样有6个展现出抗噬菌体能力,其中包含DUF7946等此前未与防御功能关联的结构域。

这项发表于《Science》的研究,标志着抗噬菌体防御研究从依赖个案发现的"点状突破"转向基于模式识别的"系统性挖掘"。从学术界的DefensePredictor到产业界Locus Biosciences和Micreos的噬菌体疗法开发,这一技术路径正在加速基础研究向实际应用的转化。随着更多数据的积累和模型的迭代,人类对细菌免疫体系的理解将不断深化,为应对抗生素耐药性危机提供新的解决方案。

相关推荐
Elastic 中国社区官方博客9 小时前
我们如何在 Elasticsearch Serverless 上将向量搜索吞吐量提升一倍
大数据·数据库·人工智能·elasticsearch·搜索引擎·云原生·serverless
xzzd_jokelin9 小时前
公司AI开发痛点解析:多人+AI辅助 协同开发?
人工智能·机器学习·ai·ai编程·cloud·codex
阿洛学长9 小时前
MoneyPrinterTurbo 深度解析与部署实战:AI 一键短视频生成,从源码到上线全攻略
人工智能·音视频
weelinking9 小时前
【产品】11_实现后端接口——数据在背后如何流动
java·人工智能·python·sql·oracle·json·ai编程
久曲健的测试窝9 小时前
从跑分到实战:2026大模型质量评测技术栈全景拆解与选型参考
人工智能·ai·aigc
冬奇Lab9 小时前
微软双论文深度剖析:Agent Skill 的评测体系与自进化优化
人工智能·microsoft·agent
香蕉也是布拉拉9 小时前
2026-05-29 arXiv 论文带读:GeoAI、空间智能与多模态 Agent 的 9 篇高质量新作
人工智能·机器学习
ting94520009 小时前
Ava 2.0 技术架构与核心能力深度解析:自主式 AI BDR 的全链路技术实现
人工智能·架构
Mr数据杨9 小时前
【CanMV K210】基础实验 RGB LED 三色混光与状态灯封装
人工智能·硬件开发·canmv k210
万俟淋曦9 小时前
【论文速递】2026年第02周(Jan-04-10)(Robotics/Embodied AI/LLM)
人工智能·深度学习·机器人·大模型·论文·robotics·具身智能