深度学习绘制的细菌免疫图谱:239万抗噬菌体蛋白的发现之旅

在微观世界的漫长进化中,细菌与噬菌体之间的"军备竞赛"从未停歇。噬菌体数量约为细菌的10倍,迫使细菌发展出高度多样化的防御体系。尽管已有超过250种抗噬菌体系统被实验验证,但大量潜在机制仍隐藏在细菌基因组深处。如今,法国巴斯德研究所的研究团队利用深度学习技术,成功绘制了一幅前所未有的细菌抗病毒免疫图谱,揭示了这个隐秘世界的惊人规模。

该团队开发了三套互补的深度学习模型。ALBERT_DF将蛋白家族视为"单词"、基因排列视为"句法结构",通过基因组语境捕捉防御信号;ESM_DF则直接解析氨基酸序列,具备跨序列泛化能力;而表现最优的GeneCLR_DF采用对比学习框架,整合序列与基因组语境信息,在统一基准测试中实现了99%的精确率和92%的召回率。

基于这一高精度模型,研究团队对超过32,000个细菌基因组进行了大规模预测。结果显示,一个典型细菌基因组中约有1.5%的基因参与抗病毒防御,而此前这一比例被认为不足0.5%。更重要的是,超过85%的预测防御相关蛋白家族从未被关联到免疫功能。最终,模型共预测出约239万个抗噬菌体蛋白,并基于基因共现关系定义了约23,000个操纵子家族,其中绝大多数此前与抗病毒防御毫无关联。

这项研究的突破性发现之一,是大量预测的防御蛋白以单基因系统形式存在。这挑战了传统观点------防御功能通常由多基因协同完成。在分子多样性层面,GeneCLR_DF将防御相关的Pfam结构域家族从934个扩展至3,154个,约占全部Pfam的15%。超过40万个预测蛋白家族缺乏任何已知结构域注释,暗示着更广阔的未知空间等待探索。

实验验证进一步证实了模型的可靠性。在白色链霉菌中测试的10个候选系统中,6个表现出稳健保护作用;在大肠杆菌中测试的高分候选中,同样有6个展现出抗噬菌体能力,其中包含DUF7946等此前未与防御功能关联的结构域。

这项发表于《Science》的研究,标志着抗噬菌体防御研究从依赖个案发现的"点状突破"转向基于模式识别的"系统性挖掘"。从学术界的DefensePredictor到产业界Locus Biosciences和Micreos的噬菌体疗法开发,这一技术路径正在加速基础研究向实际应用的转化。随着更多数据的积累和模型的迭代,人类对细菌免疫体系的理解将不断深化,为应对抗生素耐药性危机提供新的解决方案。

相关推荐
冬奇Lab13 分钟前
一天一个开源项目(第98篇):UI-TARS-Desktop - 字节跳动开源的多模态 GUI 代理栈
人工智能·开源·资讯
青岛前景互联信息技术有限公司21 分钟前
OpenClaw 重构智慧消防:AI时代的平台融合实践
大数据·人工智能
梦梦代码精1 小时前
BuildingAI 上部署自定义工作流智能体:5 个实用技巧
大数据·人工智能·算法·开源软件
极客老王说Agent1 小时前
2026智造前瞻:实在Agent生产排期智能助理核心功能与使用方法详解
大数据·人工智能·ai·chatgpt
Mr_pyx1 小时前
Spring AI 入门教程:Java开发者的AI应用捷径
java·人工智能·spring
巫山老妖1 小时前
鹅厂十年:三段式技术成长复盘
android·人工智能·程序员
aircrushin1 小时前
英伟达份额从95%跌到0,DeepSeek V4选择国产芯片
人工智能
aircrushin1 小时前
GPT-5.5免费了,但这个数字让你还敢用它吗?
人工智能
后端小肥肠2 小时前
公众号漫画卷疯了?我用漫画工厂Skill,3天带群友入池,小白也能抄作业
人工智能·aigc·agent