深度学习绘制的细菌免疫图谱:239万抗噬菌体蛋白的发现之旅

在微观世界的漫长进化中,细菌与噬菌体之间的"军备竞赛"从未停歇。噬菌体数量约为细菌的10倍,迫使细菌发展出高度多样化的防御体系。尽管已有超过250种抗噬菌体系统被实验验证,但大量潜在机制仍隐藏在细菌基因组深处。如今,法国巴斯德研究所的研究团队利用深度学习技术,成功绘制了一幅前所未有的细菌抗病毒免疫图谱,揭示了这个隐秘世界的惊人规模。

该团队开发了三套互补的深度学习模型。ALBERT_DF将蛋白家族视为"单词"、基因排列视为"句法结构",通过基因组语境捕捉防御信号;ESM_DF则直接解析氨基酸序列,具备跨序列泛化能力;而表现最优的GeneCLR_DF采用对比学习框架,整合序列与基因组语境信息,在统一基准测试中实现了99%的精确率和92%的召回率。

基于这一高精度模型,研究团队对超过32,000个细菌基因组进行了大规模预测。结果显示,一个典型细菌基因组中约有1.5%的基因参与抗病毒防御,而此前这一比例被认为不足0.5%。更重要的是,超过85%的预测防御相关蛋白家族从未被关联到免疫功能。最终,模型共预测出约239万个抗噬菌体蛋白,并基于基因共现关系定义了约23,000个操纵子家族,其中绝大多数此前与抗病毒防御毫无关联。

这项研究的突破性发现之一,是大量预测的防御蛋白以单基因系统形式存在。这挑战了传统观点------防御功能通常由多基因协同完成。在分子多样性层面,GeneCLR_DF将防御相关的Pfam结构域家族从934个扩展至3,154个,约占全部Pfam的15%。超过40万个预测蛋白家族缺乏任何已知结构域注释,暗示着更广阔的未知空间等待探索。

实验验证进一步证实了模型的可靠性。在白色链霉菌中测试的10个候选系统中,6个表现出稳健保护作用;在大肠杆菌中测试的高分候选中,同样有6个展现出抗噬菌体能力,其中包含DUF7946等此前未与防御功能关联的结构域。

这项发表于《Science》的研究,标志着抗噬菌体防御研究从依赖个案发现的"点状突破"转向基于模式识别的"系统性挖掘"。从学术界的DefensePredictor到产业界Locus Biosciences和Micreos的噬菌体疗法开发,这一技术路径正在加速基础研究向实际应用的转化。随着更多数据的积累和模型的迭代,人类对细菌免疫体系的理解将不断深化,为应对抗生素耐药性危机提供新的解决方案。

相关推荐
IT_陈寒41 分钟前
Redis内存爆了,原来我漏掉了这个致命配置
前端·人工智能·后端
用户3521802454752 小时前
🎆从 Prompt 到 Skill:让 Spring AI Agent 学会"装新技能"
人工智能·spring boot·ai编程
米小虾3 小时前
手把手教你搭建第一个生产级AI Agent:从选型到实战的完整指南
人工智能·agent
任沫3 小时前
Agent之Function Call
javascript·人工智能·go
米小虾3 小时前
2026年AI Agent全面爆发:从开源生态到企业级应用的进化之路
人工智能·agent
用户6919026813393 小时前
Vibe Coding 开发项目的基本范式
人工智能·设计模式·代码规范
To_OC3 小时前
别再跟 AI 死磕 prompt 了,我写了个 Loop 让它自己改到满意为止
人工智能·aigc·agent
血小溅4 小时前
三大 AI 编码框架深度对比:GSD vs OpenSpec vs Superpowers
人工智能·后端
武子康7 小时前
调查研究-186 LangChain 和 LangGraph 的区别:从快速构建 Agent 到生产级工作流编排
人工智能·langchain·llm
武子康8 小时前
调查研究-185 CodeGraph 调研:给 AI 编程 Agent 一张代码库地图,少一点反复 grep(2026)
人工智能·openai·claude