在微观世界的漫长进化中,细菌与噬菌体之间的"军备竞赛"从未停歇。噬菌体数量约为细菌的10倍,迫使细菌发展出高度多样化的防御体系。尽管已有超过250种抗噬菌体系统被实验验证,但大量潜在机制仍隐藏在细菌基因组深处。如今,法国巴斯德研究所的研究团队利用深度学习技术,成功绘制了一幅前所未有的细菌抗病毒免疫图谱,揭示了这个隐秘世界的惊人规模。
该团队开发了三套互补的深度学习模型。ALBERT_DF将蛋白家族视为"单词"、基因排列视为"句法结构",通过基因组语境捕捉防御信号;ESM_DF则直接解析氨基酸序列,具备跨序列泛化能力;而表现最优的GeneCLR_DF采用对比学习框架,整合序列与基因组语境信息,在统一基准测试中实现了99%的精确率和92%的召回率。
基于这一高精度模型,研究团队对超过32,000个细菌基因组进行了大规模预测。结果显示,一个典型细菌基因组中约有1.5%的基因参与抗病毒防御,而此前这一比例被认为不足0.5%。更重要的是,超过85%的预测防御相关蛋白家族从未被关联到免疫功能。最终,模型共预测出约239万个抗噬菌体蛋白,并基于基因共现关系定义了约23,000个操纵子家族,其中绝大多数此前与抗病毒防御毫无关联。
这项研究的突破性发现之一,是大量预测的防御蛋白以单基因系统形式存在。这挑战了传统观点------防御功能通常由多基因协同完成。在分子多样性层面,GeneCLR_DF将防御相关的Pfam结构域家族从934个扩展至3,154个,约占全部Pfam的15%。超过40万个预测蛋白家族缺乏任何已知结构域注释,暗示着更广阔的未知空间等待探索。
实验验证进一步证实了模型的可靠性。在白色链霉菌中测试的10个候选系统中,6个表现出稳健保护作用;在大肠杆菌中测试的高分候选中,同样有6个展现出抗噬菌体能力,其中包含DUF7946等此前未与防御功能关联的结构域。
这项发表于《Science》的研究,标志着抗噬菌体防御研究从依赖个案发现的"点状突破"转向基于模式识别的"系统性挖掘"。从学术界的DefensePredictor到产业界Locus Biosciences和Micreos的噬菌体疗法开发,这一技术路径正在加速基础研究向实际应用的转化。随着更多数据的积累和模型的迭代,人类对细菌免疫体系的理解将不断深化,为应对抗生素耐药性危机提供新的解决方案。