【文献分享】MicroProphet一种具有时间感知能力的机器学习框架能够以个性化的方式精确预测微生物群落的动态变化

文章目录

介绍

利用稀疏的纵向数据准确预测微生物群落的动态行为,对于基于微生物组的精准医疗和生态监测而言,仍是一项极具挑战性的任务。现有的大多数模型依赖数据插值,并假定是种群层面的动态变化,这限制了它们在现实场景中捕捉个体微生物变化的能力。

我们提出了 MicroProphet,这是一种个性化的时序感知框架,能够从不完整的纵向观测数据中准确预测微生物丰度轨迹,且无需数据插补。它由一个时间感知的 Transformer 架构驱动,通过仅使用观察时间点的前 30% 来重建个体特定的微生物轨迹,并通过注意力机制捕捉关键的过渡状态。我们在合成群落、人类肠道微生物群、婴儿肠道发育以及尸体分解等不同生态系统中展示了其强大的跨生态系统泛化能力。该框架始终能够实现高预测准确性和生物学可解释性。在临床环境中,该框架能够早期检测出与疾病相关的微生物变化,并有助于优化针对微生物组的干预措施的时间安排。在法医领域,它能够根据早期的微生物信号准确推断出尸体的分解时间。通过将不完整且杂乱的微生物组数据转化为可操作的、个性化的预测结果,MicroProphet 为微生物生态学和精准健康领域的新一类时间感知系统奠定了基础。

微生物群落对于维持各种生态系统的健康起着至关重要的作用,涵盖从与人类相关的微生物群到农业和工业环境等多个方面[1,2,3]。随着精准医疗的日益受到重视,微生物群落的动态变化已成为理解个体健康状况的一个重要方向。与静态的横截面数据(这些数据仅能提供微生物组成的一时性概览)不同,纵向的微生物组数据揭示了微生物相互作用的演变轨迹及其生态后果,为随着时间推移对群落功能的机制性理解提供了更深入的见解。然而,将这些见解转化为可操作的预测仍是一个重大挑战,原因在于微生物组时间序列的样本采集不规律、大量数据缺失以及复杂的时态行为[4,5,6]。

经典的建模框架,如广义洛塔-沃尔泰拉系统(例如 MDSINE)[7]、动态贝叶斯网络(例如 CGBayesNets)[8]以及基于条件推理树的数字孪生模型(例如 Q-net)[9],为微生物群落动态的研究提供了重要见解。然而,这些方法在处理纵向微生物组数据中常见的固有缺失和异步采样问题时存在困难,这限制了它们在实际应用中的预测准确性和通用性[10,11,12]。尽管一些研究尝试通过统计样条估计和动态时间规整(DTW)[12]来解决这些问题,但这些方法依赖于数据插值,这可能会引入额外的偏差和扭曲。此外,大多数框架仍然局限于特定的生态系统,限制了它们在不同临床和环境设置中的应用潜力。

与此同时,序列建模方面的进展,特别是具有自注意力机制和时间位置编码的 Transformer 架构,极大地改变了基因表达和单细胞动态等领域的预测工作[13]。这些方法为从不完整且异质的生物数据中学习提供了新的途径,且无需明确的插补处理。尽管它们具有很大的潜力,但将其系统地应用于微生物组预测的研究仍相对较少,尤其是在需要同时具备预测准确性和生物学可解释性的情况下。

为解决这些局限性,我们提出了 MicroProphet,这是首个利用 Transformer 架构的个性化时态感知(也称为数字孪生)框架,该框架专为从不完整的纵向数据中建模微生物群落动态而设计。我们系统地在各种生态环境中验证了 MicroProphet,包括合成微生物群落、人类肠道微生物群和死后微生物群落演替。在这些代表性场景中,MicroProphet 能够从初始时间点的 30% 以下数据准确预测微生物丰度轨迹,且无需依赖基于插值的插补方法。值得注意的是,在 Corpse 数据集中,该模型成功捕捉到了表明显著组成变化的关键转折点。我们的方法为个性化轨迹预测和生态解释提供了数据驱动的基础,有望为微生物群监测和精准干预策略的未来发展提供指导。

代码

https://github.com/HUST-NingKang-Lab/MicroProphet

参考

相关推荐
程序员老邢1 小时前
【产品底稿 08】商助慧 AI 仿写实战复盘:RAG 知识库 + 大模型联动,一键生成技术底稿
人工智能·spring boot·后端·ai·语言模型·milvus
大龄程序员狗哥1 小时前
第45篇:文本生成实战:使用GPT-2创作故事——体验AI的“创造力”(项目实战)
人工智能·gpt
IT_陈寒2 小时前
JavaScript的闭包差点让我加班到凌晨
前端·人工智能·后端
AI服务老曹2 小时前
打破设备割裂:基于 GB28181 与 RTSP 的边缘计算 AI 视频平台架构解析(附源码交付与 Docker 部署)
人工智能·音视频·边缘计算
老王谈企服2 小时前
流程型制造业生产优化,未来将如何被大模型技术重构?2026智造深研:实在Agent驱动端到端生产闭环
大数据·网络·人工智能·ai·重构
老赵聊算法、大模型备案2 小时前
从剪映、即梦 AI 被罚,读懂 AI 生成内容标识硬性合规要求
人工智能·算法·安全·aigc
传说故事2 小时前
【论文阅读】通过homeostasis RL学习合成综合机器人行为
论文阅读·人工智能·机器人·具身智能
zhangfeng11332 小时前
LLaMA-Factory 保存 checkpoint 时崩溃解决办法 OOM 内存溢出(不是显存)
运维·服务器·人工智能·深度学习·llama
小程故事多_802 小时前
DeepSeek-V4技术报告全解读 从架构到Infra的全栈重构之路
人工智能·重构·架构·智能体