PlantBiMoE开源:轻量高效的植物基因组基础模型

基因组里藏着大量调控元件和结构信息,它们分布在编码区和非编码区,参与转录起始、可变剪接、染色质开放等关键过程。这些区域碱基组成不均、依赖关系长、交互复杂,传统窗口式模型很难捕捉全局上下文。

高通量测序数据越来越多,物种越来越广,我们急需一个能跨物种泛化、支持多任务学习的统一建模框架。

植物科学领域AI实操班"AI技术在农作物育种研究中的应用"高级研修班的通知

现有模型的两难

AgroNT 是首个面向植物基因组的大规模预训练Transformer,在启动子强度预测、剪接位点识别等任务上表现不错。但参数量超过10亿,资源消耗大,普通实验室难以部署。而且它沿用标准BERT架构,没有融入DNA特有的链对称等结构先验。

后续PDLLMs系列做了轻量化尝试,推理成本降下来了,也初步支持多任务。但多数采用单向建模,前馈模块过于标准化,对功能密集且不对称的区域表征能力有限。

PlantCaduceus结合了Mamba状态空间建模和反向互补对称,双向表征有提升,但建模窗口限制在512bp,难以捕捉长程顺式调控互作。

PlantBiMoE怎么做

华中科大和华中农大团队提出PlantBiMoE,一个轻量高效的植物基因组语言模型。核心是两个设计:双向Mamba和稀疏混合专家架构。

双向Mamba让模型能同时编码正向和反向链的信息,有效捕捉双链结构依赖。稀疏MoE通过路由机制为每个token激活部分专家网络,在控制计算量的同时提升模型表达能力。

模型共16层,嵌入维度512,总参数量116M,但每个token实际激活参数仅64M。上下文窗口支持32768bp,远超AgroNT的6000bp和PDLLMs的2000bp,能更好建模长程依赖。


PlantBiMoE模型架构

预训练数据来自42个代表性植物物种,涵盖模式植物、蔬菜、水果、谷物、藻类等,总计254亿碱基对。数据预处理采用固定长度切分、随机重叠滑动、非标准碱基替换、高N含量过滤、反向互补增强等策略,训练集和测试集按染色体划分,保证物种和染色体层面的独立性。


预训练物种及大小

任务评估更全面

研究团队构建了MPGB基准,整合了AgroNT的PGB和PDLLMs新增的组蛋白修饰、保守性识别、核心启动子识别等任务。共11类任务、31个子数据集,覆盖二分类、多分类、回归、分割等任务类型,输入序列长度从50bp到6000bp不等,涉及拟南芥、水稻、玉米、大豆等模式植物。

结果说话

在31个子数据集中,PlantBiMoE在20个上取得最优,11项任务中有9项平均性能最佳。

剪接位点、启动子强度、终止子强度、组蛋白修饰、保守性识别、开放染色质这6项任务的全部11个子数据集上,PlantBiMoE均优于AgroNT和PlantDNAMamba。

LncRNA和染色质可及性任务上,6个子数据集里有4个最优,任务平均得分也最高。

多聚腺苷酸化任务上,虽然PlantDNAMamba在4个子数据集上略优,但在Medicago truncatula子集上得分仅69.60,显著低于AgroNT的94.57和PlantBiMoE的91.35,拉低了整体平均。

增强子区域和核心启动子任务上,PlantBiMoE略逊于最优模型,但在三个对比模型中稳定排在第二。

跨物种泛化方面,染色质可及性预测在玉米、高粱、拟南芥上AUC高且方差小,说明模型在不同物种间有较好的鲁棒性。

训练细节

预训练采用单核苷酸tokenization,词表包含ATCGN及特殊标记共12个。目标函数为掩码语言建模,15%位置随机掩码,其中80%替换为[MASK],10%随机替换,10%保持不变。

训练在8张A800-80G GPU上分布式进行,单卡batch size为4,8步梯度累积,有效batch size 256。使用AdamW优化器,学习率线性预热后余弦衰减,混合精度bf16训练,总耗时约166小时。

开源与价值

代码已开源:https://github.com/HUST-Keep-Lin/PlantBiMoE

PlantBiMoE证明了基因组语言模型的效果不单纯依赖参数规模或数据量,架构设计与数据质量的协同更重要。双向状态空间建模加稀疏专家路由,为轻量高效的大模型设计提供了新思路。

对植物基因组注释、调控机制解析、基因编辑靶点设计、合成生物学元件构建等方向,PlantBiMoE都能提供可靠的序列表征基础。

模型仅116M参数,普通实验室也能跑得动,降低了植物基因组大模型的使用门槛。

植物基因组研究正在进入大模型时代,轻量、高效、可泛化,可能是下一步的关键。PlantBiMoE迈出了扎实的一步。

植物科学领域AI实操班"AI技术在农作物育种研究中的应用"高级研修班的通知

相关推荐
A000—ic测试座(陈佳鑫)5 小时前
芯片高温加速寿命测试:除了初始测试还有哪些关键条件?
网络·人工智能·python
一只理智恩5 小时前
AI + 跨境电商:商品采集、标题优化、SKU 推荐系统设计
人工智能
Michelle80235 小时前
24大数据 12-1 条形图
r语言
俊哥V5 小时前
每日 AI 研究简报 · 2026-05-19
人工智能·ai
一念春风5 小时前
WorkBuddy(腾讯小龙虾)
人工智能·ai·模型
收放扳机6 小时前
PCB外层产线收放板设备配置思路:从效率优先到防护优先的分段规划
人工智能·科技·自动化·制造·pcb工艺
YUDAMENGNIUBI6 小时前
day27_卷积神经网络与循环神经网络入门
人工智能·rnn·cnn
新新学长搞科研6 小时前
【安徽大学主办】第五届半导体与电子技术国际研讨会(ISSET 2026)
大数据·数据库·人工智能·自动化·信号处理·半导体·电子
互联科技报6 小时前
2026年高清家用投影仪推荐:明基W系列领衔
人工智能