Plant Com | 华中农大&上海交大联合开发植物核心启动子AI从头设计框架TargetGAN

近日，华中农业大学胡学海&上海交通大学陆钰明团队在Plant Communications 发表了题为TargetGAN: A generative AI framework for designing plant core promoters with targeted activity 的研究文章。该研究创新性地提出了一个耦合生成对抗网络（GANs）与序列---活性预测器的深度生成框架TargetGAN，实现了具有目标活性的植物核心启动子的AI从头设计。该研究不仅成功打破了天然启动子的进化约束，创造出超高活性的合成启动子，更为植物系统中的基因精准调控和合成生物学提供了强大的AI工具与元件库资源。

背景与意义

植物核心启动子是控制基因转录起始的关键元件，在作物育种和植物合成生物学中具有重要价值。然而，天然启动子的序列多样性和活性范围都比较有限，其最高活性通常仅为35S minimal启动子的16倍左右。传统设计方法（如诱变或调控元件组合）大多围绕天然序列进行微小改动，难以突破进化所设定的活性上限。

近年来，深度生成模型在微生物和动物系统中已成功用于设计人工启动子或增强子，但植物核心启动子因其序列更长、顺式调控结构更复杂，仍然是一个挑战。因此，开发一种能够生成活性可定制、超越天然范围的植物核心启动子的AI方法，具有重要的理论和应用意义。

方法

1. 模型架构

基础生成器：采用WGAN-GP（带梯度惩罚的Wasserstein生成对抗网络），由卷积块、残差块和全连接层组成。
训练数据：76,851个天然植物核心启动子（来自拟南芥、玉米、高粱），活性数据来自STARR-seq实验。
TargetGAN创新 ：在WGAN-GP基础上，集成一个预训练的活性预测器。通过激活最大化策略，根据预测活性与目标值的差异反向更新潜变量，引导生成序列向用户指定的活性目标靠近。

2. 生成与筛选

设定9个活性目标（从"min"到"max"），生成55,296个合成启动子。
从中挑选5,250个用于STARR-seq高-throughput验证，同时包含750个天然启动子作为对照。
验证实验在玉米原生质体中进行，通过barcode计数计算启动子活性（log2转换，以35S minimal为基准）。
对部分候选进行LUC双荧光素酶正交验证。

3. 可解释性分析

使用TF-MoDISco鉴定富集的转录因子结合motif。
基于motif出现频率建立线性回归模型，预测启动子活性。

结果

1. WGAN-GP的局限性

生成的启动子新颖（与天然序列相似度仅0.27%），在k-mer频率、GC含量、DNA形状等特征上与天然启动子接近。
但预测活性分布与天然启动子高度重叠，未能突破活性上限，说明需要更主动的引导策略。

2. TargetGAN的生成精度

对不同活性目标的生成成功率从24.9%（极低活性）到80.8%（中等活性）不等。即使对于天然中极其罕见的超低活性序列（仅占0.04%），模型也能实现约600倍的富集。
三次重复实验生成的序列重叠度仅4.45%，说明多样性高。

3. STARR-seq验证

经过严格质控（CV<30%），获得2,909个合成启动子和671个天然启动子的高置信度活性数据。
预测活性与实测活性的Pearson相关系数为0.6435，呈现中等相关。
29个合成启动子的实测活性超过了测试天然启动子的最大值（天然最高为UBI-core-promoter的5.19，合成最高达到7.96）。
LUC验证与STARR-seq结果高度一致（PCC=0.7095），其中最活跃的SP1482比35S minimal启动子高128倍，显著优于UBI-core-promoter。

4. Motif机制分析

鉴定出13个富集motif，其中5个为已知（如TATAAA、TATATA），8个为新发现。
超高活性启动子中，激活型motif（如TATAAA、TATATA、Seqlet3）出现频率远高于天然启动子，且倾向于共同出现。
基于motif频率的线性回归模型在TargetGAN生成序列上拟合良好（PCC=0.8407），但在天然启动子上表现较差（PCC=0.2714），说明人工序列的调控"语法"更干净、规则更直接，而天然序列受进化噪声和染色质环境等复杂因素影响。

讨论

1. 主要创新与贡献

TargetGAN是首个能够按需生成活性可定制、突破天然上限的植物核心启动子设计框架。
提供了大规模、公开可用的合成启动子库，并验证了29个超高活性序列，可用于基因过表达、代谢工程等场景。

2. 局限与注意事项

STARR-seq测得的绝对活性值可能因35S minimal启动子基线偏低而被高估。
实验仅在玉米原生质体瞬时表达系统中进行，不能完全反映稳定转基因植株中的染色质环境。
生成的序列仅为170 bp的核心启动子，缺少远端调控元件，实际应用中可能需要额外搭配增强子。
超强组成型活性可能带来代谢负担或基因沉默风险，需根据具体用途谨慎选择。

3. 未来方向

建立"干-湿"闭环反馈，将新的实验数据不断用于再训练。
尝试扩散模型、大语言模型等更先进的生成架构。
开发组织特异性或胁迫响应型的预测器，实现时空可控的表达调控。
在稳定转基因植株和代谢通路中系统评估这些合成启动子的表现。

【项目案例】7个主流基因组选择（GS）算法，直接套用你的数据发表文章

农作物前沿技术专题课程：从分子辅助到智能设计

测序，烂便宜！