*摘要** DeepMind 团队在 Nature 发表 AlphaGenome,首次将多模态预测、长序列上下文和碱基对分辨率统一到一个框架中。在 24 个基因组 track 预测任务和 26 个变异效应预测任务中,AlphaGenome 分别在 22 个和 25 个任务上达到 SOTA。这是继 AlphaFold 之后,DeepMind 在生命科学领域的又一里程碑式突破。
01 非编码变异的解读难题
人类基因组中,超过 98% 的遗传变异位于非编码区。这些变异不直接改变蛋白质序列,却可以通过多种分子机制影响基因功能:
• 调控染色质可及性
• 改变表观遗传修饰
• 影响三维染色质构象
• 调节基因表达水平
• 改变 RNA 剪接模式
实验方法难以全面表征这些复杂效应,计算预测成为关键突破口。
过去几年,深度学习驱动的"序列到功能"(sequence-to-function)模型取得了显著进展。这类模型以 DNA 序列为输入,预测基因组 tracks------将每个 DNA 碱基与实验测量值(如测序读段覆盖度、信号强度等)关联起来的数据格式。
然而,现有模型面临两个根本性权衡:
权衡一:长序列 vs 高分辨率
• SpliceAI、BPNet、ProCapNet 等模型提供碱基对分辨率预测,但输入序列长度受限(≤10kb),可能遗漏远端调控元件的影响
• Enformer、Borzoi 等模型可处理更长序列(200-500kb),但输出分辨率降低(32-128bp 区间),会模糊剪接位点、转录因子足迹等精细调控特征
权衡二:多模态 vs 专业化
• 单一模态模型(如 SpliceAI 专注剪接、ChromBPNet 专注染色质可及性、Orca 专注三维基因组架构)在特定任务上表现优异,但无法捕捉变异的多重分子效应
• 多模态模型(如 DeepSEA、Basenji、Enformer、Sei、Borzoi)允许用户用单一模型处理多种模态,但在某些任务上落后于专用模型,或缺少特定模态(如接触图谱)
02 AlphaGenome:统一框架的诞生
AlphaGenome 首次将多模态预测、长序列上下文和碱基对分辨率统一到一个框架中。
模型架构
• 输入:1Mb DNA 序列 + 物种身份(人/小鼠)
• 输出:5,930 个人类或 1,128 个小鼠基因组 tracks,涵盖 11 种输出类型
• 核心架构:U-Net 风格设计,包含编码器(下采样)、Transformer(跨设备通信)和解码器(上采样),接入不同分辨率的任务特定输出头
• 计算策略:序列并行化,将 1Mb DNA 序列切分为 131kb 片段跨设备处理
训练策略
AlphaGenome 采用两阶段训练:
-
预训练:从交叉验证折叠中采样 1Mb DNA 区间,进行数据增强(平移和反向互补),针对实验靶标训练,得到折叠专用和全折叠教师模型
-
蒸馏:学生模型从冻结的全折叠教师模型学习,使用增强和突变扰动输入序列,得到适合变异效应预测的单一模型
输出模态
AlphaGenome 预测的基因组 tracks 涵盖:
• 基因表达:RNA-seq、CAGE-seq、PRO-cap
• 剪接:剪接位点、剪接位点使用率、剪接连接点
• DNA 可及性:DNase-seq、ATAC-seq
• 组蛋白修饰:ChIP-seq(如 H3K27ac、CTCF)
• 染色质构象:Hi-C、Micro-C 接触图谱
03 SOTA 性能:24 项任务中的 22 项最优
研究团队对 AlphaGenome 进行了全面评估,包括基因组 track 预测和变异效应预测两大类任务。
基因组 Track 预测
在 24 个基因组 track 预测任务中,AlphaGenome 在 22 个任务上达到 SOTA。
评估指标为预测 tracks 与真实实验测量值之间的 Pearson 相关系数。结果显示:
• RNA-seq、ATAC-seq、DNase-seq 等 1bp 分辨率 tracks 预测精度显著提升
• H3K27ac、CTCF ChIP-seq 等 128bp 分辨率 tracks 表现优异
• 互作图谱(2048bp 分辨率)预测准确捕捉三维基因组架构
变异效应预测
在26个变异效应预测任务中,AlphaGenome 在 25 个任务上达到 SOTA。
通过比较参考序列和替代序列的基因组 track 预测差异,AlphaGenome 可以预测变异的分子效应。评估涵盖:
• 剪接变异效应(sQTL)
• 表达数量性状位点(eQTL)
• 染色质可及性 QTL(caQTL)
• 转录因子结合 QTL(bQTL)
• 多聚腺苷酸化位点 QTL(paQTL)
04 剪接变异预测:超越 SpliceAI
剪接是影响基因功能的关键机制,约 15-20% 的人类遗传疾病与剪接异常相关。
新剪接连接点预测方法
AlphaGenome 引入了新的剪接连接点预测方法,与剪接位点使用率预测相结合,提供更完整的剪接效应图谱。
与现有模型对比:
临床变异分类
在 ClinVar 致病变异与良性变异的分类任务中,AlphaGenome 表现出色:
• 长内含子变异(距离剪接位点>6bp):准确识别隐蔽剪接位点激活
• 同义变异(距离剪接位点>3bp):检测剪接调控元件破坏
• 剪接位点区域变异(内含子 6bp 或外显子 3bp 内):精确预测剪接位点强度变化
对于被 AlphaMissense 预测为"可能良性"的错义变异,AlphaGenome 可进一步识别其潜在的剪接效应,提供更全面的功能注释。
05 基因表达变异预测:eQTL 效应大小与方向
AlphaGenome 在基因表达变异预测方面展现了强大能力。
eQTL 效应大小预测
在 49 个 GTEx 组织中,AlphaGenome 预测的 eQTL 效应大小与观察值的相关性达到:
• Spearman ρ(有符号)= 0.50
• Pearson r(有符号)= 0.39
这一性能显著优于 Enformer、Borzoi 等现有模型。
eQTL 效应方向预测
预测变异对基因表达的上调/下调方向,对于理解疾病机制至关重要。AlphaGenome 在 eQTL 方向预测上的 auROC 达到0.85+,且在不同变异-to-TSS 距离区间均保持稳定性能。
GWAS 位点解析
AlphaGenome 可用于解析 GWAS 发现的疾病相关位点:
• 对于约80% 的 GWAS 可信集,AlphaGenome 可预测潜在靶基因的效应方向
• 相比之下,传统的 eQTL 共定位方法(如 COLOC)仅能解析约 40-50% 的可信集
这一能力对于从关联信号到致病基因的转化研究具有重要意义。
06 染色质可及性与转录因子结合
AlphaGenome 在染色质可及性和转录因子结合变异预测方面同样表现优异。
caQTL 效应预测
在不同祖先群体(欧洲、非洲、东亚)的 caQTL 数据集上,AlphaGenome 预测的效应大小与观察值的相关性达到:
• 欧洲祖先:Pearson r = 0.72
• 非洲祖先:Pearson r = 0.74
• 东亚祖先:Pearson r = 0.70
转录因子结合 motif 解析
通过整合序列梯度(input gradient)分析,AlphaGenome 可识别变异破坏或调节的转录因子结合 motif。
例如,在 SPI1 转录因子结合位点,AlphaGenome 准确预测了变异对结合亲和力的影响,并通过 ISM(in silico mutagenesis)生成了与 JASPAR 数据库一致的 motif 序列标识。
07 跨模态变异解释:单一变异的多重效应
非编码变异往往同时影响多种分子表型。AlphaGenome 的多模态预测能力使其能够在同一框架下解析变异的跨模态效应。
案例:疾病相关变异的综合解读
研究团队展示了一个位于增强子区域的疾病相关变异:
-
染色质可及性:变异显著降低 ATAC-seq 信号
-
转录因子结合:破坏 CTCF 结合 motif
-
染色质构象:改变 TAD 边界强度
-
基因表达:下调远端靶基因表达
这种跨模态分析揭示了变异从分子表型到疾病表型的完整因果链,为功能验证实验提供了精准假设。
08 模型消融:设计选择的启示
研究团队进行了广泛的消融实验,探讨不同设计选择对性能的影响。
目标分辨率
• 1bp 分辨率对于剪接位点、转录因子足迹等精细特征至关重要
• 对于组蛋白修饰等宽峰特征,128bp 分辨率已足够
序列长度
• 1Mb 输入序列显著优于 100kb 或 500kb
• 长序列对于捕捉远端增强子 - 启动子相互作用必不可少
蒸馏策略
• 从全折叠教师模型蒸馏得到的学生模型,在变异效应预测任务上表现最优
• 突变扰动训练增强了模型对序列变异的敏感性
模态组合
• 多模态联合训练提升了单模态性能,表明模型学习到了共享的序列表示
• 接触图谱的加入改善了基因表达预测,验证了三维基因组架构对转录调控的影响
09 应用前景与局限性
应用前景
AlphaGenome 为基因组学研究提供了强大工具:
-
罕见病诊断:优先排序非编码致病变异
-
复杂疾病机制:解析 GWAS 位点的功能效应
-
药物靶点发现:识别调控关键基因的增强子
-
合成生物学:设计具有特定表达模式的调控序列
-
进化基因组学:比较人与小鼠的调控序列演化
局限性
研究团队也坦诚指出了 AlphaGenome 的局限:
• 细胞类型覆盖:当前模型仅涵盖有限细胞类型,某些组织特异性效应可能无法捕捉
• 环境响应:模型预测基于静态序列,无法模拟环境刺激或发育阶段的动态变化
• 计算资源:1Mb 序列的推理需要显著的计算资源,可能限制大规模应用
• 可解释性:尽管提供了梯度分析工具,模型的"黑箱"特性仍限制了机制性洞察
10 写在最后
AlphaGenome 的发布标志着基因组学正式进入 Alpha 时代。
继 AlphaFold 解决蛋白质结构预测问题后,DeepMind 将注意力转向了更复杂的基因组调控密码解读。AlphaGenome 的成功验证了一个核心假设:大规模、多模态、高分辨率的统一模型能够捕捉基因组调控的复杂规律。
对于从事基因组学、生物信息学和精准医学研究的人员而言,AlphaGenome 提供了一个前所未有的强大工具。它不仅能加速基础研究中的假设生成,也有望在临床场景中发挥重要作用------从罕见病诊断到癌症基因组解读,从药物靶点发现到个体化治疗策略制定。
当然,AlphaGenome 并非终点。随着更多细胞类型数据的纳入、更高效架构的开发、以及与其他组学数据的整合,我们有理由期待下一代模型将带来更深刻的洞察。
基因组学的 Alpha 时刻已经到来,而故事才刚刚开始。