AlphaGenome:DeepMind 新作,基因组学迎来 Alpha 时刻

*摘要** DeepMind 团队在 Nature 发表 AlphaGenome,首次将多模态预测、长序列上下文和碱基对分辨率统一到一个框架中。在 24 个基因组 track 预测任务和 26 个变异效应预测任务中,AlphaGenome 分别在 22 个和 25 个任务上达到 SOTA。这是继 AlphaFold 之后,DeepMind 在生命科学领域的又一里程碑式突破。


01 非编码变异的解读难题

人类基因组中,超过 98% 的遗传变异位于非编码区。这些变异不直接改变蛋白质序列,却可以通过多种分子机制影响基因功能:

• 调控染色质可及性

• 改变表观遗传修饰

• 影响三维染色质构象

• 调节基因表达水平

• 改变 RNA 剪接模式

实验方法难以全面表征这些复杂效应,计算预测成为关键突破口

过去几年,深度学习驱动的"序列到功能"(sequence-to-function)模型取得了显著进展。这类模型以 DNA 序列为输入,预测基因组 tracks------将每个 DNA 碱基与实验测量值(如测序读段覆盖度、信号强度等)关联起来的数据格式。

然而,现有模型面临两个根本性权衡

权衡一:长序列 vs 高分辨率

• SpliceAI、BPNet、ProCapNet 等模型提供碱基对分辨率预测,但输入序列长度受限(≤10kb),可能遗漏远端调控元件的影响

• Enformer、Borzoi 等模型可处理更长序列(200-500kb),但输出分辨率降低(32-128bp 区间),会模糊剪接位点、转录因子足迹等精细调控特征

权衡二:多模态 vs 专业化

• 单一模态模型(如 SpliceAI 专注剪接、ChromBPNet 专注染色质可及性、Orca 专注三维基因组架构)在特定任务上表现优异,但无法捕捉变异的多重分子效应

• 多模态模型(如 DeepSEA、Basenji、Enformer、Sei、Borzoi)允许用户用单一模型处理多种模态,但在某些任务上落后于专用模型,或缺少特定模态(如接触图谱)


02 AlphaGenome:统一框架的诞生

AlphaGenome 首次将多模态预测、长序列上下文和碱基对分辨率统一到一个框架中。

模型架构

输入:1Mb DNA 序列 + 物种身份(人/小鼠)

输出:5,930 个人类或 1,128 个小鼠基因组 tracks,涵盖 11 种输出类型

核心架构:U-Net 风格设计,包含编码器(下采样)、Transformer(跨设备通信)和解码器(上采样),接入不同分辨率的任务特定输出头

计算策略:序列并行化,将 1Mb DNA 序列切分为 131kb 片段跨设备处理

训练策略

AlphaGenome 采用两阶段训练

  1. 预训练:从交叉验证折叠中采样 1Mb DNA 区间,进行数据增强(平移和反向互补),针对实验靶标训练,得到折叠专用和全折叠教师模型

  2. 蒸馏:学生模型从冻结的全折叠教师模型学习,使用增强和突变扰动输入序列,得到适合变异效应预测的单一模型

输出模态

AlphaGenome 预测的基因组 tracks 涵盖:

基因表达:RNA-seq、CAGE-seq、PRO-cap

剪接:剪接位点、剪接位点使用率、剪接连接点

DNA 可及性:DNase-seq、ATAC-seq

组蛋白修饰:ChIP-seq(如 H3K27ac、CTCF)

染色质构象:Hi-C、Micro-C 接触图谱


03 SOTA 性能:24 项任务中的 22 项最优

研究团队对 AlphaGenome 进行了全面评估,包括基因组 track 预测和变异效应预测两大类任务。

基因组 Track 预测

在 24 个基因组 track 预测任务中,AlphaGenome 在 22 个任务上达到 SOTA

评估指标为预测 tracks 与真实实验测量值之间的 Pearson 相关系数。结果显示:

• RNA-seq、ATAC-seq、DNase-seq 等 1bp 分辨率 tracks 预测精度显著提升

• H3K27ac、CTCF ChIP-seq 等 128bp 分辨率 tracks 表现优异

• 互作图谱(2048bp 分辨率)预测准确捕捉三维基因组架构

变异效应预测

在26个变异效应预测任务中,AlphaGenome 在 25 个任务上达到 SOTA

通过比较参考序列和替代序列的基因组 track 预测差异,AlphaGenome 可以预测变异的分子效应。评估涵盖:

• 剪接变异效应(sQTL)

• 表达数量性状位点(eQTL)

• 染色质可及性 QTL(caQTL)

• 转录因子结合 QTL(bQTL)

• 多聚腺苷酸化位点 QTL(paQTL)


04 剪接变异预测:超越 SpliceAI

剪接是影响基因功能的关键机制,约 15-20% 的人类遗传疾病与剪接异常相关。

新剪接连接点预测方法

AlphaGenome 引入了新的剪接连接点预测方法,与剪接位点使用率预测相结合,提供更完整的剪接效应图谱。

与现有模型对比:

临床变异分类

在 ClinVar 致病变异与良性变异的分类任务中,AlphaGenome 表现出色:

• 长内含子变异(距离剪接位点>6bp):准确识别隐蔽剪接位点激活

同义变异(距离剪接位点>3bp):检测剪接调控元件破坏

剪接位点区域变异(内含子 6bp 或外显子 3bp 内):精确预测剪接位点强度变化

对于被 AlphaMissense 预测为"可能良性"的错义变异,AlphaGenome 可进一步识别其潜在的剪接效应,提供更全面的功能注释。


05 基因表达变异预测:eQTL 效应大小与方向

AlphaGenome 在基因表达变异预测方面展现了强大能力。

eQTL 效应大小预测

在 49 个 GTEx 组织中,AlphaGenome 预测的 eQTL 效应大小与观察值的相关性达到:

Spearman ρ(有符号)= 0.50

Pearson r(有符号)= 0.39

这一性能显著优于 Enformer、Borzoi 等现有模型。

eQTL 效应方向预测

预测变异对基因表达的上调/下调方向,对于理解疾病机制至关重要。AlphaGenome 在 eQTL 方向预测上的 auROC 达到0.85+,且在不同变异-to-TSS 距离区间均保持稳定性能。

GWAS 位点解析

AlphaGenome 可用于解析 GWAS 发现的疾病相关位点:

• 对于约80% 的 GWAS 可信集,AlphaGenome 可预测潜在靶基因的效应方向

• 相比之下,传统的 eQTL 共定位方法(如 COLOC)仅能解析约 40-50% 的可信集

这一能力对于从关联信号到致病基因的转化研究具有重要意义。


06 染色质可及性与转录因子结合

AlphaGenome 在染色质可及性和转录因子结合变异预测方面同样表现优异。

caQTL 效应预测

在不同祖先群体(欧洲、非洲、东亚)的 caQTL 数据集上,AlphaGenome 预测的效应大小与观察值的相关性达到:

欧洲祖先:Pearson r = 0.72

非洲祖先:Pearson r = 0.74

东亚祖先:Pearson r = 0.70

转录因子结合 motif 解析

通过整合序列梯度(input gradient)分析,AlphaGenome 可识别变异破坏或调节的转录因子结合 motif。

例如,在 SPI1 转录因子结合位点,AlphaGenome 准确预测了变异对结合亲和力的影响,并通过 ISM(in silico mutagenesis)生成了与 JASPAR 数据库一致的 motif 序列标识。


07 跨模态变异解释:单一变异的多重效应

非编码变异往往同时影响多种分子表型。AlphaGenome 的多模态预测能力使其能够在同一框架下解析变异的跨模态效应

案例:疾病相关变异的综合解读

研究团队展示了一个位于增强子区域的疾病相关变异:

  1. 染色质可及性:变异显著降低 ATAC-seq 信号

  2. 转录因子结合:破坏 CTCF 结合 motif

  3. 染色质构象:改变 TAD 边界强度

  4. 基因表达:下调远端靶基因表达

这种跨模态分析揭示了变异从分子表型到疾病表型的完整因果链,为功能验证实验提供了精准假设。


08 模型消融:设计选择的启示

研究团队进行了广泛的消融实验,探讨不同设计选择对性能的影响。

目标分辨率

• 1bp 分辨率对于剪接位点、转录因子足迹等精细特征至关重要

• 对于组蛋白修饰等宽峰特征,128bp 分辨率已足够

序列长度

• 1Mb 输入序列显著优于 100kb 或 500kb

• 长序列对于捕捉远端增强子 - 启动子相互作用必不可少

蒸馏策略

• 从全折叠教师模型蒸馏得到的学生模型,在变异效应预测任务上表现最优

• 突变扰动训练增强了模型对序列变异的敏感性

模态组合

• 多模态联合训练提升了单模态性能,表明模型学习到了共享的序列表示

• 接触图谱的加入改善了基因表达预测,验证了三维基因组架构对转录调控的影响


09 应用前景与局限性

应用前景

AlphaGenome 为基因组学研究提供了强大工具:

  1. 罕见病诊断:优先排序非编码致病变异

  2. 复杂疾病机制:解析 GWAS 位点的功能效应

  3. 药物靶点发现:识别调控关键基因的增强子

  4. 合成生物学:设计具有特定表达模式的调控序列

  5. 进化基因组学:比较人与小鼠的调控序列演化

局限性

研究团队也坦诚指出了 AlphaGenome 的局限:

细胞类型覆盖:当前模型仅涵盖有限细胞类型,某些组织特异性效应可能无法捕捉

环境响应:模型预测基于静态序列,无法模拟环境刺激或发育阶段的动态变化

计算资源:1Mb 序列的推理需要显著的计算资源,可能限制大规模应用

可解释性:尽管提供了梯度分析工具,模型的"黑箱"特性仍限制了机制性洞察


10 写在最后

AlphaGenome 的发布标志着基因组学正式进入 Alpha 时代

继 AlphaFold 解决蛋白质结构预测问题后,DeepMind 将注意力转向了更复杂的基因组调控密码解读。AlphaGenome 的成功验证了一个核心假设:大规模、多模态、高分辨率的统一模型能够捕捉基因组调控的复杂规律

对于从事基因组学、生物信息学和精准医学研究的人员而言,AlphaGenome 提供了一个前所未有的强大工具。它不仅能加速基础研究中的假设生成,也有望在临床场景中发挥重要作用------从罕见病诊断到癌症基因组解读,从药物靶点发现到个体化治疗策略制定。

当然,AlphaGenome 并非终点。随着更多细胞类型数据的纳入、更高效架构的开发、以及与其他组学数据的整合,我们有理由期待下一代模型将带来更深刻的洞察。

基因组学的 Alpha 时刻已经到来,而故事才刚刚开始。

相关推荐
十五年专注C++开发2 小时前
windows和linux使用system启动进程是一样的吗?
linux·c++·windows·system
此刻觐神2 小时前
IMX6ULL开发板学习-04(Linux磁盘管理相关命令)
linux·运维·学习
STRUGGLE_xlf2 小时前
产品经理的 Claude Code 免费教程——模块 3:Nano Banana(AI 图像生成)
人工智能·产品经理
却道天凉_好个秋2 小时前
pytorch(一):张量
人工智能·pytorch·python·深度学习
whatever who cares2 小时前
android中,全局管理数据/固定数据要不要放一起?
android·java·开发语言
搞科研的小刘选手2 小时前
【高届数人文社科会议】第十二届人文学科和社会科学研究国际学术会议(ICHSSR 2026)
大数据·人工智能·电子信息·电子工程·学术会议·信息工程·电路工程
0xDevNull2 小时前
现代AI系统架构全景解析
人工智能·系统架构
神の愛2 小时前
Mybatis各个属性
数据库·oracle·mybatis
华清远见IT开放实验室2 小时前
AI 算法核心知识清单(深度实战版1)
人工智能·python·深度学习·学习·算法·机器学习·ai