AlphaGenome：DeepMind 新作，基因组学迎来 Alpha 时刻

*摘要** DeepMind 团队在 Nature 发表 AlphaGenome，首次将多模态预测、长序列上下文和碱基对分辨率统一到一个框架中。在 24 个基因组 track 预测任务和 26 个变异效应预测任务中，AlphaGenome 分别在 22 个和 25 个任务上达到 SOTA。这是继 AlphaFold 之后，DeepMind 在生命科学领域的又一里程碑式突破。

01 非编码变异的解读难题

人类基因组中，超过 98% 的遗传变异位于非编码区。这些变异不直接改变蛋白质序列，却可以通过多种分子机制影响基因功能：

• 调控染色质可及性

• 改变表观遗传修饰

• 影响三维染色质构象

• 调节基因表达水平

• 改变 RNA 剪接模式

实验方法难以全面表征这些复杂效应，计算预测成为关键突破口。

过去几年，深度学习驱动的"序列到功能"（sequence-to-function）模型取得了显著进展。这类模型以 DNA 序列为输入，预测基因组 tracks------将每个 DNA 碱基与实验测量值（如测序读段覆盖度、信号强度等）关联起来的数据格式。

然而，现有模型面临两个根本性权衡：

权衡一：长序列 vs 高分辨率

• SpliceAI、BPNet、ProCapNet 等模型提供碱基对分辨率预测，但输入序列长度受限（≤10kb），可能遗漏远端调控元件的影响

• Enformer、Borzoi 等模型可处理更长序列（200-500kb），但输出分辨率降低（32-128bp 区间），会模糊剪接位点、转录因子足迹等精细调控特征

权衡二：多模态 vs 专业化

• 单一模态模型（如 SpliceAI 专注剪接、ChromBPNet 专注染色质可及性、Orca 专注三维基因组架构）在特定任务上表现优异，但无法捕捉变异的多重分子效应

• 多模态模型（如 DeepSEA、Basenji、Enformer、Sei、Borzoi）允许用户用单一模型处理多种模态，但在某些任务上落后于专用模型，或缺少特定模态（如接触图谱）

02 AlphaGenome：统一框架的诞生

AlphaGenome 首次将多模态预测、长序列上下文和碱基对分辨率统一到一个框架中。

模型架构

• 输入：1Mb DNA 序列 + 物种身份（人/小鼠）

• 输出：5,930 个人类或 1,128 个小鼠基因组 tracks，涵盖 11 种输出类型

• 核心架构：U-Net 风格设计，包含编码器（下采样）、Transformer（跨设备通信）和解码器（上采样），接入不同分辨率的任务特定输出头

• 计算策略：序列并行化，将 1Mb DNA 序列切分为 131kb 片段跨设备处理

训练策略

AlphaGenome 采用两阶段训练：

预训练：从交叉验证折叠中采样 1Mb DNA 区间，进行数据增强（平移和反向互补），针对实验靶标训练，得到折叠专用和全折叠教师模型
蒸馏：学生模型从冻结的全折叠教师模型学习，使用增强和突变扰动输入序列，得到适合变异效应预测的单一模型

输出模态

AlphaGenome 预测的基因组 tracks 涵盖：

• 基因表达：RNA-seq、CAGE-seq、PRO-cap

• 剪接：剪接位点、剪接位点使用率、剪接连接点

• DNA 可及性：DNase-seq、ATAC-seq

• 组蛋白修饰：ChIP-seq（如 H3K27ac、CTCF）

• 染色质构象：Hi-C、Micro-C 接触图谱

03 SOTA 性能：24 项任务中的 22 项最优

研究团队对 AlphaGenome 进行了全面评估，包括基因组 track 预测和变异效应预测两大类任务。

基因组 Track 预测

在 24 个基因组 track 预测任务中，AlphaGenome 在 22 个任务上达到 SOTA。

评估指标为预测 tracks 与真实实验测量值之间的 Pearson 相关系数。结果显示：

• RNA-seq、ATAC-seq、DNase-seq 等 1bp 分辨率 tracks 预测精度显著提升

• H3K27ac、CTCF ChIP-seq 等 128bp 分辨率 tracks 表现优异

• 互作图谱（2048bp 分辨率）预测准确捕捉三维基因组架构

变异效应预测

在26个变异效应预测任务中，AlphaGenome 在 25 个任务上达到 SOTA。

通过比较参考序列和替代序列的基因组 track 预测差异，AlphaGenome 可以预测变异的分子效应。评估涵盖：

• 剪接变异效应（sQTL）

• 表达数量性状位点（eQTL）

• 染色质可及性 QTL（caQTL）

• 转录因子结合 QTL（bQTL）

• 多聚腺苷酸化位点 QTL（paQTL）

04 剪接变异预测：超越 SpliceAI

剪接是影响基因功能的关键机制，约 15-20% 的人类遗传疾病与剪接异常相关。

新剪接连接点预测方法

AlphaGenome 引入了新的剪接连接点预测方法，与剪接位点使用率预测相结合，提供更完整的剪接效应图谱。

与现有模型对比：

临床变异分类

在 ClinVar 致病变异与良性变异的分类任务中，AlphaGenome 表现出色：

• 长内含子变异（距离剪接位点>6bp）：准确识别隐蔽剪接位点激活

• 同义变异（距离剪接位点>3bp）：检测剪接调控元件破坏

• 剪接位点区域变异（内含子 6bp 或外显子 3bp 内）：精确预测剪接位点强度变化

对于被 AlphaMissense 预测为"可能良性"的错义变异，AlphaGenome 可进一步识别其潜在的剪接效应，提供更全面的功能注释。

05 基因表达变异预测：eQTL 效应大小与方向

AlphaGenome 在基因表达变异预测方面展现了强大能力。

eQTL 效应大小预测

在 49 个 GTEx 组织中，AlphaGenome 预测的 eQTL 效应大小与观察值的相关性达到：

• Spearman ρ（有符号）= 0.50

• Pearson r（有符号）= 0.39

这一性能显著优于 Enformer、Borzoi 等现有模型。

eQTL 效应方向预测

预测变异对基因表达的上调/下调方向，对于理解疾病机制至关重要。AlphaGenome 在 eQTL 方向预测上的 auROC 达到0.85+，且在不同变异-to-TSS 距离区间均保持稳定性能。

GWAS 位点解析

AlphaGenome 可用于解析 GWAS 发现的疾病相关位点：

• 对于约80% 的 GWAS 可信集，AlphaGenome 可预测潜在靶基因的效应方向

• 相比之下，传统的 eQTL 共定位方法（如 COLOC）仅能解析约 40-50% 的可信集

这一能力对于从关联信号到致病基因的转化研究具有重要意义。

06 染色质可及性与转录因子结合

AlphaGenome 在染色质可及性和转录因子结合变异预测方面同样表现优异。

caQTL 效应预测

在不同祖先群体（欧洲、非洲、东亚）的 caQTL 数据集上，AlphaGenome 预测的效应大小与观察值的相关性达到：

• 欧洲祖先：Pearson r = 0.72

• 非洲祖先：Pearson r = 0.74

• 东亚祖先：Pearson r = 0.70

转录因子结合 motif 解析

通过整合序列梯度（input gradient）分析，AlphaGenome 可识别变异破坏或调节的转录因子结合 motif。

例如，在 SPI1 转录因子结合位点，AlphaGenome 准确预测了变异对结合亲和力的影响，并通过 ISM（in silico mutagenesis）生成了与 JASPAR 数据库一致的 motif 序列标识。

07 跨模态变异解释：单一变异的多重效应

非编码变异往往同时影响多种分子表型。AlphaGenome 的多模态预测能力使其能够在同一框架下解析变异的跨模态效应。

案例：疾病相关变异的综合解读

研究团队展示了一个位于增强子区域的疾病相关变异：

染色质可及性：变异显著降低 ATAC-seq 信号
转录因子结合：破坏 CTCF 结合 motif
染色质构象：改变 TAD 边界强度
基因表达：下调远端靶基因表达

这种跨模态分析揭示了变异从分子表型到疾病表型的完整因果链，为功能验证实验提供了精准假设。

08 模型消融：设计选择的启示

研究团队进行了广泛的消融实验，探讨不同设计选择对性能的影响。

目标分辨率

• 1bp 分辨率对于剪接位点、转录因子足迹等精细特征至关重要

• 对于组蛋白修饰等宽峰特征，128bp 分辨率已足够

序列长度

• 1Mb 输入序列显著优于 100kb 或 500kb

• 长序列对于捕捉远端增强子 - 启动子相互作用必不可少

蒸馏策略

• 从全折叠教师模型蒸馏得到的学生模型，在变异效应预测任务上表现最优

• 突变扰动训练增强了模型对序列变异的敏感性

模态组合

• 多模态联合训练提升了单模态性能，表明模型学习到了共享的序列表示

• 接触图谱的加入改善了基因表达预测，验证了三维基因组架构对转录调控的影响

09 应用前景与局限性

应用前景

AlphaGenome 为基因组学研究提供了强大工具：

罕见病诊断：优先排序非编码致病变异
复杂疾病机制：解析 GWAS 位点的功能效应
药物靶点发现：识别调控关键基因的增强子
合成生物学：设计具有特定表达模式的调控序列
进化基因组学：比较人与小鼠的调控序列演化

局限性

研究团队也坦诚指出了 AlphaGenome 的局限：

• 细胞类型覆盖：当前模型仅涵盖有限细胞类型，某些组织特异性效应可能无法捕捉

• 环境响应：模型预测基于静态序列，无法模拟环境刺激或发育阶段的动态变化

• 计算资源：1Mb 序列的推理需要显著的计算资源，可能限制大规模应用

• 可解释性：尽管提供了梯度分析工具，模型的"黑箱"特性仍限制了机制性洞察

10 写在最后

AlphaGenome 的发布标志着基因组学正式进入 Alpha 时代。

继 AlphaFold 解决蛋白质结构预测问题后，DeepMind 将注意力转向了更复杂的基因组调控密码解读。AlphaGenome 的成功验证了一个核心假设：大规模、多模态、高分辨率的统一模型能够捕捉基因组调控的复杂规律。

对于从事基因组学、生物信息学和精准医学研究的人员而言，AlphaGenome 提供了一个前所未有的强大工具。它不仅能加速基础研究中的假设生成，也有望在临床场景中发挥重要作用------从罕见病诊断到癌症基因组解读，从药物靶点发现到个体化治疗策略制定。

当然，AlphaGenome 并非终点。随着更多细胞类型数据的纳入、更高效架构的开发、以及与其他组学数据的整合，我们有理由期待下一代模型将带来更深刻的洞察。

基因组学的 Alpha 时刻已经到来，而故事才刚刚开始。