TWAS / FUSION

FUSION 是一套用于执行转录组范围和调控组范围关联研究(TWAS 和 RWAS)的工具。它通过构建功能/分子表型的遗传成分的预测模型,并使用 GWAS 汇总统计数据预测和测试该成分与疾病的关联,目标是识别 GWAS 表型与仅在参考数据中测量的功能表型之间的关联。

1.主要功能与特点

  • TWAS 方法:基于基因表达的预测模型,识别基因表达与疾病之间的关联。
  • RWAS 方法:基于染色质可及性等调控组学数据,识别调控变异与疾病之间的关联。
  • 预计算模型:提供来自多个研究的预计算预测模型,方便用户进行分析。
  • 支持多种数据类型:包括单组织基因表达、多组织基因表达(如 GTEx v8)、跨组织表达(如 sCCA 方法)、肿瘤/正常组织表达(如 TCGA 数据)等。
  • 灵活的分析流程:用户可以使用预计算的模型,也可以自行计算预测模型。

2.安装与依赖

  • 软件包下载 :从 GitHub 下载 FUSION 软件包。
  • LD 参考数据 :下载 1000 Genomes LD 参考数据
  • 依赖库
    • R 包:optparseRColorBrewerplink2R
    • 如果计算自己的权重,还需要 glmnetmethods,以及 GCTA 和 PLINK2。
    • 如果使用 BSLMM,需要安装 GEMMA

3.典型分析流程

  1. 准备 GWAS 汇总统计数据:需符合 LD-score 格式,包含 SNP、A1、A2 和 Z 分数等字段。
  2. 准备表达权重文件:从预计算的权重文件中选择,或自行计算权重。
  3. 运行 FUSION 分析 :使用 FUSION.assoc_test.R 脚本,指定 GWAS 数据、权重文件、参考 LD 数据等参数。
  4. 结果输出 :生成包含基因-疾病关联统计量(如 TWAS Z 分数和 P 值)的输出文件。
    典型分析流程是使用 FUSION 工具进行转录组范围关联研究(TWAS)的标准步骤。以下是一个详细的典型分析流程,以使用 PGC(精神病基因组学联盟)精神分裂症(SCZ)GWAS 汇总统计数据和 GTEx 全血数据为例:
3.1 安装 FUSION 软件
  • GitHub 下载 FUSION 软件包:

    bash 复制代码
    wget https://github.com/gusevlab/fusion_twas/archive/master.zip
    unzip master.zip
    cd fusion_twas-master
  • 下载并解压 1000 Genomes LD 参考数据:
    其主要目的是:
    提供 SNP 之间的连锁不平衡信息,用于基因表达预测和 GWAS 数据的匹配。
    支持 IMPG 算法填补缺失的 GWAS 统计信息。
    提高分析的统计效能,确保 TWAS 分析的准确性和可靠性。

    bash 复制代码
    wget https://data.broadinstitute.org/alkesgroup/FUSION/LDREF.tar.bz2
    tar xjvf LDREF.tar.bz2
  • 下载并安装 plink2R 库:
    目的:能够在 R 中有效地读取和处理 PLINK 文件,进而进行后续的遗传分析。

    bash 复制代码
    wget https://github.com/gabraham/plink2R/archive/master.zip
    unzip master.zip
  • 在 R 中安装必要的库:

    R 复制代码
    install.packages(c('optparse', 'RColorBrewer'))
    install.packages('plink2R-master/plink2R/', repos = NULL)
3.2 准备 GWAS 汇总统计数据
  • 下载 PGC 精神分裂症 GWAS 汇总统计数据:

    bash 复制代码
    wget https://data.broadinstitute.org/alkesgroup/FUSION/SUM/PGC2.SCZ.sumstats
3.3 准备表达权重文件
  • 创建权重目录并下载 GTEx 全血表达权重:

    bash 复制代码
    mkdir WEIGHTS
    cd WEIGHTS
    wget https://data.broadinstitute.org/alkesgroup/FUSION/WGT/GTEx.Whole_Blood.tar.bz2
    tar xjf GTEx.Whole_Blood.tar.bz2

3.4. 运行 FUSION 分析

3.4.1 检查输入文件
  • 确保 GWAS 汇总统计数据符合 LD-score 格式
    • 包含 SNP(SNP 标识符)、A1(效应等位基因)、A2(其他等位基因)、Z(Z 分数)等字段。
  • 确保权重文件路径正确,权重文件格式为 *.RDat
3.4.2 运行 FUSION 分析脚本
  • 在 FUSION 目录下运行以下命令,对第 22 号染色体进行分析:

    bash 复制代码
    Rscript FUSION.assoc_test.R \
    --sumstats PGC2.SCZ.sumstats \
    --weights ./WEIGHTS/GTEx.Whole_Blood.pos \
    --weights_dir ./WEIGHTS/ \
    --ref_ld_chr ./LDREF/1000G.EUR. \
    --chr 22 \
    --out PGC2.SCZ.22.dat

    参数说明:

    • --sumstats:GWAS 汇总统计数据文件路径。
    • --weights:权重文件列表文件路径。
    • --weights_dir:权重文件所在目录。
    • --ref_ld_chr:按染色体分的 LD 参考数据文件前缀。
    • --chr:分析的染色体编号。
    • --out:输出文件路径。

3.5 分析结果解释

3.5.1 输出文件
  • 输出文件 PGC2.SCZ.22.dat 包含以下内容:
    • FILE:权重文件路径。
    • ID:基因标识符。
    • CHR:染色体编号。
    • P0P1:基因的起始和结束位置。
    • HSQ:基因的遗传力。
    • BEST.GWAS.IDBEST.GWAS.Z:该基因所在区域中 GWAS 最显著的 SNP 及其 Z 分数。
    • EQTL.IDEQTL.Z:该基因所在区域中最佳 eQTL 的 SNP 及其 Z 分数。
    • TWAS.ZTWAS.P:TWAS Z 分数和 P 值,是主要的统计量。
3.5.2 结果解释
  • TWAS Z 分数:表示基因表达与疾病之间的关联强度。如果 Z 分数显著(例如 P 值小于阈值),则表明基因表达与疾病之间存在显著关联。
  • TWAS P 值:表示关联的显著性水平。例如,P 值小于 5e-8 表示基因表达与疾病之间的关联在全基因组水平上显著。
  • 遗传力(HSQ):表示基因表达的遗传力,即基因表达的遗传变异对表型变异的贡献比例。

3.6 后处理分析

3.6.1 提取显著关联
  • 提取第 22 号染色体上转录组范围显著的关联:

    bash 复制代码
    cat PGC2.SCZ.22.dat | awk 'NR == 1 || $NF < 0.05/2058' > PGC2.SCZ.22.top
3.6.2 进行联合/条件检验
  • 使用 FUSION.post_process.R 脚本进行联合和条件检验:

    bash 复制代码
    Rscript FUSION.post_process.R \
    --sumstats PGC2.SCZ.sumstats \
    --input PGC2.SCZ.22.top \
    --out PGC2.SCZ.22.top.analysis \
    --ref_ld_chr ./LDREF/1000G.EUR. \
    --chr 22 \
    --plot --locus_win 100000

    参数说明:

    • --input:TWAS 分析结果文件。
    • --out:输出文件路径。
    • --plot:生成可视化图表。
    • --locus_win:定义基因所在区域的窗口大小(以碱基对为单位)。
3.6.3 结果解释
  • 联合检验:识别在同一区域内多个基因表达与疾病的联合关联。
  • 条件检验:识别在控制其他基因表达后,某个基因表达与疾病的独立关联。
  • 可视化图表:包括曼哈顿图、散点图等,展示 GWAS 信号与预测基因表达的关系。

3.7 进一步分析

3.7.1 细映射(Fine-mapping)
  • 使用 FOCUS 方法对多个 TWAS 关联进行细映射,识别因果基因。
3.7.2 估计基因表达介导的遗传力
  • 使用 MESC 工具估计疾病遗传力中由基因表达介导的部分。
3.7.3 条件显著性检验(Permutation Test)
  • 使用 --perm 参数进行置换检验,评估 TWAS 关联是否由随机共定位引起。
3.7.4 多参考面板的联合检验(Omnibus Test)
  • 使用 --omnibus 参数对来自多个参考面板的预测结果进行联合检验。
3.7.5 共定位分析(Colocalization Analysis)
  • 使用 --coloc_P 参数与 COLOC 软件接口进行共定位分析。

4.输出结果解读

  • TWAS Z 分数:表示基因表达与疾病关联的统计量,是主要关注指标。
  • TWAS P 值:表示关联的显著性。
  • 其他指标:包括基因的遗传力(heritability)、最佳 GWAS SNP、最佳 eQTL 等信息。

5.预计算模型下载

  • 单组织基因表达:如 NTR 外周血、YFS 全血等。
  • GTEx v8 多组织表达:提供多种组织的基因表达权重,分为"显著遗传力基因"和"所有基因"两种版本。
  • 跨组织表达(sCCA):基于 GTEx 数据的稀疏典型相关分析(sCCA)生成的跨组织特征权重。
  • TCGA 肿瘤/正常表达:基于 TCGA 数据的肿瘤 RNA-seq 数据生成的种系基因表达模型。
  • 多情境(CONTENT)表达:基于 GTEx 组织和 CLUES 单细胞数据的情境特异性权重。

6.自定义权重计算

  • 输入数据:需要 PLINK 格式的基因型数据(bed/bim/fam 文件)和基因表达数据。
  • 运行脚本 :使用 FUSION.compute_weights.R 脚本,指定输入文件、临时文件路径、输出路径等参数。
  • 支持的模型:包括 BLUP、BSLMM、LASSO、Elastic Net 和 top1 等。

7.后处理分析

  • 联合/条件检验 :使用 FUSION.post_process.R 脚本,对 TWAS 结果进行联合检验和条件分析,识别独立的关联信号。
  • 可视化:生成曼哈顿图、散点图等,展示 GWAS 信号与预测基因表达的关系。
  • 其他分析:如多参考面板的联合检验(omnibus test)、与 COLOC 软件的接口进行共定位分析等。

8.常见问题解答(FAQ)

  • 数据匹配:确保 GWAS 数据、权重文件和参考 LD 数据的 SNP 一致。
  • LD 参考面板:可以使用自己的 LD 参考面板,但需要与权重文件的 SNP 匹配。
  • 结果验证:推荐通过外部研究进行验证,或使用基因风险评分进行聚合分析。
  • 效应方向解释:TWAS 效应方向表示基因表达与疾病表型的遗传协方差关系。
相关推荐
Mabnus2 小时前
每周靶点分享:Angptl3、IgE、ADAM9及文献分享:抗体的多样性和特异性以及结构的新见解
学习
A_aspectJ5 小时前
【Bootstrap V4系列】学习入门教程之 组件-输入组(Input group)
前端·css·学习·bootstrap·html
Xudde.5 小时前
加速pip下载:永久解决网络慢问题
网络·python·学习·pip
YKPG6 小时前
C++学习-入门到精通-【6】指针
开发语言·c++·学习
Timmer丿6 小时前
kafka学习笔记(四、生产者、消费者(客户端)深入研究(三)——事务详解及代码实例)
java·笔记·学习·kafka
虾球xz6 小时前
游戏引擎学习第269天:清理菜单绘制
c++·学习·游戏引擎
vortex56 小时前
新手上路之 NoSQL 数据库学习
数据库·学习·nosql
MeiYu_1237 小时前
【数据结构与算法】图的基本概念与遍历
数据结构·c++·学习
虾球xz8 小时前
游戏引擎学习第270天:生成可行走的点
c++·学习·游戏引擎
吃货界的硬件攻城狮9 小时前
【STM32 学习笔记】USART串口
笔记·stm32·单片机·学习