Conpair: 配对样本一致性concordance与污染contamination分析

Conpair 于2016年被发表在《Bioinformatics》上,用于分析配对样本(如某个病人的肿瘤样本和正常样本)WGS或WES测序的一致性和交叉个体污染。

特点

  • 支持的基因组

因为需要指定markers选项,作者只提供了GRCh37, GRCh38, GRCm38的文件。

  • Python版本

python2与python3均适用,这是作者在0.2版本做出的修改。

  • 消耗时间

整体耗时较短,使用数分钟就可以完成Conpair分析

示例

run_gatk_pileup_for_sample.py

  • 调用GATK的Pileup功能进行分析,不想太麻烦就用GATK3版本。

Tumor

sh 复制代码
~/miniconda3/envs/py27/bin/python ~/biosoft/Conpair/scripts/run_gatk_pileup_for_sample.py \
--bam WES_FD_T_1.bam \
--outfile WES_FD_T_1_pileup \
--conpair_dir ~/biosoft/Conpair/ \
--reference ~/db/ref/ucsc-human-hg38/hg38.fa \
--markers ~/biosoft/Conpair/data/markers/GRCh38.autosomes.phase3_shapeit2_mvncall_integrated.20130502.SNV.genotype.sselect_v4_MAF_0.4_LD_0.8.liftover.bed \
--gatk ~/miniconda3/envs/rna/share/gatk4-4.5.0.0-0/gatk-package-4.5.0.0-local.jar \
--java ~/miniconda3/envs/rna/bin/java \
--xmx_java 20g > WES_FD_T_1_gatk_pileup.log 2>&1

Normal

sh 复制代码
~/miniconda3/envs/py27/bin/python ~/biosoft/Conpair/scripts/run_gatk_pileup_for_sample.py \
--bam WES_FD_N_1.bam \
--outfile WES_FD_N_1_pileup \
--conpair_dir ~/biosoft/Conpair/ \
--reference ~/db/ref/ucsc-human-hg38/hg38.fa \
--markers ~/biosoft/Conpair/data/markers/GRCh38.autosomes.phase3_shapeit2_mvncall_integrated.20130502.SNV.genotype.sselect_v4_MAF_0.4_LD_0.8.liftover.bed \
--gatk ~/miniconda3/envs/rna/bin/gatk \
--java "" \
--xmx_java 20g > WES_FD_N_1_gatk_pileup.log 2>&1

verify_concordance.py

  • 作者建议是添加-H,--normal_homozygous_markers_only 选项移除拷贝数变对变异的影响。添加后一致性会增高concordance
sh 复制代码
~/miniconda3/envs/py27/bin/python ~/biosoft/Conpair/scripts/verify_concordance.py \
-T WES_FD_T_1_pileup \
-N WES_FD_N_1_pileup \
--outfile WES_FD_1_concordance.txt \
--markers ~/biosoft/Conpair/data/markers/GRCh38.autosomes.phase3_shapeit2_mvncall_integrated.20130502.SNV.genotype.sselect_v4_MAF_0.4_LD_0.8.liftover.txt \
--conpair_dir ~/biosoft/Conpair/ \
--min_cov 10 \
--min_mapping_quality 10 \
--min_base_quality 20 > WES_FD_1_verify_concordance.log 2>&1

不加-H选项结果

sh 复制代码
$ cat WES_FD_1_concordance.txt
Concordance: 71.68%
Based on 6092/7353 markers (coverage per marker threshold : 10 reads)
Minimum mappinq quality: 10
Minimum base quality: 20

-H选项结果

sh 复制代码
$ cat WES_FD_1_concordance_H.txt
Concordance: 96.33%
Based on 3431/7353 markers (coverage per marker threshold : 10 reads)
Minimum mappinq quality: 10
Minimum base quality: 20

estimate_tumor_normal_contamination.py

  • 肿瘤样本即使污染水平在0.5%也会对体细胞突变calling产生严重影响,从而导致特异性降低。
sh 复制代码
~/miniconda3/envs/py27/bin/python ~/biosoft/Conpair/scripts/estimate_tumor_normal_contamination.py \
-T WES_FD_T_1_pileup \
-N WES_FD_N_1_pileup \
--outfile WES_FD_1_contamination.txt \
--markers ~/biosoft/Conpair/data/markers/GRCh38.autosomes.phase3_shapeit2_mvncall_integrated.20130502.SNV.genotype.sselect_v4_MAF_0.4_LD_0.8.liftover.txt \
--grid 0.01 \
--min_mapping_quality 10 > WES_FD_1_verify_contamination.log 2>&1

结果

sh 复制代码
$ cat WES_FD_1_contamination.txt
Normal sample contamination level: 0.291%
Tumor sample contamination level: 0.351%
相关推荐
John.Lewis1 小时前
C++初阶(14)list
开发语言·c++·笔记
_李小白1 小时前
【OPENGL ES 3.0 学习笔记】第九天:缓存、顶点和顶点数组
笔记·学习·elasticsearch
哈基鑫4 小时前
YOLOv3 核心笔记
笔记·yolo·目标跟踪
半夏知半秋5 小时前
游戏登录方案中常见的设计模式整理
服务器·开发语言·笔记·学习·游戏·设计模式·lua
Dream_Snowar7 小时前
微型计算机接口与原理笔记
笔记·微型计算机基础
degen_7 小时前
PEIM安装PPI和调用其他PPI的相关函数
c语言·笔记
一只侯子8 小时前
Tuning——CC调试(适用高通)
开发语言·图像处理·笔记·学习·算法
迷途呀8 小时前
Latex中的错误汇总
论文阅读·笔记·学习·其他·编辑器
Larry_Yanan8 小时前
QML学习笔记(四十六)QML与C++交互:Q_PROPERTY宏映射
c++·笔记·qt·学习·ui·交互
JJJJ_iii8 小时前
【机器学习07】 激活函数精讲、Softmax多分类与优化器进阶
人工智能·笔记·python·算法·机器学习·分类·线性回归