Conpair: 配对样本一致性concordance与污染contamination分析

Conpair 于2016年被发表在《Bioinformatics》上,用于分析配对样本(如某个病人的肿瘤样本和正常样本)WGS或WES测序的一致性和交叉个体污染。

特点

  • 支持的基因组

因为需要指定markers选项,作者只提供了GRCh37, GRCh38, GRCm38的文件。

  • Python版本

python2与python3均适用,这是作者在0.2版本做出的修改。

  • 消耗时间

整体耗时较短,使用数分钟就可以完成Conpair分析

示例

run_gatk_pileup_for_sample.py

  • 调用GATK的Pileup功能进行分析,不想太麻烦就用GATK3版本。

Tumor

sh 复制代码
~/miniconda3/envs/py27/bin/python ~/biosoft/Conpair/scripts/run_gatk_pileup_for_sample.py \
--bam WES_FD_T_1.bam \
--outfile WES_FD_T_1_pileup \
--conpair_dir ~/biosoft/Conpair/ \
--reference ~/db/ref/ucsc-human-hg38/hg38.fa \
--markers ~/biosoft/Conpair/data/markers/GRCh38.autosomes.phase3_shapeit2_mvncall_integrated.20130502.SNV.genotype.sselect_v4_MAF_0.4_LD_0.8.liftover.bed \
--gatk ~/miniconda3/envs/rna/share/gatk4-4.5.0.0-0/gatk-package-4.5.0.0-local.jar \
--java ~/miniconda3/envs/rna/bin/java \
--xmx_java 20g > WES_FD_T_1_gatk_pileup.log 2>&1

Normal

sh 复制代码
~/miniconda3/envs/py27/bin/python ~/biosoft/Conpair/scripts/run_gatk_pileup_for_sample.py \
--bam WES_FD_N_1.bam \
--outfile WES_FD_N_1_pileup \
--conpair_dir ~/biosoft/Conpair/ \
--reference ~/db/ref/ucsc-human-hg38/hg38.fa \
--markers ~/biosoft/Conpair/data/markers/GRCh38.autosomes.phase3_shapeit2_mvncall_integrated.20130502.SNV.genotype.sselect_v4_MAF_0.4_LD_0.8.liftover.bed \
--gatk ~/miniconda3/envs/rna/bin/gatk \
--java "" \
--xmx_java 20g > WES_FD_N_1_gatk_pileup.log 2>&1

verify_concordance.py

  • 作者建议是添加-H,--normal_homozygous_markers_only 选项移除拷贝数变对变异的影响。添加后一致性会增高concordance
sh 复制代码
~/miniconda3/envs/py27/bin/python ~/biosoft/Conpair/scripts/verify_concordance.py \
-T WES_FD_T_1_pileup \
-N WES_FD_N_1_pileup \
--outfile WES_FD_1_concordance.txt \
--markers ~/biosoft/Conpair/data/markers/GRCh38.autosomes.phase3_shapeit2_mvncall_integrated.20130502.SNV.genotype.sselect_v4_MAF_0.4_LD_0.8.liftover.txt \
--conpair_dir ~/biosoft/Conpair/ \
--min_cov 10 \
--min_mapping_quality 10 \
--min_base_quality 20 > WES_FD_1_verify_concordance.log 2>&1

不加-H选项结果

sh 复制代码
$ cat WES_FD_1_concordance.txt
Concordance: 71.68%
Based on 6092/7353 markers (coverage per marker threshold : 10 reads)
Minimum mappinq quality: 10
Minimum base quality: 20

-H选项结果

sh 复制代码
$ cat WES_FD_1_concordance_H.txt
Concordance: 96.33%
Based on 3431/7353 markers (coverage per marker threshold : 10 reads)
Minimum mappinq quality: 10
Minimum base quality: 20

estimate_tumor_normal_contamination.py

  • 肿瘤样本即使污染水平在0.5%也会对体细胞突变calling产生严重影响,从而导致特异性降低。
sh 复制代码
~/miniconda3/envs/py27/bin/python ~/biosoft/Conpair/scripts/estimate_tumor_normal_contamination.py \
-T WES_FD_T_1_pileup \
-N WES_FD_N_1_pileup \
--outfile WES_FD_1_contamination.txt \
--markers ~/biosoft/Conpair/data/markers/GRCh38.autosomes.phase3_shapeit2_mvncall_integrated.20130502.SNV.genotype.sselect_v4_MAF_0.4_LD_0.8.liftover.txt \
--grid 0.01 \
--min_mapping_quality 10 > WES_FD_1_verify_contamination.log 2>&1

结果

sh 复制代码
$ cat WES_FD_1_contamination.txt
Normal sample contamination level: 0.291%
Tumor sample contamination level: 0.351%
相关推荐
二哈赛车手7 小时前
新人笔记---ApiFox的一些常见使用出错
java·笔记·spring
xian_wwq10 小时前
【学习笔记】AGC协调控制系统概述
笔记·学习
x_yeyue10 小时前
三角形数
笔记·算法·数论·组合数学
憧憬成为java架构高手的小白11 小时前
docker学习笔记(基于b站多个视频学习)【未完结】
笔记·学习
RainCity12 小时前
Java Swing 自定义组件库分享(七)
java·笔记·后端
東隅已逝,桑榆非晚13 小时前
字符函数和字符串函数
c语言·笔记
Upsy-Daisy14 小时前
AI Agent 项目学习笔记(七):RAG 高级扩展——过滤检索、PgVector 与云知识库
人工智能·笔记·学习
智者知已应修善业15 小时前
【51单片机LED闪烁10次数码管显示0-9】2023-12-14
c++·经验分享·笔记·算法·51单片机
智者知已应修善业15 小时前
【51单片机2按键控制1个敞亮LED灯闪烁和熄灭】2023-11-3
c++·经验分享·笔记·算法·51单片机
w20180016 小时前
二年级下册语文看图写话作文:蛋壳的奇妙之旅
笔记