Conpair: 配对样本一致性concordance与污染contamination分析

Conpair 于2016年被发表在《Bioinformatics》上,用于分析配对样本(如某个病人的肿瘤样本和正常样本)WGS或WES测序的一致性和交叉个体污染。

特点

  • 支持的基因组

因为需要指定markers选项,作者只提供了GRCh37, GRCh38, GRCm38的文件。

  • Python版本

python2与python3均适用,这是作者在0.2版本做出的修改。

  • 消耗时间

整体耗时较短,使用数分钟就可以完成Conpair分析

示例

run_gatk_pileup_for_sample.py

  • 调用GATK的Pileup功能进行分析,不想太麻烦就用GATK3版本。

Tumor

sh 复制代码
~/miniconda3/envs/py27/bin/python ~/biosoft/Conpair/scripts/run_gatk_pileup_for_sample.py \
--bam WES_FD_T_1.bam \
--outfile WES_FD_T_1_pileup \
--conpair_dir ~/biosoft/Conpair/ \
--reference ~/db/ref/ucsc-human-hg38/hg38.fa \
--markers ~/biosoft/Conpair/data/markers/GRCh38.autosomes.phase3_shapeit2_mvncall_integrated.20130502.SNV.genotype.sselect_v4_MAF_0.4_LD_0.8.liftover.bed \
--gatk ~/miniconda3/envs/rna/share/gatk4-4.5.0.0-0/gatk-package-4.5.0.0-local.jar \
--java ~/miniconda3/envs/rna/bin/java \
--xmx_java 20g > WES_FD_T_1_gatk_pileup.log 2>&1

Normal

sh 复制代码
~/miniconda3/envs/py27/bin/python ~/biosoft/Conpair/scripts/run_gatk_pileup_for_sample.py \
--bam WES_FD_N_1.bam \
--outfile WES_FD_N_1_pileup \
--conpair_dir ~/biosoft/Conpair/ \
--reference ~/db/ref/ucsc-human-hg38/hg38.fa \
--markers ~/biosoft/Conpair/data/markers/GRCh38.autosomes.phase3_shapeit2_mvncall_integrated.20130502.SNV.genotype.sselect_v4_MAF_0.4_LD_0.8.liftover.bed \
--gatk ~/miniconda3/envs/rna/bin/gatk \
--java "" \
--xmx_java 20g > WES_FD_N_1_gatk_pileup.log 2>&1

verify_concordance.py

  • 作者建议是添加-H,--normal_homozygous_markers_only 选项移除拷贝数变对变异的影响。添加后一致性会增高concordance
sh 复制代码
~/miniconda3/envs/py27/bin/python ~/biosoft/Conpair/scripts/verify_concordance.py \
-T WES_FD_T_1_pileup \
-N WES_FD_N_1_pileup \
--outfile WES_FD_1_concordance.txt \
--markers ~/biosoft/Conpair/data/markers/GRCh38.autosomes.phase3_shapeit2_mvncall_integrated.20130502.SNV.genotype.sselect_v4_MAF_0.4_LD_0.8.liftover.txt \
--conpair_dir ~/biosoft/Conpair/ \
--min_cov 10 \
--min_mapping_quality 10 \
--min_base_quality 20 > WES_FD_1_verify_concordance.log 2>&1

不加-H选项结果

sh 复制代码
$ cat WES_FD_1_concordance.txt
Concordance: 71.68%
Based on 6092/7353 markers (coverage per marker threshold : 10 reads)
Minimum mappinq quality: 10
Minimum base quality: 20

-H选项结果

sh 复制代码
$ cat WES_FD_1_concordance_H.txt
Concordance: 96.33%
Based on 3431/7353 markers (coverage per marker threshold : 10 reads)
Minimum mappinq quality: 10
Minimum base quality: 20

estimate_tumor_normal_contamination.py

  • 肿瘤样本即使污染水平在0.5%也会对体细胞突变calling产生严重影响,从而导致特异性降低。
sh 复制代码
~/miniconda3/envs/py27/bin/python ~/biosoft/Conpair/scripts/estimate_tumor_normal_contamination.py \
-T WES_FD_T_1_pileup \
-N WES_FD_N_1_pileup \
--outfile WES_FD_1_contamination.txt \
--markers ~/biosoft/Conpair/data/markers/GRCh38.autosomes.phase3_shapeit2_mvncall_integrated.20130502.SNV.genotype.sselect_v4_MAF_0.4_LD_0.8.liftover.txt \
--grid 0.01 \
--min_mapping_quality 10 > WES_FD_1_verify_contamination.log 2>&1

结果

sh 复制代码
$ cat WES_FD_1_contamination.txt
Normal sample contamination level: 0.291%
Tumor sample contamination level: 0.351%
相关推荐
LinXunFeng3 天前
Obsidian - 使用 Share Note 分享笔记并自部署
前端·笔记·github
闪闪发亮的小星星7 天前
高斯光以及高斯光公式解释
笔记
cqbzcsq7 天前
CellFlow虚拟细胞论文阅读
论文阅读·人工智能·笔记·学习·生物信息
阿米亚波7 天前
【Windows】QEMU 启动 openEuler aarch64/arm64 架构系统 + 离线软件源
linux·windows·经验分享·笔记·架构·arm
自传.7 天前
尚硅谷 Vibe Coding|第三章(1) Claude Code深度使用与进阶技巧 学习笔记
笔记·学习·尚硅谷·vibecoding
.千余7 天前
【C++】模板进阶全解:非类型参数|全特化|偏特化|分离编译完全指南
开发语言·c++·笔记·学习·其他
自传.7 天前
尚硅谷 Vibe Coding|第二章 AI编程工具生态 学习笔记
笔记·学习·ai编程·尚硅谷·vibe coding
秋波。未央7 天前
Java Agent 开发 · Day 1 学习笔记(含作业完整标准答案)
java·笔记·学习
中屹指纹浏览器7 天前
2026指纹浏览器字体指纹、字体渲染偏差检测与全维度虚拟字体池搭建方案
经验分享·笔记