各种常见生信格式文件的随机抽样

样本检验、随机生成数据、模拟用等,都需要从现有测序数据中随机抽样出一小部分数据来,按照自己需求。

0,最经典的方式:

使用awk等,只要了解各种数据格式具体的行列组成(一般是header+record),其实都可以随机抽取一定比例的record,然后重组header,达到随机子抽样目的;

当然要注意read的类型,要考虑PE还是SE信息的兼容与影响

当然,除了自己写脚本,如果数据量大的话还可以使用现有的工具

1,fastq:

seqtk进行抽样

如何对fastq/bam文件进行Down-sample?

https://zhuanlan.zhihu.com/p/477002661

2,sam/bam:

(1)samtools:


如何对fastq/bam文件进行Down-sample?

(2)Sambamba:

参考更快的处理bam数据---Sambamba

不知道是否有设置随机数种子的改进,如果没有设置随机数种子的话,那么不能重复,那设置随机数就没有意义了

(3)picard:

Fastq/Bam的downsample - Sunny-King - 博客园

(4)最好的方法当然是去社区里问了:

biostar上、stack也有专门生信的论坛等,

Downsample BAM file to specific amount of reads

相关推荐
安建资小栗子几秒前
2025年汽车加气站操作工备考题库
笔记
齐尹秦37 分钟前
HTML5 Web Workers 学习笔记
笔记·学习
DarkBule_44 分钟前
零基础驯服GitHub Pages
css·学习·html·github·html5·web
老友@1 小时前
Kafka 全面解析
服务器·分布式·后端·kafka
余多多_zZ1 小时前
鸿蒙学习手册(HarmonyOSNext_API16)_应用开发UI设计:Swiper
学习·ui·华为·harmonyos·鸿蒙系统
淬渊阁2 小时前
汇编学习之《扩展指令指针寄存器》
汇编·学习
lalapanda2 小时前
UE5学习记录part12
学习·ue5
不要影响我叠Q2 小时前
《Fundamentals of Electromigration-Aware IntegratedCircuit Design》笔记
笔记
蒹葭苍苍8732 小时前
LoRA、QLoRA微调与Lama Factory
人工智能·笔记
并不会2 小时前
多线程案例-单例模式
java·学习·单例模式·单线程·多线程·重要知识