各种常见生信格式文件的随机抽样

样本检验、随机生成数据、模拟用等,都需要从现有测序数据中随机抽样出一小部分数据来,按照自己需求。

0,最经典的方式:

使用awk等,只要了解各种数据格式具体的行列组成(一般是header+record),其实都可以随机抽取一定比例的record,然后重组header,达到随机子抽样目的;

当然要注意read的类型,要考虑PE还是SE信息的兼容与影响

当然,除了自己写脚本,如果数据量大的话还可以使用现有的工具

1,fastq:

seqtk进行抽样

如何对fastq/bam文件进行Down-sample?

https://zhuanlan.zhihu.com/p/477002661

2,sam/bam:

(1)samtools:


如何对fastq/bam文件进行Down-sample?

(2)Sambamba:

参考更快的处理bam数据---Sambamba

不知道是否有设置随机数种子的改进,如果没有设置随机数种子的话,那么不能重复,那设置随机数就没有意义了

(3)picard:

Fastq/Bam的downsample - Sunny-King - 博客园

(4)最好的方法当然是去社区里问了:

biostar上、stack也有专门生信的论坛等,

Downsample BAM file to specific amount of reads

相关推荐
lichuangcsdn39 分钟前
【springcloud学习(dalston.sr1)】Eureka 客户端服务注册(含源代码)(四)
学习·spring cloud·eureka
中国lanwp43 分钟前
使用Maven和Ant上传文件到Linux服务器
linux·服务器·maven
qq_454175791 小时前
gcc/g++常用参数
linux·运维·服务器
lqjun08271 小时前
Pytorch实现常用代码笔记
人工智能·pytorch·笔记
云海听雷2 小时前
C语言中字符串函数的详细讲解
c语言·笔记·学习
sun0077002 小时前
windows 10 做服务器 其他电脑无法访问,怎么回事?
运维·服务器·网络
wb1892 小时前
Linux远程连接服务
linux·运维·服务器·笔记
Clownseven2 小时前
[深度解析] 服务器内存(RAM)演进之路(2025):DDR5 vs HBM vs CXL 内存技术与选型指南
运维·服务器
烧火大爷2 小时前
现代计算机图形学Games101入门笔记(三)
笔记
2401_896008193 小时前
TCP连接状态说明
运维·服务器·网络