各种常见生信格式文件的随机抽样

样本检验、随机生成数据、模拟用等,都需要从现有测序数据中随机抽样出一小部分数据来,按照自己需求。

0,最经典的方式:

使用awk等,只要了解各种数据格式具体的行列组成(一般是header+record),其实都可以随机抽取一定比例的record,然后重组header,达到随机子抽样目的;

当然要注意read的类型,要考虑PE还是SE信息的兼容与影响

当然,除了自己写脚本,如果数据量大的话还可以使用现有的工具

1,fastq:

seqtk进行抽样

如何对fastq/bam文件进行Down-sample?

https://zhuanlan.zhihu.com/p/477002661

2,sam/bam:

(1)samtools:


如何对fastq/bam文件进行Down-sample?

(2)Sambamba:

参考更快的处理bam数据---Sambamba

不知道是否有设置随机数种子的改进,如果没有设置随机数种子的话,那么不能重复,那设置随机数就没有意义了

(3)picard:

Fastq/Bam的downsample - Sunny-King - 博客园

(4)最好的方法当然是去社区里问了:

biostar上、stack也有专门生信的论坛等,

Downsample BAM file to specific amount of reads

相关推荐
ssswywywht1 天前
搭建本地时间同步服务器
linux·运维·服务器
你想考研啊1 天前
自动化部署脚本
linux·服务器·自动化
21号 11 天前
16.MySQL 服务器配置与管理
服务器·数据库·mysql
洛白白1 天前
Word文档中打勾和打叉的三种方法
经验分享·学习·word·生活·学习方法
IT技术分享社区1 天前
IT运维干货:lnav开源日志分析工具详解与CentOS实战部署
linux·运维·服务器·开源·centos
jc06201 天前
4.5-中间件之Nginx
运维·服务器·nginx
大海无量_949681 天前
使用imapsync增量同步邮件到新邮局服务器
运维·服务器
2301_810730101 天前
Chrony服务器实验练习
运维·服务器
ssm11221 天前
ubuntu服务器无法识别所有显卡
运维·服务器·ubuntu
云道轩1 天前
解决 “默认的putty 很快就断开了,无法连接服务器”
运维·服务器