各种常见生信格式文件的随机抽样

样本检验、随机生成数据、模拟用等,都需要从现有测序数据中随机抽样出一小部分数据来,按照自己需求。

0,最经典的方式:

使用awk等,只要了解各种数据格式具体的行列组成(一般是header+record),其实都可以随机抽取一定比例的record,然后重组header,达到随机子抽样目的;

当然要注意read的类型,要考虑PE还是SE信息的兼容与影响

当然,除了自己写脚本,如果数据量大的话还可以使用现有的工具

1,fastq:

seqtk进行抽样

如何对fastq/bam文件进行Down-sample?

https://zhuanlan.zhihu.com/p/477002661

2,sam/bam:

(1)samtools:


如何对fastq/bam文件进行Down-sample?

(2)Sambamba:

参考更快的处理bam数据---Sambamba

不知道是否有设置随机数种子的改进,如果没有设置随机数种子的话,那么不能重复,那设置随机数就没有意义了

(3)picard:

Fastq/Bam的downsample - Sunny-King - 博客园

(4)最好的方法当然是去社区里问了:

biostar上、stack也有专门生信的论坛等,

Downsample BAM file to specific amount of reads

相关推荐
wheeldown30 分钟前
【Linux&&vs code】Xshell远程配置到VS Code环境配置指南
linux·运维·服务器
He BianGu2 小时前
【笔记】在WPF中 BulletDecorator 的功能、使用方式并对比 HeaderedContentControl 与常见 Panel 布局的区别
笔记·wpf
ideaout技术团队4 小时前
leetcode学习笔记2:多数元素(摩尔投票算法)
学习·算法·leetcode
basketball6165 小时前
13. 初识 NVMe over RDMA
服务器·网络·nvme
十铭忘6 小时前
Bug——PaddleX人脸识别报错:Process finished with exit code -1073741819 (0xC0000005)
学习·bug
@小蜗牛6 小时前
pycharm+raidrive+autodl
服务器·深度学习·pycharm
less is more_09306 小时前
风力发电机输出功率模型综述
笔记·学习·数学建模
丰锋ff7 小时前
2006 年真题配套词汇单词笔记(考研真相)
笔记·学习·考研
李迟7 小时前
2025年9月个人工作生活总结
服务器·数据库·生活
Lin_Aries_04218 小时前
部署 GitLab 服务器
linux·运维·服务器·docker·gitlab·github