各种常见生信格式文件的随机抽样

样本检验、随机生成数据、模拟用等,都需要从现有测序数据中随机抽样出一小部分数据来,按照自己需求。

0,最经典的方式:

使用awk等,只要了解各种数据格式具体的行列组成(一般是header+record),其实都可以随机抽取一定比例的record,然后重组header,达到随机子抽样目的;

当然要注意read的类型,要考虑PE还是SE信息的兼容与影响

当然,除了自己写脚本,如果数据量大的话还可以使用现有的工具

1,fastq:

seqtk进行抽样

如何对fastq/bam文件进行Down-sample?

https://zhuanlan.zhihu.com/p/477002661

2,sam/bam:

(1)samtools:


如何对fastq/bam文件进行Down-sample?

(2)Sambamba:

参考更快的处理bam数据---Sambamba

不知道是否有设置随机数种子的改进,如果没有设置随机数种子的话,那么不能重复,那设置随机数就没有意义了

(3)picard:

Fastq/Bam的downsample - Sunny-King - 博客园

(4)最好的方法当然是去社区里问了:

biostar上、stack也有专门生信的论坛等,

Downsample BAM file to specific amount of reads

相关推荐
DKPT1 小时前
Java桥接模式实现方式与测试方法
java·笔记·学习·设计模式·桥接模式
巴伦是只猫3 小时前
【机器学习笔记Ⅰ】13 正则化代价函数
人工智能·笔记·机器学习
好好研究3 小时前
学习栈和队列的插入和删除操作
数据结构·学习
新中地GIS开发老师4 小时前
新发布:26考研院校和专业大纲
学习·考研·arcgis·大学生·遥感·gis开发·地理信息科学
SH11HF5 小时前
小菜狗的云计算之旅,学习了解rsync+sersync实现数据实时同步(详细操作步骤)
学习·云计算
Frank学习路上5 小时前
【IOS】XCode创建firstapp并运行(成为IOS开发者)
开发语言·学习·ios·cocoa·xcode
snoopyfly~6 小时前
Ubuntu 24.04 LTS 服务器配置:安装 JDK、Nginx、Redis。
java·服务器·ubuntu
Me4神秘6 小时前
Linux国产与国外进度对垒
linux·服务器·安全
Chef_Chen7 小时前
从0开始学习计算机视觉--Day07--神经网络
神经网络·学习·计算机视觉
X_StarX8 小时前
【Unity笔记02】订阅事件-自动开门
笔记·学习·unity·游戏引擎·游戏开发·大学生