各种常见生信格式文件的随机抽样

样本检验、随机生成数据、模拟用等,都需要从现有测序数据中随机抽样出一小部分数据来,按照自己需求。

0,最经典的方式:

使用awk等,只要了解各种数据格式具体的行列组成(一般是header+record),其实都可以随机抽取一定比例的record,然后重组header,达到随机子抽样目的;

当然要注意read的类型,要考虑PE还是SE信息的兼容与影响

当然,除了自己写脚本,如果数据量大的话还可以使用现有的工具

1,fastq:

seqtk进行抽样

如何对fastq/bam文件进行Down-sample?

https://zhuanlan.zhihu.com/p/477002661

2,sam/bam:

(1)samtools:


如何对fastq/bam文件进行Down-sample?

(2)Sambamba:

参考更快的处理bam数据---Sambamba

不知道是否有设置随机数种子的改进,如果没有设置随机数种子的话,那么不能重复,那设置随机数就没有意义了

(3)picard:

Fastq/Bam的downsample - Sunny-King - 博客园

(4)最好的方法当然是去社区里问了:

biostar上、stack也有专门生信的论坛等,

Downsample BAM file to specific amount of reads

相关推荐
浪裡遊2 小时前
Linux常用指令
linux·运维·服务器·chrome·功能测试
西瓜本瓜@2 小时前
在Android中如何使用Protobuf上传协议
android·java·开发语言·git·学习·android-studio
可爱的秋秋啊2 小时前
vue3,element ui框架中为el-table表格实现自动滚动,并实现表头汇总数据
前端·vue.js·笔记·elementui
SugarPPig2 小时前
PowerShell 查询及刷新环境变量
服务器
细心的莽夫3 小时前
SpringCloud 微服务复习笔记
java·spring boot·笔记·后端·spring·spring cloud·微服务
BOB-wangbaohai4 小时前
Flowable7.x学习笔记(十三)查看部署流程图
笔记·学习·流程图
我的作业错错错5 小时前
搭建私人网站
服务器·阿里云·私人网站
YuCaiH5 小时前
数组理论基础
笔记·leetcode·c·数组
王景程5 小时前
如何测试短信接口
java·服务器·前端
bicijinlian6 小时前
多语言笔记系列:使用导入魔法命令
笔记