各种常见生信格式文件的随机抽样

样本检验、随机生成数据、模拟用等,都需要从现有测序数据中随机抽样出一小部分数据来,按照自己需求。

0,最经典的方式:

使用awk等,只要了解各种数据格式具体的行列组成(一般是header+record),其实都可以随机抽取一定比例的record,然后重组header,达到随机子抽样目的;

当然要注意read的类型,要考虑PE还是SE信息的兼容与影响

当然,除了自己写脚本,如果数据量大的话还可以使用现有的工具

1,fastq:

seqtk进行抽样

如何对fastq/bam文件进行Down-sample?

https://zhuanlan.zhihu.com/p/477002661

2,sam/bam:

(1)samtools:


如何对fastq/bam文件进行Down-sample?

(2)Sambamba:

参考更快的处理bam数据---Sambamba

不知道是否有设置随机数种子的改进,如果没有设置随机数种子的话,那么不能重复,那设置随机数就没有意义了

(3)picard:

Fastq/Bam的downsample - Sunny-King - 博客园

(4)最好的方法当然是去社区里问了:

biostar上、stack也有专门生信的论坛等,

Downsample BAM file to specific amount of reads

相关推荐
初学者7.11 分钟前
Webpack学习笔记(1)
笔记·学习·webpack
文人sec20 分钟前
Python7-数据结构
数据结构·学习·web安全
marshalVS23 分钟前
前端学习-获取DOM对象(二十一)
前端·javascript·学习
南宫生36 分钟前
力扣-图论-16【算法学习day.66】
java·学习·算法·leetcode·图论
Cachel wood37 分钟前
Vue.js前端框架教程7:Vue计算属性和moment.js
linux·服务器·前端·javascript·vue.js·前端框架·ecmascript
牛哄哄的柯南1 小时前
《图解机器学习》(杉山将著)第一部分绪论学习笔记
笔记·学习·机器学习
真的爱学习嘛?1 小时前
又要考试了
java·服务器·前端
kaixin_learn_qt_ing1 小时前
工作与学习方向
学习
奔跑的犀牛先生1 小时前
概率论得学习和整理32: 用EXCEL描述正态分布,用δ求累计概率,以及已知概率求X的区间
学习·概率论
虾球xz2 小时前
游戏引擎学习第53天
学习·游戏引擎