各种常见生信格式文件的随机抽样

样本检验、随机生成数据、模拟用等,都需要从现有测序数据中随机抽样出一小部分数据来,按照自己需求。

0,最经典的方式:

使用awk等,只要了解各种数据格式具体的行列组成(一般是header+record),其实都可以随机抽取一定比例的record,然后重组header,达到随机子抽样目的;

当然要注意read的类型,要考虑PE还是SE信息的兼容与影响

当然,除了自己写脚本,如果数据量大的话还可以使用现有的工具

1,fastq:

seqtk进行抽样

如何对fastq/bam文件进行Down-sample?

https://zhuanlan.zhihu.com/p/477002661

2,sam/bam:

(1)samtools:


如何对fastq/bam文件进行Down-sample?

(2)Sambamba:

参考更快的处理bam数据---Sambamba

不知道是否有设置随机数种子的改进,如果没有设置随机数种子的话,那么不能重复,那设置随机数就没有意义了

(3)picard:

Fastq/Bam的downsample - Sunny-King - 博客园

(4)最好的方法当然是去社区里问了:

biostar上、stack也有专门生信的论坛等,

Downsample BAM file to specific amount of reads

相关推荐
徐同保16 小时前
nginx转发,指向一个可以正常访问的网站
linux·服务器·nginx
wxr061616 小时前
GOF笔记
笔记·适配器·ooad
charlie11451419117 小时前
嵌入式的现代C++教程——constexpr与设计技巧
开发语言·c++·笔记·单片机·学习·算法·嵌入式
好奇龙猫17 小时前
【AI学习-comfyUI学习-三十二节-FLXU原生态反推+controlnet depth(UNion)工作流-各个部分学习】
人工智能·学习
童话名剑17 小时前
锚框 与 完整YOLO示例(吴恩达深度学习笔记)
笔记·深度学习·yolo··anchor box
我是苏苏18 小时前
Web开发:C#通过ProcessStartInfo动态调用执行Python脚本
java·服务器·前端
好奇龙猫18 小时前
【大学院-筆記試験練習:数据库(データベース問題訓練) と 软件工程(ソフトウェア)(7)】
学习
P-ShineBeam19 小时前
引导式问答-对话式商品搜索-TRACER
人工智能·语言模型·自然语言处理·知识图谱
j_jiajia19 小时前
(一)人工智能算法之监督学习——KNN
人工智能·学习·算法
相偎19 小时前
Ubuntu搭建svn服务器
服务器·ubuntu·svn