各种常见生信格式文件的随机抽样

纪伊路上盛名在2024-12-06 13:03

样本检验、随机生成数据、模拟用等，都需要从现有测序数据中随机抽样出一小部分数据来，按照自己需求。

0，最经典的方式：

使用awk等，只要了解各种数据格式具体的行列组成（一般是header+record），其实都可以随机抽取一定比例的record，然后重组header，达到随机子抽样目的；

当然要注意read的类型，要考虑PE还是SE信息的兼容与影响

当然，除了自己写脚本，如果数据量大的话还可以使用现有的工具

1，fastq：

seqtk进行抽样

如何对fastq/bam文件进行Down-sample？

https://zhuanlan.zhihu.com/p/477002661

2，sam/bam：

（1）samtools：

如何对fastq/bam文件进行Down-sample？

（2）Sambamba：

参考更快的处理bam数据---Sambamba

不知道是否有设置随机数种子的改进，如果没有设置随机数种子的话，那么不能重复，那设置随机数就没有意义了

（3）picard：

Fastq/Bam的downsample - Sunny-King - 博客园

（4）最好的方法当然是去社区里问了：

biostar上、stack也有专门生信的论坛等，

Downsample BAM file to specific amount of reads

上一篇：php 系统函数记录

下一篇：ASP.NET Core SignalR 双工通信

热门推荐

012026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 02GitHub 镜像站点 03如何新建文件夹？电脑新建文件夹的4种方法 04AI科技热点日报 | 2026年07月01日 05幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南 06AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 07国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）08【AI前线观察】2026年国产开源大模型全面横评：从 DeepSeek V4 到 Kimi K3，谁才是开发者的最优选择？092026 年 AI 大模型 & AI 编程工具实战全总结 102026年AI技术突破与产业落地全景：从GPT-5到多模态智能体的新纪元