NCBI数据集说明

NCBI 就是 National Center for Biotechnology Information,美国 NIH 下面的国家生物技术信息中心 。它的作用可以理解成:一个大型生命科学/生物信息公共平台,提供数据库、网页检索、下载、API 和命令行工具,里面包含基因、基因组、变异、文献、表达数据等很多资源。

你前面看的 ClinVar ,就是 NCBI 旗下的一个数据库。ClinVar 自己说明,数据既可以在网页上看,也可以通过 FTP 下载 ,还可以通过 API 访问。

先区分:NCBI 不是一个单独"数据集",它更像一个"总平台"。里面常见的资源有:

  • ClinVar:临床相关变异解释库。
  • Gene / Genome / Taxonomy:基因、基因组和物种分类信息。
  • GEO:基因表达和功能基因组学数据仓库。
  • NCBI Datasets:一个统一的下载入口和工具,适合下载基因、基因组、序列、注释和元数据。

下载链接位于:

https://www.ncbi.nlm.nih.gov/home/download/

直接按照FTP的方式看一下有哪些数据:

https://ftp.ncbi.nlm.nih.gov/

一、你做基因组/变异任务最常会用到的

pub/

这是最常见的公共发布目录 。很多数据库真正给用户批量下载的文件都放在这里。

比如你前面看的 ClinVar VCF,就是在 pub/clinvar/... 下面。它更像"公开发行区"。

snp/

dbSNP 相关,主要是已知单核苷酸变异、小变异 等。

如果你想找常见变异资源,这类目录很常见。根目录里它是独立入口。

variation/

这是更泛化的变异类资源目录

如果你找的是"变异相关但不一定就是 dbSNP/ClinVar 单一库"的内容,可以看看这里。

genbank/

GenBank 相关的序列数据。通常比 RefSeq 更"原始/更广",是 NCBI 经典序列资源之一。就是 NCBI 的公共核酸序列数据库,收全球提交的 DNA/RNA 序列及其注释;它更像原始大仓库

refseq/

RefSeq 相关,常用于参考序列、转录本、蛋白、注释等。如果你做基因、转录本、蛋白序列任务,这个目录很重要。而 RefSeq 更像整理genbank后的标准参考版

genomes/

基因组装、物种基因组数据 相关。

如果你要下载某个物种的 genome assembly、参考基因组、注释文件,常会进这里。

gene/

NCBI Gene 数据相关。

偏基因层面的整合信息。

1000genomes/

1000 Genomes Project 的数据区。

如果你在找人群遗传变异数据,这个目录就很有代表性。

giab/

GIAB,通常指 Genome in a Bottle 这类高质量 benchmark/reference 样本资源。

做变异检测 benchmark 时很常见。


二、表达、测序原始数据相关

geo/

GEO 数据目录。

GEO 是表达谱、功能基因组学数据仓库,找 RNA-seq、microarray、表观组学实验时经常会用。(NCBI FTP)

sra/

SRA(Sequence Read Archive) ,测序原始 reads 的大仓库。

如果你要原始 FASTQ/BAM/测序运行数据,常常会从这里对应到 SRA 资源。NCBI 官方下载页也专门给了 SRA download 参考。(NCBI FTP)

epigenomics/

表观基因组相关资源。(NCBI FTP)

eqtl/

eQTL 相关资源。

你前面正好问过 eQTL,这个目录名就很直白。(NCBI FTP)


三、项目级元数据

bioproject/

BioProject 数据。

它更像项目层级的"总编号/总入口",把一个研究项目下的样本、测序、组学资源串起来。(NCBI FTP)

biosample/

BioSample 数据。

这是样本层级的元数据,比如样本来自什么组织、什么个体、什么处理条件。(NCBI FTP)

这两个经常一起出现:

  • BioProject:项目级

  • BioSample:样本级


四、文献、检索、结构、化学

pubmed/

PubMed 相关资源。偏文献。(NCBI FTP)

blast/

BLAST 相关数据库或支持文件。

如果你做序列比对,这类目录很常见。(NCBI FTP)

mmdb/

结构相关资源,MMDB 是分子结构数据库方向。(NCBI FTP)

pubchem/

PubChem 化学分子资源。

如果你做化学、小分子、药物信息,这个目录会有用。(NCBI FTP)


五、工具、格式、测试文件

toolbox/

一些下载/处理工具相关内容。(NCBI FTP)

asn1-converters/ncbi-asn1/

和 NCBI 的 ASN.1 数据格式有关。

一般普通用户不太常直接碰,除非你在处理 NCBI 特定格式。(NCBI FTP)

bigwig/

bigWig 相关资源或示例区。(NCBI FTP)

1GB10GB

这是测试下载用的大文件,通常用于测速或验证下载链路,不是生物学数据集。看文件名和大小就能判断出来。(NCBI FTP)

README.ftp

根目录说明文件。

通常会介绍 FTP 使用方式或一些约定。(NCBI FTP)


你现在最实用的理解方式

你不用逐个记全部目录,先记这几个就够了:

  • 找 ClinVar / 公共发布文件pub/

  • 找参考序列/转录本refseq/

  • 找 GenBank 序列genbank/

  • 找 genome assemblygenomes/

  • 找原始测序数据sra/

  • 找表达数据geo/

  • 找项目/样本元数据bioproject/biosample/

  • 找已知变异snp/variation/

  • 找 1000 Genomes1000genomes/ (NCBI FTP)


对你当前方向,最相关的是哪些

你现在做基因组模型、变异、剪接这类任务,通常最值得关注的是:

  • pub/:因为 ClinVar 等常用公开文件常在这里

  • refseq/:拿参考转录本、蛋白、注释

  • genomes/ / genbank/:拿参考基因组和装配

  • snp/ / variation/:拿变异资源

  • sra/ / geo/:拿实验原始数据和表达数据

  • 1000genomes/giab/:拿 benchmark 或人群资源 (NCBI FTP)

相关推荐
nutriu4 个月前
从UE5.6DNA 导出指定LOD层级的ARkit52个表情或者Metahuman263个表情教程 #BlendShapeExporter
ue5·数字人·arkit·blendshape·虚拟角色·meta human·dna