NCBI数据集说明

NCBI 就是 National Center for Biotechnology Information，美国 NIH 下面的国家生物技术信息中心 。它的作用可以理解成：一个大型生命科学/生物信息公共平台，提供数据库、网页检索、下载、API 和命令行工具，里面包含基因、基因组、变异、文献、表达数据等很多资源。

你前面看的 ClinVar ，就是 NCBI 旗下的一个数据库。ClinVar 自己说明，数据既可以在网页上看，也可以通过 FTP 下载 ，还可以通过 API 访问。

先区分：NCBI 不是一个单独"数据集"，它更像一个"总平台"。里面常见的资源有：

ClinVar：临床相关变异解释库。
Gene / Genome / Taxonomy：基因、基因组和物种分类信息。
GEO：基因表达和功能基因组学数据仓库。
NCBI Datasets：一个统一的下载入口和工具，适合下载基因、基因组、序列、注释和元数据。

下载链接位于：

https://www.ncbi.nlm.nih.gov/home/download/

直接按照FTP的方式看一下有哪些数据：

https://ftp.ncbi.nlm.nih.gov/

一、你做基因组/变异任务最常会用到的

`pub/`

这是最常见的公共发布目录 。很多数据库真正给用户批量下载的文件都放在这里。

比如你前面看的 ClinVar VCF，就是在 pub/clinvar/... 下面。它更像"公开发行区"。

`snp/`

和 dbSNP 相关，主要是已知单核苷酸变异、小变异 等。

如果你想找常见变异资源，这类目录很常见。根目录里它是独立入口。

`variation/`

这是更泛化的变异类资源目录 。

如果你找的是"变异相关但不一定就是 dbSNP/ClinVar 单一库"的内容，可以看看这里。

`genbank/`

GenBank 相关的序列数据。通常比 RefSeq 更"原始/更广"，是 NCBI 经典序列资源之一。就是 NCBI 的公共核酸序列数据库，收全球提交的 DNA/RNA 序列及其注释；它更像原始大仓库

`refseq/`

RefSeq 相关，常用于参考序列、转录本、蛋白、注释等。如果你做基因、转录本、蛋白序列任务，这个目录很重要。而 RefSeq 更像整理genbank后的标准参考版

`genomes/`

和基因组装、物种基因组数据 相关。

如果你要下载某个物种的 genome assembly、参考基因组、注释文件，常会进这里。

`gene/`

和 NCBI Gene 数据相关。

偏基因层面的整合信息。

`1000genomes/`

1000 Genomes Project 的数据区。

如果你在找人群遗传变异数据，这个目录就很有代表性。

`giab/`

GIAB，通常指 Genome in a Bottle 这类高质量 benchmark/reference 样本资源。

做变异检测 benchmark 时很常见。

二、表达、测序原始数据相关

`geo/`

GEO 数据目录。

GEO 是表达谱、功能基因组学数据仓库，找 RNA-seq、microarray、表观组学实验时经常会用。(NCBI FTP)

`sra/`

SRA（Sequence Read Archive） ，测序原始 reads 的大仓库。

如果你要原始 FASTQ/BAM/测序运行数据，常常会从这里对应到 SRA 资源。NCBI 官方下载页也专门给了 SRA download 参考。(NCBI FTP)

`epigenomics/`

表观基因组相关资源。(NCBI FTP)

`eqtl/`

eQTL 相关资源。

你前面正好问过 eQTL，这个目录名就很直白。(NCBI FTP)

三、项目级元数据

`bioproject/`

BioProject 数据。

它更像项目层级的"总编号/总入口"，把一个研究项目下的样本、测序、组学资源串起来。(NCBI FTP)

`biosample/`

BioSample 数据。

这是样本层级的元数据，比如样本来自什么组织、什么个体、什么处理条件。(NCBI FTP)

这两个经常一起出现：

BioProject：项目级
BioSample：样本级

四、文献、检索、结构、化学

`pubmed/`

PubMed 相关资源。偏文献。(NCBI FTP)

`blast/`

BLAST 相关数据库或支持文件。

如果你做序列比对，这类目录很常见。(NCBI FTP)

`mmdb/`

结构相关资源，MMDB 是分子结构数据库方向。(NCBI FTP)

`pubchem/`

PubChem 化学分子资源。

如果你做化学、小分子、药物信息，这个目录会有用。(NCBI FTP)

五、工具、格式、测试文件

`toolbox/`

一些下载/处理工具相关内容。(NCBI FTP)

`asn1-converters/`、`ncbi-asn1/`

和 NCBI 的 ASN.1 数据格式有关。

一般普通用户不太常直接碰，除非你在处理 NCBI 特定格式。(NCBI FTP)

`bigwig/`

bigWig 相关资源或示例区。(NCBI FTP)

`1GB`、`10GB`

这是测试下载用的大文件，通常用于测速或验证下载链路，不是生物学数据集。看文件名和大小就能判断出来。(NCBI FTP)

`README.ftp`

根目录说明文件。

通常会介绍 FTP 使用方式或一些约定。(NCBI FTP)

你现在最实用的理解方式

你不用逐个记全部目录，先记这几个就够了：

找 ClinVar / 公共发布文件 → pub/
找参考序列/转录本 → refseq/
找 GenBank 序列 → genbank/
找 genome assembly → genomes/
找原始测序数据 → sra/
找表达数据 → geo/
找项目/样本元数据 → bioproject/、biosample/
找已知变异 → snp/、variation/
找 1000 Genomes → 1000genomes/ (NCBI FTP)

对你当前方向，最相关的是哪些

你现在做基因组模型、变异、剪接这类任务，通常最值得关注的是：

pub/：因为 ClinVar 等常用公开文件常在这里
refseq/：拿参考转录本、蛋白、注释
genomes/ / genbank/：拿参考基因组和装配
snp/ / variation/：拿变异资源
sra/ / geo/：拿实验原始数据和表达数据
1000genomes/、giab/：拿 benchmark 或人群资源 (NCBI FTP)

NCBI数据集说明

一、你做基因组/变异任务最常会用到的

pub/

snp/

variation/

genbank/

refseq/

genomes/

gene/

1000genomes/

giab/

二、表达、测序原始数据相关

geo/

sra/

epigenomics/

eqtl/