clinvar数据集说明

先说 ClinVar 是什么：ClinVar 是 NCBI 的一个变异数据库，核心是把基因变异（variant）和它们的临床意义/疾病关系整理出来，比如某个变异是否致病、和什么疾病相关、证据来自谁提交等。这个下载页就是让你批量拿这些数据。

下载地址位于：

https://www.ncbi.nlm.nih.gov/clinvar/docs/downloads/

这个页面本质上是在告诉你：ClinVar 提供了几种不同"打包方式"的下载文件 ，它们不是不同的数据集，而是同一套 ClinVar 公共数据的不同格式和粒度。页面把下载分成 4 大类：XML、VCF、ClinVar TSV、Other TSV。

数据格式

1. XML files 是什么

XML 是 最全、最原始、信息最丰富 的版本。页面写得很明确：XML 包含 ClinVar 里的全部公开变异 以及每个变异的所有数据类型。它还有两种聚合方式：

VCV（Variant ClinVar） ：一个变异为中心

例如"这个具体变异总体上有哪些提交、有哪些解释、关联哪些 condition"。
RCV（Reference ClinVar / variant-condition pair） ：一个"变异 + 某个疾病"组合为中心

例如"这个变异对于乳腺癌是什么解释，对于另一种病又是什么解释"。

2. VCF 是什么

VCF 是基因组领域最常见的变异格式，适合和你的变异分析流程对接。ClinVar 提供了：

基于 GRCh37 的 VCF
基于 GRCh38 的 VCF

但这个页面特别提醒了两个限制：

只包含有精确基因组位置的变异
只包含**summary-level（摘要级）**数据，而不是 XML 那种全细节数据

也就是说，像一些起止位置不精确 的变异，比如某些外显子缺失、微阵列检测到的 CNV，这些不会出现在 VCF 里。

3. ClinVar TSV files 是什么

TSV 就是制表符分隔的文本表格，最适合直接用 pandas、Excel、R 之类读取。页面说它提供的是summary-level 的多个切片 ，覆盖variants、genes、submitting organizations 等信息，而且对 ClinVar 全部变异都是全面的。

也就是说，TSV 更像是把 ClinVar 数据整理成几张比较容易用的表：

某张表偏变异摘要
某张表偏基因层面
某张表偏提交机构层面

所以：
如果你是做统计、筛选、建表、机器学习前处理，TSV 往往最好用。

它比 XML 好处理得多，比 VCF 又更"表格化"。

VCF38的数据下载

https://ftp.ncbi.nlm.nih.gov/pub/clinvar/vcf_GRCh38/

archive_1.0/

老版本归档目录。
archive_2.0/

新版归档目录。ClinVar 现在每周更新，但通常只把每月第一个周四的版本长期归档。
weekly/

每周更新版本的目录，适合想拿最新数据的人。

主 VCF 文件

clinvar.vcf.gz

这是当前最新的 GRCh38 主 VCF 文件 。
.vcf.gz 表示这是经过 gzip 压缩的 VCF。

如果你只是想下载 ClinVar 的 hg38 变异，一般下这个就行。(NCBI FTP)
clinvar_20260404.vcf.gz

这是带日期的那个版本快照 ，表示这份文件对应 2026-04-04 这一期发布。

一般来说，它和同目录里的 clinvar.vcf.gz 在这一周通常是同一个内容，只是一个是"固定日期名"，一个是"当前最新名"。(NCBI FTP)

md5 校验文件

clinvar.vcf.gz.md5
clinvar_20260404.vcf.gz.md5

这两个是 MD5 校验值 ，用来检查你下载的 .vcf.gz 有没有损坏。

例如下载完后可以跑：

复制代码

md5sum clinvar.vcf.gz
cat clinvar.vcf.gz.md5

看看两者是否一致。

tbi 索引文件

clinvar.vcf.gz.tbi
clinvar_20260404.vcf.gz.tbi

这是给 bgzip 压缩的 VCF 配套的 tabix 索引文件 。

有了它，你就可以按染色体区间快速查，不用把整个 182M 文件全读一遍。比如：

复制代码

tabix clinvar.vcf.gz chr1:1000000-2000000

如果你要用 bcftools view -r、tabix、IGV 等按区域读取，通常都需要这个 .tbi。

error 文件

clinvar.vcf.error.txt
clinvar_20260404.vcf.error.txt

这是生成该 VCF 时的错误/警告日志 。

通常记录的是某些 ClinVar 记录为什么没能写进 VCF，或者转换时遇到的异常。

因为 ClinVar VCF 本来就不是全量 XML，它只收录simple alleles、长度 <10 kb、且端点精确定位到 GRCh37/GRCh38 的变异；像 haplotype、genotype、位置不精确的 CNV、以及大于 10 kb 的变异都不在 VCF 范围里。

所以这个 error 文件你可以理解成："有哪些记录在 VCF 化时没法正常放进去，或者需要说明"。

`papu` 文件是什么

clinvar_papu.vcf.gz
clinvar_papu.vcf.gz.md5
clinvar_papu.vcf.gz.tbi
clinvar_20260404_papu.vcf.gz
clinvar_20260404_papu.vcf.gz.md5
clinvar_20260404_papu.vcf.gz.tbi

这里的 papu 是 NCBI 用的缩写，表示：

Patch
Alternate
PAR
Unplaced

也就是那些不在主染色体标准坐标上的补充序列位置 。NCBI 专门说明，带 papu 的 companion files 是为了支持这些非 primary chromosome locations 的临床变异数据

你可以粗略理解为：

主文件 clinvar.vcf.gz ：

放在标准主染色体坐标上的 ClinVar 变异
补充文件 clinvar_papu.vcf.gz ：

放在补丁序列、替代位点、PAR 区、未定位序列上的变异

而且你截图里 papu 文件只有 69K，远比主 VCF 小，说明这部分只是一个补充小集合。

想要固定版本的话，只需要下载一个clinvar_20260404.vcf.gz即可：https://ftp.ncbi.nlm.nih.gov/pub/clinvar/vcf_GRCh38/clinvar_20260404.vcf.gz