clinvar数据集说明

先说 ClinVar 是什么:ClinVar 是 NCBI 的一个变异数据库,核心是把基因变异(variant)和它们的临床意义/疾病关系整理出来,比如某个变异是否致病、和什么疾病相关、证据来自谁提交等。这个下载页就是让你批量拿这些数据。

下载地址位于:

https://www.ncbi.nlm.nih.gov/clinvar/docs/downloads/

这个页面本质上是在告诉你:ClinVar 提供了几种不同"打包方式"的下载文件 ,它们不是不同的数据集,而是同一套 ClinVar 公共数据的不同格式和粒度。页面把下载分成 4 大类:XML、VCF、ClinVar TSV、Other TSV。

数据格式

1. XML files 是什么

XML 是 最全、最原始、信息最丰富 的版本。页面写得很明确:XML 包含 ClinVar 里的全部公开变异 以及每个变异的所有数据类型。它还有两种聚合方式:

  • VCV(Variant ClinVar) :一个变异为中心

    例如"这个具体变异总体上有哪些提交、有哪些解释、关联哪些 condition"。

  • RCV(Reference ClinVar / variant-condition pair) :一个"变异 + 某个疾病"组合为中心

    例如"这个变异对于乳腺癌是什么解释,对于另一种病又是什么解释"。

2. VCF 是什么

VCF 是基因组领域最常见的变异格式,适合和你的变异分析流程对接。ClinVar 提供了:

  • 基于 GRCh37 的 VCF

  • 基于 GRCh38 的 VCF

但这个页面特别提醒了两个限制:

  • 只包含有精确基因组位置的变异

  • 只包含**summary-level(摘要级)**数据,而不是 XML 那种全细节数据

也就是说,像一些起止位置不精确 的变异,比如某些外显子缺失、微阵列检测到的 CNV,这些不会出现在 VCF 里。

3. ClinVar TSV files 是什么

TSV 就是制表符分隔的文本表格,最适合直接用 pandas、Excel、R 之类读取。页面说它提供的是summary-level 的多个切片 ,覆盖variants、genes、submitting organizations 等信息,而且对 ClinVar 全部变异都是全面的。

也就是说,TSV 更像是把 ClinVar 数据整理成几张比较容易用的表:

  • 某张表偏变异摘要

  • 某张表偏基因层面

  • 某张表偏提交机构层面

所以:
如果你是做统计、筛选、建表、机器学习前处理,TSV 往往最好用。

它比 XML 好处理得多,比 VCF 又更"表格化"。

VCF38的数据下载

https://ftp.ncbi.nlm.nih.gov/pub/clinvar/vcf_GRCh38/

  • archive_1.0/

    老版本归档目录。

  • archive_2.0/

    新版归档目录。ClinVar 现在每周更新,但通常只把每月第一个周四的版本长期归档。

  • weekly/

    每周更新版本的目录,适合想拿最新数据的人。


主 VCF 文件

  • clinvar.vcf.gz

    这是当前最新的 GRCh38 主 VCF 文件
    .vcf.gz 表示这是经过 gzip 压缩的 VCF。

    如果你只是想下载 ClinVar 的 hg38 变异,一般下这个就行。(NCBI FTP)

  • clinvar_20260404.vcf.gz

    这是带日期的那个版本快照 ,表示这份文件对应 2026-04-04 这一期发布。

    一般来说,它和同目录里的 clinvar.vcf.gz 在这一周通常是同一个内容,只是一个是"固定日期名",一个是"当前最新名"。(NCBI FTP)


md5 校验文件

  • clinvar.vcf.gz.md5

  • clinvar_20260404.vcf.gz.md5

这两个是 MD5 校验值 ,用来检查你下载的 .vcf.gz 有没有损坏。

例如下载完后可以跑:

复制代码
md5sum clinvar.vcf.gz
cat clinvar.vcf.gz.md5

看看两者是否一致。


tbi 索引文件

  • clinvar.vcf.gz.tbi

  • clinvar_20260404.vcf.gz.tbi

这是给 bgzip 压缩的 VCF 配套的 tabix 索引文件

有了它,你就可以按染色体区间快速查,不用把整个 182M 文件全读一遍。比如:

复制代码
tabix clinvar.vcf.gz chr1:1000000-2000000

如果你要用 bcftools view -rtabix、IGV 等按区域读取,通常都需要这个 .tbi


error 文件

  • clinvar.vcf.error.txt

  • clinvar_20260404.vcf.error.txt

这是生成该 VCF 时的错误/警告日志

通常记录的是某些 ClinVar 记录为什么没能写进 VCF,或者转换时遇到的异常。

因为 ClinVar VCF 本来就不是全量 XML,它只收录simple alleles、长度 <10 kb、且端点精确定位到 GRCh37/GRCh38 的变异;像 haplotype、genotype、位置不精确的 CNV、以及大于 10 kb 的变异都不在 VCF 范围里。

所以这个 error 文件你可以理解成:"有哪些记录在 VCF 化时没法正常放进去,或者需要说明"。


papu 文件是什么

  • clinvar_papu.vcf.gz

  • clinvar_papu.vcf.gz.md5

  • clinvar_papu.vcf.gz.tbi

  • clinvar_20260404_papu.vcf.gz

  • clinvar_20260404_papu.vcf.gz.md5

  • clinvar_20260404_papu.vcf.gz.tbi

这里的 papu 是 NCBI 用的缩写,表示:

  • Patch

  • Alternate

  • PAR

  • Unplaced

也就是那些不在主染色体标准坐标上的补充序列位置 。NCBI 专门说明,带 papu 的 companion files 是为了支持这些非 primary chromosome locations 的临床变异数据

你可以粗略理解为:

  • 主文件 clinvar.vcf.gz

    放在标准主染色体坐标上的 ClinVar 变异

  • 补充文件 clinvar_papu.vcf.gz

    放在补丁序列、替代位点、PAR 区、未定位序列上的变异

而且你截图里 papu 文件只有 69K,远比主 VCF 小,说明这部分只是一个补充小集合。

想要固定版本的话,只需要下载一个clinvar_20260404.vcf.gz即可:https://ftp.ncbi.nlm.nih.gov/pub/clinvar/vcf_GRCh38/clinvar_20260404.vcf.gz

相关推荐
王的宝库2 小时前
【MySQL】主从复制原理详解:从 Binlog 到数据一致性
数据库·mysql
Vect__2 小时前
MySQL基本认知、库和表的操作
数据库·mysql
cyber_两只龙宝2 小时前
【Oracle】Oracle之DQL中SELECT的基础使用
linux·运维·服务器·数据库·云原生·oracle
老苏畅谈运维2 小时前
Oracle 在线表重定义:将非分区表转换为分区表的最佳实践
数据库·oracle
treacle田2 小时前
达梦数据库-达梦数据库中link链接访问oracle 19c/11g-记录总结
数据库·oracle·达梦 link访问oracle
萌兰三太子2 小时前
RAG 向量数据库设计指南:从入门到生产
数据库·oracle
TDengine (老段)3 小时前
中原油田引入时序数据库 TDengine:写入性能提升、存储成本下降 85%
大数据·数据库·人工智能·时序数据库·tdengine·涛思数据
IT邦德3 小时前
Oracle 26ai搭建ADG Far Sync日志备库
数据库·oracle
Crazy CodeCrafter3 小时前
现在做服装,实体和电商怎么选?
大数据·数据库·人工智能·微信·开源软件·零售