SpliceVarDB数据集说明

这个网址 SpliceVarDB 不是 ClinVar 那种通用临床变异总库,而是一个更聚焦的数据库:专门收录"经过实验验证会影响剪接(splice-altering)的变异" 。主页上直接写了,用户可以提交已发表、预印本或未发表但有支持证据的、经实验验证的剪接改变变异 ,并在人工审核后纳入数据库。(SpliceVarDB)

你可以把它理解成:

  • ClinVar:更广义的临床变异数据库,关注致病性、临床解释、疾病关联等

  • SpliceVarDB :更专门,重点是哪些变异真的会改变 RNA 剪接 ,而且强调实验验证过

下载以后的文件有下面几列:

variant_hg19

这是变异在 hg19 / GRCh37 参考基因组坐标下的表示。

例如 1-100573238-T-C 的意思就是:

1 号染色体、坐标 100573238、参考等位基因 T、变异后是 C。

一般格式就是:

染色体-位置-REF-ALT

hg38

这是同一个变异在 hg38 / GRCh38 参考基因组坐标下的表示。

所以 variant_hg19hg38 是同一条变异在两个不同参考基因组版本中的坐标。SpliceVarDB 网站本身也支持在 hg38 和 hg19 两个版本之间切换。

gene

这个变异对应的基因符号,比如 SASS6DBTRTCAKIF1B

也就是这个变异被认为影响哪个基因的剪接。

hgvs

这是用 HGVS 命名法 写的标准变异描述。

例如:

  • NM_194292.3:c.1092A>G

  • NM_001918.5:c.1232C>A

这里通常可以拆成:

  • NM_...:转录本 accession

  • c.:表示在 coding DNA/transcript 坐标上的描述

  • 1092A>G:第 1092 个 cDNA 位点,A 变成 G

如果像 c.670-1G>Tc.1018-550A>G 这种带 -1-550 的,说明这个位置在外显子边界附近或更深的内含子区域,是相对外显子坐标来写的。

method

这是这个变异的实验验证方法 ,也就是 SpliceVarDB 里的 Validation / Validation Method 。网页上也把这一列叫作 Validation。(SpliceVarDB)

你截图里常见的几种:

  • RNA-Seq:用 RNA 测序数据观察这个变异是否改变剪接产物

  • RT-PCR:用逆转录 PCR 检测异常剪接转录本

  • MFASS:一种大规模剪接功能实验体系

  • MaPSy:也是一种用于评估变异对剪接影响的高通量实验方法

所以 method 说的不是"预测模型",而是这个标签是靠什么实验手段得到的。SpliceVarDB 的说明里也明确说,它整合的是来自多种实验协议的验证数据。

classification

这是这个变异在 SpliceVarDB 里的剪接效应分类。数据库把变异按支持证据强弱分成几类,核心包括:

  • splice-altering:有比较明确证据表明它会改变剪接

  • normal:有比较强证据表明它不改变剪接,可当作高质量负例

  • low-frequency splice-altering / low-frequency:介于两者之间,证据较弱、效应较小、或结果不够"纯粹"

  • 某些情况下还会有 conflicting:不同实验结果互相冲突

location

这是这个变异在基因结构里的大致位置类型,比如:

  • Exonic:在外显子里

  • Intronic:在内含子里

SpliceVarDB 说明里提到,它的 splice region/location 是按离最近 canonical exon 的距离来计算的,也包含 UTR 区域。

相关推荐
ccddsdsdfsdf2 小时前
DBeaver怎么链接mongoDB
数据库·mongodb
丷丩2 小时前
Postgresql基础实践教程(十一)各种Join
数据库·postgresql·join
星夜夏空993 小时前
FreeRTOS学习(4)——内存映射
数据库·学习·mongodb
TheRouter3 小时前
AI Agent 记忆体系建设实战:短期、长期与工作记忆的工程实现
数据库·人工智能·oracle
Omics Pro3 小时前
首个!外源天然产物综合性代谢图谱
数据库·人工智能·算法·机器学习·r语言
JAVA面经实录9175 小时前
Hibernate面试题库
数据库·oracle·hibernate
迷枫7125 小时前
DM8 目录结构与常用排查入口梳理
服务器·数据库
Mr.Daozhi6 小时前
RAG 进阶实战:跑通 Demo 后我连续翻了 6 次车,逐一修复才真正可用(含 Gradio Web 版)
前端·数据库·langchain·大模型·gradio·rag·科研工具
小程故事多_806 小时前
Claude Code自定义workflow skills用法
数据库·人工智能·智能体
大鹏说大话6 小时前
SQL 排序与分组实战:解决“分组后取最新数据“
android·java·数据库