SpliceVarDB数据集说明

这个网址 SpliceVarDB 不是 ClinVar 那种通用临床变异总库,而是一个更聚焦的数据库:专门收录"经过实验验证会影响剪接(splice-altering)的变异" 。主页上直接写了,用户可以提交已发表、预印本或未发表但有支持证据的、经实验验证的剪接改变变异 ,并在人工审核后纳入数据库。(SpliceVarDB)

你可以把它理解成:

  • ClinVar:更广义的临床变异数据库,关注致病性、临床解释、疾病关联等

  • SpliceVarDB :更专门,重点是哪些变异真的会改变 RNA 剪接 ,而且强调实验验证过

下载以后的文件有下面几列:

variant_hg19

这是变异在 hg19 / GRCh37 参考基因组坐标下的表示。

例如 1-100573238-T-C 的意思就是:

1 号染色体、坐标 100573238、参考等位基因 T、变异后是 C。

一般格式就是:

染色体-位置-REF-ALT

hg38

这是同一个变异在 hg38 / GRCh38 参考基因组坐标下的表示。

所以 variant_hg19hg38 是同一条变异在两个不同参考基因组版本中的坐标。SpliceVarDB 网站本身也支持在 hg38 和 hg19 两个版本之间切换。

gene

这个变异对应的基因符号,比如 SASS6DBTRTCAKIF1B

也就是这个变异被认为影响哪个基因的剪接。

hgvs

这是用 HGVS 命名法 写的标准变异描述。

例如:

  • NM_194292.3:c.1092A>G

  • NM_001918.5:c.1232C>A

这里通常可以拆成:

  • NM_...:转录本 accession

  • c.:表示在 coding DNA/transcript 坐标上的描述

  • 1092A>G:第 1092 个 cDNA 位点,A 变成 G

如果像 c.670-1G>Tc.1018-550A>G 这种带 -1-550 的,说明这个位置在外显子边界附近或更深的内含子区域,是相对外显子坐标来写的。

method

这是这个变异的实验验证方法 ,也就是 SpliceVarDB 里的 Validation / Validation Method 。网页上也把这一列叫作 Validation。(SpliceVarDB)

你截图里常见的几种:

  • RNA-Seq:用 RNA 测序数据观察这个变异是否改变剪接产物

  • RT-PCR:用逆转录 PCR 检测异常剪接转录本

  • MFASS:一种大规模剪接功能实验体系

  • MaPSy:也是一种用于评估变异对剪接影响的高通量实验方法

所以 method 说的不是"预测模型",而是这个标签是靠什么实验手段得到的。SpliceVarDB 的说明里也明确说,它整合的是来自多种实验协议的验证数据。

classification

这是这个变异在 SpliceVarDB 里的剪接效应分类。数据库把变异按支持证据强弱分成几类,核心包括:

  • splice-altering:有比较明确证据表明它会改变剪接

  • normal:有比较强证据表明它不改变剪接,可当作高质量负例

  • low-frequency splice-altering / low-frequency:介于两者之间,证据较弱、效应较小、或结果不够"纯粹"

  • 某些情况下还会有 conflicting:不同实验结果互相冲突

location

这是这个变异在基因结构里的大致位置类型,比如:

  • Exonic:在外显子里

  • Intronic:在内含子里

SpliceVarDB 说明里提到,它的 splice region/location 是按离最近 canonical exon 的距离来计算的,也包含 UTR 区域。

相关推荐
倔强的石头_2 小时前
表空间自动目录创建与存储管理实践:参数化配置与性能优化
数据库
white-persist2 小时前
【vulhub spring CVE-2018-1270】CVE-2018-1270 Spring Messaging 远程命令执行漏洞 完整复现详细分析解释
java·服务器·网络·数据库·后端·python·spring
鬼先生_sir2 小时前
MySQL进阶-事务与锁机制
数据库·mysql·mvcc
treacle田3 小时前
达梦数据库-达梦数据库中link链接访问远程Sql Sever-记录总结
数据库·达梦-sqlserver
ClouGence3 小时前
不用搭复杂系统,也能做跨地域数据迁移?
大数据·数据库·saas
xcjbqd03 小时前
SQL中视图能否嵌套存储过程_实现复杂自动化报表逻辑
jvm·数据库·python
l1t3 小时前
DeepSeek总结的PostgreSQL检查点和写入风暴
jvm·postgresql·oracle
听*雨声3 小时前
软件设计师上午题5:数据库
数据库
hong78173 小时前
阿里coding plan qwen3.6-plus 不支持图片上下文长度只有200K,问题出在哪?
linux·运维·数据库