popEVE:人类疾病遗传学的全蛋白质组模型数据库

小编荐语:这个数据库厉害了! 基因预测模型终于有了"统一标尺"!不仅能给全基因组的错义突变打分,还特别擅长在没做trio测序的情况下揪出致病变异------对临床医生来说简直是省钱又省力的神器。

模型简介

错义变异因其微妙且依赖上下文的影响,在遗传解释中仍是挑战。尽管当前预测模型在已知疾病基因中表现良好,但其评分未在蛋白质组中校准,限制了普遍性。为弥补这一知识空白,研究人员开发了popEVE------一种结合进化和人类群体数据的深度生成模型,以估计全蛋白质组范围内变异的有害性。popEVE在不高估有害变异负担的情况下实现了最先进的性能,识别出严重发育障碍队列中442个基因的变异,其中包括123个新候选基因。这些基因在功能上与已知疾病基因相似,其变异通常定位于关键区域。令人惊讶的是,popEVE能够利用子外显子优先识别可能的因果变异,即使不进行父母测序也能实现诊断。研究为罕见病变异的解释提供了可推广的框架,特别是在单例病例中,并展示了校准的进化知情评分模型在临床基因组学中的实用性。

数据库

popEVE是一个用于预测变异严重程度和致病性的计算模型。它结合了物种间的变异和人类群体内部的变异,使整个蛋白质组的分数可比,同时最大限度地减少了种群偏差。虽然多个模型提供基因组尺度预测,popEVE是首个专门设计用于校准分数以实现跨基因可比的模型。

一个基因的测试

选取了个最经典的基因进行了搜索,看了下结果,左边是热图,中间是变异信息,右边是三维结构。

BRCA1 蛋白(NP_009225.1) 全部可能错义突变进行功能影响评分(Effect score) 的可视化结果,深蓝色:强负效应(deleterious,高危),黄色:接近 0(接近 wild type,无显著影响),越蓝表示突变越可能影响蛋白功能。

批量下载

数据库提供供下载 (bulk download) 的数据资源,包括:

  • 按 RefSeq 转录本 ID (transcript ID) 排列的 tab-separated (TSV) score 文件 (即 popEVE 对所有 /大量蛋白及其可能突变所打分的表格)
  • 按 GRCh38 染色体 (chromosome) 列出的 TSV 文件。
  • 完整的 GRCh38 版本 (VCF 格式) ------ 带 popEVE 分数 (VCF with popEVE scores) 。也就是说你可以把整个基因组 /外显子组 (exome) 的变异数据进行注释 /打分。

参考

相关推荐
zhangfeng113311 天前
百度免费大模型API深度解析 大厂llm大模型市场国产大模型API免费全平台对比指南,薅羊毛指南与实战建议 政策深度解析与
人工智能·百度·dubbo·生物信息
梦想的初衷~21 天前
“科研创新与智能化转型“暨AI智能体(Agent)开发及与大语言模型的本地化部署、优化技术实践
人工智能·语言模型·自然语言处理·生物信息·材料科学
zhangfeng11331 个月前
DrugGPT chatgpt druggen 之间的关系 ,DrugGPT是基于gpt2基础上开发的
chatgpt·生物信息
zhangfeng11331 个月前
医疗智能体(eiHealth) 3.4.0 使用指南(for 华为云Stack 8.5.0) 0. 华为除了这个 还有医疗 和生信方面的 产品
华为·华为云·生物信息
zhangfeng11331 个月前
亲测有效的mem 流行病预测,时间序列预测,r语言做移动流行区间法,MEM流行病阈值设置指南
开发语言·r语言·生物信息
zhangfeng11331 个月前
R和python 哪个更适合生物信息分析,或者更擅长做什么工作
开发语言·python·r语言·生物信息
zhangfeng11332 个月前
代谢物数据 不带snp 数据 ,需要转换才能得到rsid,转换的几种方法
生物信息
zhangfeng11332 个月前
R语言 读取tsv的三种方法 ,带有注释的tsv文件
开发语言·r语言·生物信息
zhangfeng11332 个月前
亲测可用,R语言 ggplot2 箱线图线条控制参数详解,箱线图离散数值控制
开发语言·python·r语言·生物信息