popEVE:人类疾病遗传学的全蛋白质组模型数据库

小编荐语:这个数据库厉害了! 基因预测模型终于有了"统一标尺"!不仅能给全基因组的错义突变打分,还特别擅长在没做trio测序的情况下揪出致病变异------对临床医生来说简直是省钱又省力的神器。

模型简介

错义变异因其微妙且依赖上下文的影响,在遗传解释中仍是挑战。尽管当前预测模型在已知疾病基因中表现良好,但其评分未在蛋白质组中校准,限制了普遍性。为弥补这一知识空白,研究人员开发了popEVE------一种结合进化和人类群体数据的深度生成模型,以估计全蛋白质组范围内变异的有害性。popEVE在不高估有害变异负担的情况下实现了最先进的性能,识别出严重发育障碍队列中442个基因的变异,其中包括123个新候选基因。这些基因在功能上与已知疾病基因相似,其变异通常定位于关键区域。令人惊讶的是,popEVE能够利用子外显子优先识别可能的因果变异,即使不进行父母测序也能实现诊断。研究为罕见病变异的解释提供了可推广的框架,特别是在单例病例中,并展示了校准的进化知情评分模型在临床基因组学中的实用性。

数据库

popEVE是一个用于预测变异严重程度和致病性的计算模型。它结合了物种间的变异和人类群体内部的变异,使整个蛋白质组的分数可比,同时最大限度地减少了种群偏差。虽然多个模型提供基因组尺度预测,popEVE是首个专门设计用于校准分数以实现跨基因可比的模型。

一个基因的测试

选取了个最经典的基因进行了搜索,看了下结果,左边是热图,中间是变异信息,右边是三维结构。

BRCA1 蛋白(NP_009225.1) 全部可能错义突变进行功能影响评分(Effect score) 的可视化结果,深蓝色:强负效应(deleterious,高危),黄色:接近 0(接近 wild type,无显著影响),越蓝表示突变越可能影响蛋白功能。

批量下载

数据库提供供下载 (bulk download) 的数据资源,包括:

  • 按 RefSeq 转录本 ID (transcript ID) 排列的 tab-separated (TSV) score 文件 (即 popEVE 对所有 /大量蛋白及其可能突变所打分的表格)
  • 按 GRCh38 染色体 (chromosome) 列出的 TSV 文件。
  • 完整的 GRCh38 版本 (VCF 格式) ------ 带 popEVE 分数 (VCF with popEVE scores) 。也就是说你可以把整个基因组 /外显子组 (exome) 的变异数据进行注释 /打分。

参考

相关推荐
高-老师6 天前
python生物信息多组学大数据深度挖掘与论文整理技巧实践技术应用
生物信息
高-老师6 天前
基于R语言生物信息学大数据分析与绘图实践技术应用
开发语言·数据分析·r语言·生物信息
青春不败 177-3266-052015 天前
python语言生物信息多组学大数据深度挖掘与论文整理技巧
开发语言·python·生物信息·多组学·高通量测序
青春不败 177-3266-052016 天前
基于R语言生物信息学大数据分析与绘图技术应用
数据分析·r语言·生物信息·生信·高通量
zhangfeng11331 个月前
mednexus.org/ 一个医学学术期刊传播平台 医学英文期刊传播平台中华医学会杂志社与威立(Wiley)合作打造
生物信息·医学
zhangfeng11332 个月前
百度免费大模型API深度解析 大厂llm大模型市场国产大模型API免费全平台对比指南,薅羊毛指南与实战建议 政策深度解析与
人工智能·百度·dubbo·生物信息
梦想的初衷~2 个月前
“科研创新与智能化转型“暨AI智能体(Agent)开发及与大语言模型的本地化部署、优化技术实践
人工智能·语言模型·自然语言处理·生物信息·材料科学
zhangfeng11332 个月前
DrugGPT chatgpt druggen 之间的关系 ,DrugGPT是基于gpt2基础上开发的
chatgpt·生物信息
zhangfeng11332 个月前
医疗智能体(eiHealth) 3.4.0 使用指南(for 华为云Stack 8.5.0) 0. 华为除了这个 还有医疗 和生信方面的 产品
华为·华为云·生物信息