蛋白质致病突变的计算方法(二)

(继续上一篇)

2 致病和中性突变数据库

高通量和低成本的DNA测序技术有助于积累(accumulate)大规模突变数据,并且,各种生物数据库在文献中已经被报道。这些数据库存在一些优势特性,结构化存储、组织性强、数据共享,并且具有web应用程序的编程接口,用于自动交换和融合来自多个数据库资源的数据。在本节中,讨论了一些重要的致病和中性突变数据库,如Humsavar、ClinVar、1000 genomes、HuVarBase、MutHTP、dbCPM、DisGeNet、HGMD和OMIM(表1)。

Name important features Link No of records Reference
Humsavar 人类变异的致病性 UniProt 81749 UniProt Consortium (2015)
ClinVar 人类遗传变异及相关疾病资料库 https://www.ncbi.nlm.nih.gov/clinvar/submitters/ 2,665,071 Landrum et al. (2018)
1000 Genomes 从全基因组测序中获得的常见人类遗传变异 [1000 Genomes | A Deep Catalog of Human Genetic Variation](https://www.internationalgenome.org/ "1000 Genomes A Deep Catalog of Human Genetic Variation") 88 million
HuVarBase 具有基因和蛋白质水平信息的人类变异数据 HuVarBase 774863 Ganesan et al. (2019)
MutHTP 人类跨膜蛋白突变数据库 MutHTP (iitm.ac.in) 183395 Kulandaisamy et al. (2018)
dbCPM 从文献中手动整理的乘客突变 http://www.xialab.info:8080/dbCPM/ 1919 Yue et al.(2018)
DoCM 癌症中有明确的功能变异 DoCM - Database of Curated Mutations 1364 Ainscough et al. (2016)
OMIM 人类基因和遗传表型概要 Home - OMIM 26756 Amberger et al. (2019)
DisGeNet 与人类疾病有关的遗传变异和基因分组。 DisGeNET - a database of gene-disease associations 1134942 Piñero et al.(2021)
HDMD 人类遗传疾病的变异类型和合子性 HGMD® home page (cf.ac.uk) 352731 Stenson et al. (2017)
[表1 突变相关的疾病数据集 (最后访问时间至2023.1.9)]

2.1 Humsavar

Humsavar拥有(hold)超过70000种人类变异的致病性信息,并作为评估工具的基准,旨在预测错义单核苷酸多态性(SNPs)的致病性。大多数变体被标注为中性(多态性)或与疾病相关的变体,少量数据未分类。Humsavar的数据链接到UniProt,可以在https://www.uniprot.org/docs/humsavar上访问(be accessed at)。

2.2 Clinvar

ClinVar是人类基因变异的档案(archive),包含与疾病相关的解释。它根据变体和疾病状况收集,并提供全面的解释,以表明提交者之间是否存在共识(consensus)或分歧(disagreenment)。此外,它根据提交者的分类标准为每个记录分配了审查状态,主要关于提交者之间关于变体解释的一致程度以及专家组或指导方针制定小组是否对变体进行了解释,。ClinVar数据库地址为https://www.ncbi.nlm.nih.gov/clinvar/。

2.3 1000 genomes

1000基因组计划收集来自不同个体组的全基因组测序数据,以产生对常见人类遗传变异的描述。这些信息是通过结合密集微阵列基因分型、深度外显子组测序和低覆盖率全基因组测序得到的。它涵盖了广泛的遗传变异,描述了全球样本的分布以及对常见疾病研究的影响(implication)。1000 genomes数据库可在https://www.internationalgenome.org/获得。

2.4 HuVarBase

Ganesan等人开发了HuVarBase (HUmanVARiantdataBASE),提供了包含基因和蛋白质水平信息的全面的人类变异数据。它包含基因级别的信息,如基因名称、基因组位置和染色体数目、DNA变体、突变类型起源和rs ID编号。在蛋白质水平上,它详细描述了氨基酸序列、结构域、功能、亚细胞定位、突变残基的二级结构和翻译后修饰。用户可以选择搜索、显示、可视化和下载结果。它还具有疾病类别,它使用KEGG 中可用的信息来识别致病变异。HuVarBase可用于处理特定疾病的突变,网址为https://www.iitm.ac.in/bioinfo/huvarbase。

2.5 MutHTP

人类跨膜蛋白突变(MutHTP)数据库包含来自COSMIC、Humsavar、1000 Genomes、SwissVar和ClinVar数据库中发生在膜蛋白中的缺失、插入和错义突变的突变数据。它包含序列和结构信息,膜蛋白特征和交联(cross-link)到其他相关的序列和结构数据库,如Gene Cards, UniProt和PDB。可以使用各种选项来搜索MutHTP,例如UniProt ID、PDB ID、基因名称、突变、拓扑结构(跨膜、细胞质和细胞外)、疾病名称、疾病类别和数据库来源。在这个数据库中,使用KEGG Human Diseases将疾病分为14类。它可以通过https:// www.iitm.ac.in/bioinfo/MutHTP/免费获得。

2.6 dbCPM

dbCPM是一个广泛的、人工标准的数据库,使用文献中可用的信息。它包含实验支持和假定的(putative)乘客突变。该数据库包括功能实验(体内和体外)支持的乘客突变,这些突变在健康对照中复发频率高。癌症研究界使用dbCPM作为标准的负数据集来改进和评估预测算法。dbCPM的网址是http://www.xialab.info:8080/dbCPM/。

2.7 DoCM

DoCM(癌症突变数据库)是一个与癌症相关的体细胞突变基因信息的数据库。它从个人策划的出版物和现有资源(如ICGC, COSMIC, TCGA, ClinVar和CIVIC)中积累了关于预后,诊断,预测或功能角色的变体的信息。DoCM可以通过http://www.docm.info/访问。

2.8 OMIM database

OMIM数据库是人类基因和遗传疾病(genetic disorders)的目录。它存储有关连锁数据(linkage data)、表型和所有可遗传/可遗传人类疾病的参考资料的信息。此外,它还提供关于结构、功能、与疾病和动物模型的关联的信息。OMIM搜索结果全面地描述了每个基因及其相关疾病以及与这些疾病相关的其他基因。该数据库可通过 https://www.omim.org/ 访问。。

2.9 DisGeNet

Piñero等人(2021年)开发了一个数据库DisGeNET,其中包含与人类疾病相关的基因和变异的集合,包括由疾病或药物治疗及其副作用(side effects)引起的表型和特征(traits)。它包括来自策划仓库、科学文献、GWAS目录、动物模型、词汇和社区驱动的本体的数据。这个数据库可以通过https:// www.disgenet.org/ 访问。

2.10 HDMD

HGMD通过文本挖掘和人工整理从科学文献中提取了一组突变数据。该数据库包含变体类型、合子性(zygosity)和与相关数据库交联的信息。这个数据库可以通过https://www访问hgmd.cf.ac.uk / ac / index . php。

Q:使用KEGG 中可用的信息来识别致病变?

相关推荐
学编程的小程12 小时前
从“单模冲锋”到“多模共生”——2026 国产时序数据库新物种进化图谱
数据库·时序数据库
卓怡学长12 小时前
m111基于MVC的舞蹈网站的设计与实现
java·前端·数据库·spring boot·spring·mvc
存在的五月雨12 小时前
Redis的一些使用
java·数据库·redis
小冷coding19 小时前
【MySQL】MySQL 插入一条数据的完整流程(InnoDB 引擎)
数据库·mysql
鲨莎分不晴20 小时前
Redis 基本指令与命令详解
数据库·redis·缓存
专注echarts研发20年20 小时前
工业级 Qt 业务窗体标杆实现・ResearchForm 类深度解析
数据库·qt·系统架构
周杰伦的稻香1 天前
MySQL中常见的慢查询与优化
android·数据库·mysql
冉冰学姐1 天前
SSM学生社团管理系统jcjyw(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面
数据库·ssm 框架·学生社团管理系统·多角色管理
nvd111 天前
深入分析:Pytest异步测试中的数据库会话事件循环问题
数据库·pytest
appearappear1 天前
如何安全批量更新数据库某个字段
数据库