蛋白质致病突变的计算方法（二）

（继续上一篇）

2 致病和中性突变数据库

高通量和低成本的DNA测序技术有助于积累（accumulate）大规模突变数据，并且，各种生物数据库在文献中已经被报道。这些数据库存在一些优势特性，结构化存储、组织性强、数据共享，并且具有web应用程序的编程接口，用于自动交换和融合来自多个数据库资源的数据。在本节中，讨论了一些重要的致病和中性突变数据库，如Humsavar、ClinVar、1000 genomes、HuVarBase、MutHTP、dbCPM、DisGeNet、HGMD和OMIM(表1)。

Name	important features	Link	No of records	Reference
Humsavar	人类变异的致病性	UniProt	81749	UniProt Consortium (2015)
ClinVar	人类遗传变异及相关疾病资料库	https://www.ncbi.nlm.nih.gov/clinvar/submitters/	2,665,071	Landrum et al. (2018)
1000 Genomes	从全基因组测序中获得的常见人类遗传变异	[1000 Genomes \| A Deep Catalog of Human Genetic Variation](https://www.internationalgenome.org/ "1000 Genomes	A Deep Catalog of Human Genetic Variation")	88 million
HuVarBase	具有基因和蛋白质水平信息的人类变异数据	HuVarBase	774863	Ganesan et al. (2019)
MutHTP	人类跨膜蛋白突变数据库	MutHTP (iitm.ac.in)	183395	Kulandaisamy et al. (2018)
dbCPM	从文献中手动整理的乘客突变	http://www.xialab.info:8080/dbCPM/	1919	Yue et al.(2018)
DoCM	癌症中有明确的功能变异	DoCM - Database of Curated Mutations	1364	Ainscough et al. (2016)
OMIM	人类基因和遗传表型概要	Home - OMIM	26756	Amberger et al. (2019)
DisGeNet	与人类疾病有关的遗传变异和基因分组。	DisGeNET - a database of gene-disease associations	1134942	Piñero et al.(2021)
HDMD	人类遗传疾病的变异类型和合子性	HGMD® home page (cf.ac.uk)	352731	Stenson et al. (2017)
[表1 突变相关的疾病数据集（最后访问时间至2023.1.9）]

2.1 Humsavar

Humsavar拥有(hold)超过70000种人类变异的致病性信息，并作为评估工具的基准，旨在预测错义单核苷酸多态性(SNPs)的致病性。大多数变体被标注为中性(多态性)或与疾病相关的变体，少量数据未分类。Humsavar的数据链接到UniProt，可以在https://www.uniprot.org/docs/humsavar上访问(be accessed at)。

2.2 Clinvar

ClinVar是人类基因变异的档案(archive)，包含与疾病相关的解释。它根据变体和疾病状况收集，并提供全面的解释，以表明提交者之间是否存在共识（consensus）或分歧(disagreenment)。此外，它根据提交者的分类标准为每个记录分配了审查状态，主要关于提交者之间关于变体解释的一致程度以及专家组或指导方针制定小组是否对变体进行了解释，。ClinVar数据库地址为https://www.ncbi.nlm.nih.gov/clinvar/。

2.3 1000 genomes

1000基因组计划收集来自不同个体组的全基因组测序数据，以产生对常见人类遗传变异的描述。这些信息是通过结合密集微阵列基因分型、深度外显子组测序和低覆盖率全基因组测序得到的。它涵盖了广泛的遗传变异，描述了全球样本的分布以及对常见疾病研究的影响(implication)。1000 genomes数据库可在https://www.internationalgenome.org/获得。

2.4 HuVarBase

Ganesan等人开发了HuVarBase (HUmanVARiantdataBASE)，提供了包含基因和蛋白质水平信息的全面的人类变异数据。它包含基因级别的信息，如基因名称、基因组位置和染色体数目、DNA变体、突变类型起源和rs ID编号。在蛋白质水平上，它详细描述了氨基酸序列、结构域、功能、亚细胞定位、突变残基的二级结构和翻译后修饰。用户可以选择搜索、显示、可视化和下载结果。它还具有疾病类别，它使用KEGG 中可用的信息来识别致病变异。HuVarBase可用于处理特定疾病的突变，网址为https://www.iitm.ac.in/bioinfo/huvarbase。

2.5 MutHTP

人类跨膜蛋白突变(MutHTP)数据库包含来自COSMIC、Humsavar、1000 Genomes、SwissVar和ClinVar数据库中发生在膜蛋白中的缺失、插入和错义突变的突变数据。它包含序列和结构信息，膜蛋白特征和交联(cross-link)到其他相关的序列和结构数据库，如Gene Cards, UniProt和PDB。可以使用各种选项来搜索MutHTP，例如UniProt ID、PDB ID、基因名称、突变、拓扑结构(跨膜、细胞质和细胞外)、疾病名称、疾病类别和数据库来源。在这个数据库中，使用KEGG Human Diseases将疾病分为14类。它可以通过https:// www.iitm.ac.in/bioinfo/MutHTP/免费获得。

2.6 dbCPM

dbCPM是一个广泛的、人工标准的数据库，使用文献中可用的信息。它包含实验支持和假定的（putative）乘客突变。该数据库包括功能实验(体内和体外)支持的乘客突变，这些突变在健康对照中复发频率高。癌症研究界使用dbCPM作为标准的负数据集来改进和评估预测算法。dbCPM的网址是http://www.xialab.info:8080/dbCPM/。

2.7 DoCM

DoCM(癌症突变数据库)是一个与癌症相关的体细胞突变基因信息的数据库。它从个人策划的出版物和现有资源(如ICGC, COSMIC, TCGA, ClinVar和CIVIC)中积累了关于预后，诊断，预测或功能角色的变体的信息。DoCM可以通过http://www.docm.info/访问。

2.8 OMIM database

OMIM数据库是人类基因和遗传疾病(genetic disorders)的目录。它存储有关连锁数据(linkage data)、表型和所有可遗传/可遗传人类疾病的参考资料的信息。此外，它还提供关于结构、功能、与疾病和动物模型的关联的信息。OMIM搜索结果全面地描述了每个基因及其相关疾病以及与这些疾病相关的其他基因。该数据库可通过 https://www.omim.org/ 访问。。

2.9 DisGeNet

Piñero等人(2021年)开发了一个数据库DisGeNET，其中包含与人类疾病相关的基因和变异的集合，包括由疾病或药物治疗及其副作用(side effects)引起的表型和特征(traits)。它包括来自策划仓库、科学文献、GWAS目录、动物模型、词汇和社区驱动的本体的数据。这个数据库可以通过https:// www.disgenet.org/ 访问。

2.10 HDMD

HGMD通过文本挖掘和人工整理从科学文献中提取了一组突变数据。该数据库包含变体类型、合子性(zygosity)和与相关数据库交联的信息。这个数据库可以通过https://www访问。hgmd.cf.ac.uk / ac / index . php。

Q：使用KEGG 中可用的信息来识别致病变?