2007Mayo数据集：生物医学领域的语义相似性和相关性测量

Mayo Medical Coders Set (MayoSRS and MiniMayoSRS): Measures of semantic similarity and relatedness in the biomedical domain. Pedersen T., Pakhomov S.V.S., Patwardhan S., and Chute C.G. Journal of Biomedical Informatics. 2007;40(3):288-299.

https://doi.org/10.1016/j.jbi.2006.06.004

问题
- 语义相似度和相关性度量在生物医学领域的应用问题 ：在自然语言处理中，语义相似度和相关性度量已被广泛应用，但在生物医学领域，由于缺乏针对该领域的有效度量方法，使得现有基于通用资源（如 WordNet）的度量方法无法很好地适用于生物医学领域的特定任务。
- 生物医学领域概念间关系表示与度量问题：语义相似性和相关性是两个不同概念，语义相似性是相关性的特殊情况，但在生物医学领域，如何准确度量概念间的相似性和更广泛的相关性，尤其是如何利用丰富的本体结构（如 SNOMED - CT 中的多种关系）来进行度量，是一个需要解决的问题。
挑战
- 跨领域适应挑战：将基于通用领域（如自然语言处理中的通用英语）的语义相似度和相关性度量方法应用到生物医学领域时，面临资源覆盖不足的问题，需要将底层的通用知识源替换为生物医学领域特定资源，并对方法进行调整和扩展。
- 数据和标注的挑战：创建用于评估语义相似度和相关性度量方法的生物医学领域测试集存在困难，包括缺乏由人类专家手动评分的相似性数据集，以及在初始收集的 120 对医学术语中，注释者间一致性相对较低，影响测试集的可靠性。
创新点
- 领域适应创新 ：将六种原本基于 WordNet 的领域无关度量方法适配到生物医学领域，特别是针对 SNOMED - CT 本体进行调整，使得这些方法能够应用于生物医学领域的自然语言处理任务，如利用生物医学本体中的层次结构和语义关系来度量概念间的相似性。
- 度量方法创新 ：提出一种基于上下文向量的语义相关性度量方法（Context Vector measure），该方法通过从医学语料库（Mayo Clinic Corpus of Clinical Notes）中获取共现统计信息来构建概念的上下文向量，从而度量概念间的相关性，不依赖于本体结构，为语义相关性度量提供了一种新的视角和方法。
贡献
- 方法适配贡献：成功展示了如何将多种现有的语义相似度和相关性度量方法从通用领域迁移到生物医学领域，为生物医学领域的自然语言处理提供了更多可用的工具和技术。
- 研究发现贡献：发现基于上下文向量的度量方法在有足够大的未标记训练数据时，至少与基于本体的度量方法一样有效，且该方法能快速适应新领域，这一发现对生物医学领域语义关系度量和自然语言处理任务具有重要意义，为后续研究提供了新的思路和方向。
提出的方法
- 路径查找度量方法（Path finding measures）
  - 路径长度度量（Path Length） ：通过计算 SNOMED - CT 中两个概念最短路径上的节点数量来度量相似性，最短路径包含两个概念节点，相似性定义为路径长度的倒数。
  - Leacock & Chodorow 度量（lch） ：基于找到两个概念之间的最短路径，并通过层次结构的最大深度对该路径长度进行缩放，然后取对数得到相似性得分。
- 信息内容度量方法（Information content measures）
  - Resnik 度量（res） ：使用信息内容（Information Content，IC）来增强概念的表示，信息内容基于概念在大型语料库中的出现频率计算，通过计算两个概念的最低共同父类（Lowest Common Subsumer，LCS）的信息内容来度量相似性。
  - Jiang & Conrath 度量（jcn）：通过计算概念自身信息内容与最低共同父类信息内容的差值来度量语义距离（语义距离是相似性的倒数）。
  - Lin 度量（lin）：通过计算概念自身信息内容之和与最低共同父类信息内容两倍的比值来度量语义相似性。
- 上下文向量度量方法（Context Vector measure） ：构建表示概念含义的上下文向量 ，通过计算两个概念对应上下文向量之间的余弦相似度来度量语义相关性。首先为语料库中的每个实词创建一阶上下文向量（word vector），然后根据 Mayo Clinic Thesaurus 中与 SNOMED - CT 概念相关的描述符术语的 word vector 聚合得到概念的上下文向量。
指标
- 相关性系数指标：通过计算各种度量方法输出与人类专家判断分数（由医生和医学编码员给出）之间的相关性系数，来评估度量方法的性能。例如，在实验结果中，比较了不同度量方法与医生和医学编码员判断的相关性，包括 Context Vector measure（基于不同语料库部分和不同计算方式）、Lin、Jiang and Conrath、Resnik、Path、Leacock and Chodorow 等度量方法的相关性系数。
模型结构（主要针对上下文向量度量方法）
- 上下文向量构建
  - 首先创建 word vector，其维度为语料库中的实词，通过在语料库中查找每个实词的出现位置，对其上下文窗口内的实词维度进行计数（上下文窗口为一行文本），得到该实词的 word vector，该向量编码了实词的共现信息。
  - 然后根据 Mayo Clinic Thesaurus 中与 SNOMED - CT 概念相关的描述符术语，将这些术语的 word vector 聚合得到概念的上下文向量。
结论
- 方法有效性结论：适配到生物医学领域的多种度量方法在一定程度上能够有效度量概念间的语义相似度和相关性，其中基于上下文向量的度量方法在特定条件下（如使用 IP 部分语料库）表现出较高的相关性，尤其与医生判断的相关性较高。
- 本体相关结论：发现基于本体的度量方法和基于上下文向量（本体独立）的度量方法各有优劣，且手动构建的本体（如 SNOMED - CT）可能无法完全反映医生心中的语义关系现实，而向量方法在有足够训练数据时可快速适应新领域且性能较好。
剩余挑战和未来工作
- 剩余挑战
  - 初始测试集的注释者间一致性相对较低，虽然通过选取一致性高的子集解决了部分问题，但可能影响结果的全面性和代表性。
  - 度量方法的性能仍受到多种因素影响，如上下文向量度量方法对语料库的选择非常敏感，信息内容度量方法可能也受语料库不同部分影响，需要进一步优化和探索。
- 未来工作
  - 计划扩展相关性度量方法，将 **UMLS 作为路径度量方法的本体关系来源，**并使用 UMLS 定义用于上下文向量度量方法。
  - 尝试将语义相关性度量方法应用于生物医学领域的自然语言处理任务，如词义消歧、信息检索和拼写纠正等，以进一步验证和改进这些方法的有效性。

抽象的

概念之间的语义相似度度量在自然语言处理中被广泛使用。在本文中，我们将展示如何将六种现有的领域独立度量应用于生物医学领域。这些度量最初基于 WordNet，这是一个概念和关系的英语词汇数据库。在本研究中，我们将这些度量应用于 SNOMED-CT ®医学概念本体。这些度量包括两种基于路径的度量和三种使用语料库中的信息内容统计数据来增强基于路径的度量的度量。我们还基于医学语料库得出了一个上下文向量度量，可用作语义相关性的度量。这六个度量是根据由三名医生和九名医学编码员评分的 30 个医学概念对新创建的测试平台进行评估的。我们发现医学编码员和医生的评分不同，上下文向量度量与医生的相关性最密切，而基于路径的度量和其中一个信息内容度量与医学编码员的相关性最密切。我们得出的结论是：基于从语料库中获取的信息的更灵活的关联性测量以及依赖于现有本体结构的测量均有作用。

关键词

语义相似性
基于路径的措施
信息内容
上下文向量
SNOMED-CT

1.引言

语义相关度是指人类对给定概念对的相关程度的判断。研究 $1$ 、 $2$ 表明，令人惊讶的是，大多数人对大多数概念对的相对语义相关度都意见一致。相关度度量是试图模仿人类对相关度判断的自动化技术。在领域独立的自然语言处理领域已经存在许多此类技术 $3$ 、 $4$ 、 $5$ 、 $6$ 。但是，这些度量所使用的资源缺乏领域特定覆盖，导致它们无法有效地用于领域特定任务。由于生物医学领域拥有大量本体和资源，因此可以调整这些度量并将其应用于领域特定任务。
由于英语词汇之间存在语义等价类，因此在信息检索 (IR) 和文档检索 (DR) 应用中使用同义词或近似同义词库非常可取。由于对诸如患者群组识别等 IR 任务具有严格的完整性要求，因此该问题在医学领域尤为严重。我们相信，语义相似性和相关性度量可以提高此类系统的性能，因为它们能够将用户的特定搜索查询映射到多个等效表述。例如，用户对"充血性心力衰竭"的查询可以扩展到包括语义上相似的术语心脏失代偿 、肺水肿、缺血性心肌病 和容量超负荷 。显然，肺水肿并不表示与 充血性心力衰竭相同甚至相似的疾病，但在患者群组识别条件下，它可以被视为等效搜索词。
在本研究中，我们采用了多种相似性和相关度度量方法来适应生物医学领域。我们应该强调，语义相关度 和语义相似性 是两个独立的概念。语义相关度是概念相关度的一个更一般的概念，而相似度是相关度的一个特例，与概念的相似度（形状或形式）有关。语义相似度度量以两个概念作为输入，返回一个数值分数来量化它们的相似程度。这种度量（例如 $3$ 、 $4$ 、 $5$ ）通常基于概念所在的底层分类法或本体中的is-a关系。例如， 普通感冒 和疾病的相似之处在于普通感冒 是一种疾病。 同样，普通感冒 和流感的 相似之处在于它们都是一种疾病。当然，许多本体包括概念之间的其他关系，例如has-part、is-a-way-of-doing、is-a-cause-of、is-a-symptom-of 等， 这些关系在相似性度量中没有直接考虑。因此，我们将语义相似性视为语义相关性的一个特例，并且我们认为开发利用日益丰富的本体（特别是在生物医学领域）的度量是未来工作的重要领域，这些本体除了is-a 之外还有丰富的关系。鉴于在自动识别医学文本中的各种语义关系方面取得的进展（例如 $7$ ），这一点尤其重要。我们相信，本文中的工作为解决识别语义相关概念的更普遍问题提供了必要的垫脚石。
在生物医学领域之外，语义相似性和相关性的度量已被证明在许多 NLP 任务中很有用。例如，Budanitsky 和 Hirst $8$ 使用各种相似性和相关性度量来识别词语误用。他们的方法的前提是，一个在语义上与相邻单词不相似或不相关的单词可能是拼写错误的单词，但意外地是一个有效的单词，例如"The nights of the round table rode again"。Resnik $9$ 、Patwardhan 等人 $10$ 和 McCarthy 等人 $11$ 基于这样的思想进行词义消歧，即一个词应该以与其周围单词的含义最相似或最相关的含义使用。
然而，所有这些工作都是与领域无关的，并且基于 WordNet $12$ ，这是一个免费的词汇数据库，代表了大约 100,000 个通用英语概念的本体。在生物医学领域，越来越多的本体将医学概念组织成层次结构和语义网络，最好的例子可能是美国国家医学图书馆 (NLM) 的统一医学语言系统 (UMLS® ) 。UMLS®中包含的最大和最广泛的来源之一是 SNOMED-CT® 。到目前为止，在开发和评估此类资源的概念相似性和相关性度量方面所做的工作相对较少。本文的前提是，一些已被发现在 WordNet 中有效的措施可以调整并扩展到 SNOMED-CT® ，从而可以自动执行生物医学领域的某些 NLP 任务。
本文首先介绍生物医学领域的其他相关工作，以及实现或使用语义相似性度量的领域独立技术。然后，本文介绍我们用于测量概念间相似性和相关性的各种资源。这些资源包括 SNOMED-CT ® 、梅奥诊所临床笔记语料库和梅奥诊所同义词库。然后，我们描述了我们已适应生物医学领域的五种相似性度量和一种相关性度量（均基于 WordNet）。1我们还介绍了一种用于评估生物医学领域语义相似性和相关性度量的新测试平台。最后，我们展示了我们的实验结果和对未来工作的建议。

2 .相关工作

在生物医学领域，基于本体的语义相似性度量早在 1989 年就已开发出来。Rada 等人 $13$ 设计了一种基于语义网络的"语义距离"度量。他们使用 MeSH 作为语义网络，该网络由按层次结构 组织的生物医学术语组成。事实上，本文中描述的度量之一就是受这项工作的启发。采用类似的方法，Caviedes 和 Cimino $14$ 开发了 CDist 度量，用于在 UMLS 层次结构中查找路径长度。我们在本文中比较的两种度量是基于路径的度量。我们对这些度量的工作主要不同之处在于用于计算路径的本体以及概念之间的路径长度。
最近，Lord 等人 $15$ 将基于 WordNet 的相关性度量调整为基因本体 $16$ ，后者是基因产物的分子功能和生物过程的高度专业化的本体。该层次结构还描述了与基因产物相关的细胞成分。在这项研究中，他们发现基于本体的蛋白质语义相似性与"序列相似性"具有高度相关性，"序列相似性"是基于蛋白质序列的单独度量。相比之下，我们的研究涉及更一般的生物医学概念，并针对手动创建的数据集提供了更可靠的评估。
除了将现有方法应用于生物医学领域外，人们还在开发用于测量术语和概念相似度的新技术。Wilbur 和 Yang $17$ 的研究定义了一种强度度量，可用于使用词汇技术检索相关文章。该度量使用文档中术语的出现次数与文档主题之间的相关性来定义术语的强度。PubMed 服务使用此度量来索引和检索相关的生物医学文档。Spasic 和 Ananiadou $18$ 所做的研究基于在单词级别应用的编辑距离 $19$ 的变化定义了一种新的相似度度量。简而言之，两个术语的语义相似度是使用插入、删除 和替换单词（而不是字母）操作将一个术语转换为另一个术语所涉及的成本。此方法还使用 UMLS 分类法来最大限度地减少单词变体的影响。它还会根据正在编辑的单词的"语义负荷"来改变与操作相关的成本。例如，删除 UMLS 中存在的已知术语比删除连词的成本更高。
在本文后面，我们将描述一种基于上下文向量的测量方法，该方法受到 Schütze 的 $20$ 词义辨别方法的启发。这反过来又改编自信息检索中常用的潜在语义索引 $21$ 。潜在语义索引 (LSI) 和潜在语义分析 (LSA) 已被证明可用于生物医学领域临床记录的索引和检索 $22$ 、 $23$ 、对医疗事件进行分类 $24$ 、 $25$ 以及管理医学术语的变化 $26$ 。在我们的研究中，我们使用了一些 LSA 原理来进行基于向量的测量。
在领域无关的自然语言处理领域，语义相似性最近已被用于许多任务，如拼写纠正 $8$ 、词义消歧 $10$ 、 $27$ 、信息提取 $28$ 和文本推理 $29$ 。所有这些应用都表明，语义相似性和语义相关性在领域无关的环境中已被证明是有用的。

3.知识来源

在本节中，我们描述了这些措施所使用的三种生物医学信息资源。本文后面描述的所有措施最初都是基于 WordNet 的。由于 WordNet 是一个与领域无关的词汇资源，因此它在生物医学领域的覆盖范围非常小（如 $30$ 所示）。为了使这些措施在特定领域的设置中更有效，我们用来自生物医学领域的资源取代了底层的与领域无关的知识源。这些资源的描述如下。

3.1 . SNOMED- CT®

SNOMED-CT® （系统化医学名词术语**，** 临床术语）是一种涵盖临床领域的本体/术语资源。它由美国病理学家学会制作，目前作为 UMLS® 的一部分通过美国国家医学图书馆分发。SNOMED -CT®用于索引电子病历、ICU 监控、临床决策支持、医学研究、临床试验、计算机化医嘱录入、疾病监测、图像索引和消费者健康信息服务。我们在本研究中使用的 SNOMED-CT® 版本是2004 年的，包含 361,800 多个独特概念和 975,000 多个描述（条目术语） $31$ 。
术语在顶层分为 13 个层次：临床发现、程序、可观察实体、身体结构、生物体、物质、物理对象、物理力量、事件、地理环境、社会背景、上下文相关类别以及分期和量表。有一个总体根节点将所有 13 个层次连接在一起。概念及其描述与大约 147 万个语义关系相关联，包括is-a、assists、tretes、prevents、related etiology、related morphology、has property、has marked、related topography、has object、has manifestation、associated with、classifies、has ingredient、mapped to、mapped from、measures、clinically related with、used by、anatomic structure is physical part of。

3.2梅奥诊所临床笔记语料库

该资源包括 2003 年间收集的约 1,000,000 份临床笔记，涵盖了梅奥诊所的各种主要医学专业。临床笔记具有许多其他类型话语所不具备的特征，例如新闻文章或 MEDLINE 中的科学医学文章。临床笔记是在诊所治疗患者的过程中生成的，包含患者与医生会面的记录。这些笔记通常是口述的，代表一种准即兴话语 $32$ ，其中口述内容部分来自笔记，部分来自记忆。更多时候，语音往往是电报式的，这对自然语言处理提出了一定的挑战。
在梅奥诊所，口述记录由经过培训的人员转录并存储在患者的电子病历中。这些转录内容随后可用于健康科学研究。这些记录是半结构化的，每条记录由多个小节组成，例如主诉 (CC)、现病史 (HPI)、印象/报告/计划 (IP)、最终诊断 (DX) 等。
我们对临床记录的 CC、HPI、IP 和 DX 部分特别感兴趣。CC 部分记录就诊原因；HPI 部分包含患者过去接受过的其他治疗/问题的信息；IP 部分包含诊断和当前治疗信息，而 DX 部分是 IP 部分的摘要 - 它仅包含诊断列表。从语义相关性度量的角度来看，其他部分（例如 SI（特殊说明）和 CM（当前药物））不太有趣，尽管如果我们专注于计算药物之间的语义相关性，那么我们可能也需要考虑 CM 部分。SI 部分包含与患者病情无关的管理信息。CM 部分包含为患者开具的药物清单。此列表中的药物可能与记录中描述的病情有关，也可能无关；但是，相关药物往往会在 IP 和 HPI 部分中重复出现。我们暂时不考虑 CM 部分，因为一方面它可能会引入虚假关联，另一方面可能与 IP 和 HPI 部分重复。

3.3 .梅奥诊所词典 The Mayo Clinic Thesaurus

梅奥诊所同义词库是梅奥诊所自 1909 年以来系统收集的临床问题描述的丰富来源。梅奥诊所同义词库源于 Plummer 索引系统，该系统于 1909 年在梅奥诊所推出，用于索引临床问题描述；它使用 5 × 8 英寸索引卡实现。在 1935 年左右将梅奥索引迁移到 IBM Hollerith 卡的过程中，该索引被大幅修改为双轴命名法，并在 1960 年迁移到电子计算环境期间再次扩展。自 1996 年以来，我们创建了患者诊断的简短摘要，手动编码并存储在数据库中。在进行本研究时，该资源包含超过 1600 万个通过自然语言表达的独特诊断短语，这些短语分为超过 21,000 个诊断类别，代表了一个话语级同义词库。 1600 万个短语-类别对包含 5,167,428 个代表诊断陈述的独特短语。每个诊断陈述都由梅奥诊所的执业医师记录为患者医疗记录的一部分，并手动编码和编目，以便随后使用梅奥诊所修改的医院国际疾病分类改编版 (HICDA) 进行检索。HICDA 分类是一个由四个级别组成的层次结构。最高级别是最通用的，有 19 个类别，例如肿瘤、循环系统疾病等。接下来的三个级别将诊断分为更具体的类别。
Mayo Clinic 同义词库的构建基于以下假设：如果多个诊断短语在 HICDA 层次结构中被归类为同一类别，那么这些短语在 HICDA 提供的粒度级别上可视为同义词。例如，"原发性局限性肝门部胆管癌"和"Klatskin 型胆管癌"等诊断短语以类似同义词库的方式链接在一起，因为这两个语句已以相同的方式手动分类。我们认为这两个短语几乎是同义词，并使用它们为 SNOMED-CT ®和此诊断短语话语级同义词库中的术语生成准定义。
我们尝试通过排除出现次数不超过 5 次的短语和归类为"入院，未给出诊断 "的短语来减少此集合中不可避免的噪音和冗余。经过这些限制，原始的 5,167,428 个诊断陈述减少到 381,673 个术语的词汇表。其中，9951 个（2.6%）也通过简单的字符串匹配出现在 SNOMED-CT ®描述列表中。匹配前，这些术语以小写形式呈现。2转换为小写后，SNOMED-CT ®的描述列表包含 798,168 个唯一术语。 9951 个术语与 Mayo Clinic 同义词库的重叠占唯一小写 SNOMED-CT ®术语总数的 1.3% 。由于匹配方法简单，这些数据仅提供三个词汇表之间实际交集的非常粗略的近似值。然而这些数据确实表明，将 SNOMED-CT ®纳入梅奥诊所词库将增加单独使用术语的覆盖范围。
通过将 Mayo Clinic 同义词库与 UMLS®（2003AB 版）的医学主题词 (MeSH) 子层次结构和 SNOMED-CT ® 2003 版（在纳入 UMLS ®之前）合并，Mayo Clinic 同义词库得到了增强。此增强允许将 SNOMED-CT ®概念映射到 Mayo Clinic 同义词库中的术语集群。如果某个术语出现在多个来源中，则在将术语链接到 Mayo Clinic 同义词库 ID 后，将消除重复项。

4 .语义相似性和相关性的测量

语义相关度是指人类对概念对之间相关度的判断。人类通常对概念的相对相关度达成一致 $1$ 、 $2$ 。例如，大多数人会同意鸟与羽毛的相关性比与叉子或汽车的 相关性更高。研究 $2$ 、 $33$ 、 $34$ 表明，人类使用词语和概念的上下文来构建概念的心理语义表征。随着时间的推移，人类会遇到不同概念的相似上下文。因此，人类倾向于就概念的语义相关度达成一致。
人们提出了许多想法来自动计算单词的语义相关度，使其与人类受试者的语义相关度紧密对应。一些常用的方法从文本语料库中获取统计信息，并将这些信息与 WordNet 等词汇资源相结合，做出语义相关度判断，这些判断已被证明与人类受试者的判断高度相关 $8$ 、 $10$ 。此外，这些技术已被证明可用于许多自然语言处理任务，如词义消歧 $10$ 、 $27$ 、拼写纠正 $8$ 和信息提取 $28$ 。在本节中，我们描述了几种基于 WordNet 的度量，这些度量试图量化概念的语义相关度。此外，我们还描述了如何调整这些度量以在生物医学领域做出更准确的判断。五种语义相似度度量都使用 SNOMED-CT ®，而三种基于信息内容的相似度度量也使用梅奥诊所临床笔记语料库。关联性的上下文向量测量仅使用 Mayo Clinic 语料库和 Mayo Clinic 同义词库。
在描述这些度量之前，我们想强调一下语义相似性 和语义相关性 之间的区别。语义相似的概念被认为是基于它们的相似性而相关的。另一方面，语义相关性是一种更一般的相关性概念，并不特别与概念的形状或形式相关。换句话说，语义相似性可以被认为是语义相关性的一个特例。这里描述的语义相似性度量基于将层次结构中的概念（直接或间接）联系起来的is-a 关系。这些度量可以简单地基于概念之间的路径长度，或者它们可以使用基于语料库的统计数据来增强这种结构信息。语义相关性度量更为通用，可以包括有关其他关系的信息，也可以基于语料库中的共现统计数据。我们将在本节中描述几种现有的相似性和相关性度量，特别关注我们为 SNOMED-CT ®而改编的度量。图 1提供了这些度量的一般分类及其相对优缺点。

4.1 .路径寻找措施

当概念按层次结构组织时，较一般的概念位于层次结构的根部附近，而较具体的概念位于叶子附近，根据概念之间的路径长度来测量相似性会很方便。事实上，在生物医学领域和领域独立的 NLP 技术中都提出了各种此类方法。
Rada 等人 $13$ 开发了一种基于医学主题词 (MeSH) 本体中概念之间路径长度的度量，该本体由美国国家医学图书馆分发。他们依靠的是 比关系更广的 关系，当您从一个概念移动到另一个概念时，这种关系会依次链接到或多或少具体的概念。他们使用此度量对从 MEDLINE（由生物医学期刊文章摘要组成的语料库）检索到的文档进行排名，从而改进信息检索。最近，Caviedes 和 Cimino $14$ 开发了一种称为 CDist 的度量，它可以找出 UMLS ®中两个概念之间的最短路径。他们对从 UMLS ®子集（包括 MeSH、ICD-9-CM 3和 SNOMED-CT®）中提取的一小部分概念和概念簇的评估表明，即使是这种相对简单的方法也往往能产生可靠的结果。
Wu 和 Palmer $35$ 提出了一种通用英语相似度测量方法，该方法依赖于找到最具体的概念，该概念包含了被测量的两个概念。从这个共享概念到本体根的路径长度由概念到包含概念的距离之和缩放。Leacock 和 Chodorow $36$ 定义了一种相似度测量方法，该方法基于找到两个概念之间的最短路径，并将该值缩放到层次结构最大深度的两倍，然后对结果分数取对数。在这两种测量中，概念之间的路径长度都以某种方式由层次结构的整体深度或大小缩放，以避免严格依赖路径长度，这可能会产生误导，因为由单个链接表示的概念之间的语义相似度将根据该链接在层次结构中的位置而变化。两个非常一般的概念之间的链接可能意味着概念之间存在相当大的差异，而两个非常具体的概念之间的链接可能表示较小的差异。
相对较少的尝试开发依赖于 "is-a"之外的关系的基于路径的度量。鉴于在 SNOMED-CT ®等资源中发现的关系丰富，我们相信这是未来研究的一个有前途的领域，但是，我们尚未在本研究中包括此类度量。一个可能的适应候选示例是 Hirst 和 St-Onge $37$ 的关联性度量。他们的度量基于 WordNet，通过查找连接两个概念的路径的性质来确定两个概念之间的关联性。与较长但方向变化较多的路径相比，不太长且方向变化相对较少的路径表示相对较高的关联度。
对于本文中的实验，我们开发了两种基于路径的度量：SNOMED-CT ®的路径长度度量，以及Leacock 和 Chodorow 提出的度量对SNOMED-CT ® 的改编。路径长度度量本质上是通过计算 SNOMED-CT ®的 is-a 层次结构中两个概念之间最短路径上的节点数来计算两个概念之间的相似度。最短路径包括两个概念节点。路径长度的倒数定义为两个概念的相似度。Leacock 和 Chodorow 度量的改编与路径长度度量非常相似，只是 Leacock 和 Chodorow 度量会根据分类的深度来缩放这个最短路径长度。从数学上讲，使用路径长度度量（ 路径）的两个概念 c 1和 c 2的相似度定义为：（1）模拟小路（c1，c2）=1/页，其中 p是 SNOMED-CT ®中两个概念之间最短路径上的节点数。类似地，使用 Leacock 和 Chodorow 度量 ( lch ) 计算两个概念 c 1和 c 2的相似度，其计算方法如下（2）模拟左心室（c1，c2）=-日志页2·深度，其中 p是 SNOMED-CT ®中两个概念之间最短路径上的节点数，深度是层次结构的最大深度。
请注意，SNOMED-CT ®允许多重继承，即层次结构中的节点可以有多个父节点（可能位于分类法的不同部分）。因此，任何两个概念之间都可能存在多条可能的路径。但是，对于这两种度量，我们只选择其中最短的路径。

4.2信息内容测量

纯路径度量的局限性在于单个链接所暗示的语义相似度并不一致。非常一般的概念之间的链接传达的相似度要比非常具体的概念之间的链接要小一些。
Resnik $3$ 尝试通过用基于语料库的统计数据（称为 信息内容）来扩充概念来解决此问题，信息内容本质上是概念特异性的度量。层次结构中每个概念的信息内容是根据该概念在大量文本中出现的频率计算得出的。信息内容高的概念非常具体，而信息内容值较低的概念则与更一般的概念相关。
通过计算概念在大量文本中出现的频率，可以估算出概念的信息内容。但请注意，单个概念可以映射到文本中的多个词汇术语，反之，单个词汇术语可以映射到多个概念。因此，为了获得概念的频率估计值，Resnik 建议将术语的频率计数均匀地分布在其映射到的概念上。但也有研究表明 $10$ ，将所有映射到单个术语的概念分配为与该术语相同的频率计数也是可行的。在本研究中，分配给概念的频率计数是映射到该概念的所有术语的频率计数的总和。
此外，信息内容的定义要求每个概念的频率计数都包括" is-a"层次结构中所有被包含概念的频率计数。例如， 疾病概念的频率计数将包括 肺结核 和 流感（以及其他疾病）的频率计数。类似地，对应于 "is-a" 层次结构根节点的概念具有最大频率计数，因为它包括层次结构中所有其他概念的频率计数。因此， "is-a"层次结构中较高层级的概念所关联的频率计数始终大于或等于层次结构中较低层级的概念所关联的频率计数。
在获得所有概念的频率计数后，每个概念c 的信息含量计算如下：（3）我知道了（c）=-日志频率（c）频率（根），其中 freq (c)是概念 c 的频率， freq *(root)*是层次结构根的频率。
使用这种信息内容概念，Resnik $3$ 定义了一种相似性度量，该度量认为两个概念在语义上的相似性与它们共享的信息量成正比。共享信息的数量由层次结构中最具体的概念的信息内容决定，该层次结构包含两个给定概念，称为最低共同包含者。从数学上讲，Resnik 度量 ( res ) 计算概念 c1 和 c2 的相似性如下：（4）模拟水库（c1，c2）=我知道了（液晶显示系统（c1，c2）），其中 lcs(c 1 , c 2 ) 是概念 c 1和 c 2的最低公共包含者， IC返回概念的信息内容。
但是，Resnik 度量可能无法进行细粒度区分，因为许多概念可能共享相同的最低公共包含者，因此具有相同的相似度值。Jiang 和 Conrath $5$ 以及 Lin $4$ 开发了度量方法，该方法通过单个概念的信息内容来衡量包含概念的信息内容。Lin 通过比率来实现这一点，而 Jiang 和 Conrath 则通过差值来实现这一点。Jiang 和 Conrath ( jcn ) 度量计算概念 c1 和 c2 的语义距离（相似度的倒数），如下所示：（5）分布杰恩（c1，c2）=我知道了（c1）+我知道了（c2）-2·我知道了（液晶显示系统（c1，c2））林氏测度 ( lin ) 计算概念 c1 和 c2 的语义相似度，公式如下：（6）模拟林（c1，c2）=2·我知道了（液晶显示系统（c1，c2））我知道了（c1）+我知道了（c2），其中 lcs(c 1 , c 2 ) 是概念 c 1和 c 2的最低公共包含者， IC返回概念的信息内容。
在我们的研究中，我们利用SNOMED-CT ®的 is-a 层次结构，将这三种指标（ res 、 lin 和 jcn）应用于生物医学领域。我们使用梅奥诊所临床笔记语料库作为 SNOMED-CT ®概念频率计数的来源，以得出其信息内容值。

4.3上下文向量测量

Patwardhan $6$ 、 $38$ 开发了一种语义关联度度量，将概念表示为上下文向量。与相似度度量相比，这种方法更具通用性，因为上下文向量的信息来源是原始文本语料库，而不是本体中概念之间的路径。该技术改编自 Schütze $20$ 的词义辨别方法，而该方法又是改编自信息检索中实践的潜在语义索引 $21$ 。在这种技术中，我们构建了表示概念上下文概况的共现向量。两个给定概念对应的向量之间的角度余弦决定了这些概念的关联度。
我们首先为文本语料库中的每个内容词 w创建 词向量，即一阶上下文向量。这些向量的维度是来自同一文本语料库的内容词（每个维度对应一个内容词）。单词 w 的向量创建如下：

将一阶上下文向量初始化为零向量瓦→。
在给定的语料库中查找单词 w的每个出现位置。

对于 w 的每次出现，将以下维度增加 1瓦→ 它对应于w周围指定上下文窗口中出现的单词。
一阶上下文向量瓦→ 因此，编码了单词w 的共现信息，称为其 词向量。在本研究中，我们使用梅奥诊所临床笔记语料库为临床笔记中出现的所有内容词创建词向量。我们使用一行文本作为上下文窗口。
创建了一组词向量后，我们接着使用这些词向量创建与每个 SNOMED-CT ®概念相对应的 上下文向量 ，这些概念在临床笔记语料库中的频率超过预定义的阈值。我们使用梅奥诊所同义词库获取每个概念的 描述词 列表。然后，汇总与概念描述词相对应的词向量以获取该概念的上下文向量。因此，SNOMED-CT ®概念表示为描述词词向量的结果，其中词向量表示术语的"上下文概况"，是根据梅奥临床笔记语料库计算得出的。例如，SNOMED-CT ®概念 "心绞痛" （SNOMED-CT ID：367416001）映射到梅奥诊所同义词库中的一组术语（群集 ID：M00587016）。该集群还包含 "血管痉挛性心绞痛"、"CAD 伴劳力性心绞痛"、"心绞痛功能 2 级"、"缺血性心脏病伴心绞痛" 等术语，这些术语原本不是 SNOMED-CT ®的一部分，但通过 Mayo Clinic 词库与 SNOMED-CT ®概念相关联。因此， "心绞痛" 的上下文向量计算为 "血管痉挛性心绞痛"、"CAD 伴劳力性心绞痛"、"心绞痛功能 2 级" 和 "缺血性心脏病伴心绞痛"的词向量的结果。
然后计算两个概念c1 和 c2 的语义相关性，即它们的上下文向量之间的角度的余弦：（7）相关向量（c1，c2）=五→1·五→2|五1|·|五2|，在哪里五→1和五→2 分别是与c 1和 c2对应的上下文向量。

5实验数据

语义相似性和相关性的度量可以通过直接或间接方式评估。直接方法将度量结果与人类判断进行比较；领域独立英语的通用标准由 Rubenstein 和 Goodenough $1$ 以及 Miller 和 Charles $2$ 创建的手动评级概念对提供。间接方法根据依赖于度量的应用程序的性能来评估度量。拼写纠正 $8$ 和词义消歧 $10$ 都被用作评估度量的应用程序。这两项研究都发现 Jiang 和 Conrath 的相似性度量在改善其应用结果方面最有效，尽管词义消歧评估也报告说，基于查找单词定义重叠的度量同样成功。
目前，生物医学领域尚无任何由人类专家手动评分过的词集，无法用作直接评估手段。在本研究中，我们创建了一个医学术语对测试平台，这些术语对由人类专家根据其相关性进行评分。梅奥诊所的一位医生（Alexander Ruggieri，医学博士）接受过医学信息学培训，他遵循 Rubenstein 和 Goodenough 的方法，生成了一组 120 个术语对，其中包含四大类相关性值中的每类 30 对，从完全不相关（1）到非常密切相关（4）。随后，我们让 13 位医学编码员用 1-10 的等级注释每对相关性值。出于实验目的，选择了更宽的等级------折叠更宽的等级比扩大狭窄的等级更容易。我们后来折叠了这个等级以匹配 Rubenstein 和 Goodenough 的等级。
一组经过专门培训的医学编码员使用与构建梅奥诊所词库相同的 HICDA 分类系统对临床诊断进行分类，他们为本研究的测试集进行了注释。在研究期间，这些医学编码员拥有 5 至 14年的编码经验。虽然他们没有接受过正规的医学培训，但由于他们接触过临床记录和术语，因此对医学语言有着丰富的了解，我们认为他们是这项注释任务的合适人选。
我们实施了两种严格基于SNOMED-CT ®中的 is-a 关系的语义相似度度量：路径长度度量和 Leacock 和 Chodorow 度量。我们还实施了三种度量，它们基于从整个梅奥诊所临床笔记语料库中获得的信息内容统计数据和SNOMED-CT ®提供的 is-a关系的组合。最后，我们通过基于与梅奥诊所同义词库中的概念相关的描述词从梅奥诊所临床笔记语料库中查找共现向量来实施上下文向量度量。因此，上下文向量度量是唯一不依赖于分层术语或本体的度量。我们以两种不同的方式计算向量，首先使用整个梅奥诊所临床笔记语料库，然后仅使用 IP 部分。

6 .实验结果

6.1 .注释者之间的一致性

作为对照，我们让 13 名医学编码员 4中的 10 名使用 10 分量表对 Rubenstein 和 Goodenough 以及 Miller 和 Charles 的测试集中的 30 个领域独立英文术语对进行注释。这样做是为了确保医学编码员理解说明和关联性概念。医学编码员的判断与 Rubenstein 和 Goodenough 使用的注释者的判断之间的相关性相对较高，为 0.84。同样，与 Miller 和 Charles 的测试集的相关性为 0.88。120 个概念对的医学测试集上的相关性为 0.51。为了得出更可靠的测试集，我们只提取了那些一致性高的对。这产生了一组 30 个概念对（显示在表 1中），然后由三名医生和从注释原始 120 对的 13 名医学编码员中选出的 9 名医学编码员对其进行注释。这三位医师都是风湿病学领域的专家。他们都专攻同一医学子领域，这一事实有助于获得良好的评分者间一致性。每对术语都按 4 分量表注释：几乎同义（4.0）、相关（3.0）、边缘相关（2.0）和不相关（1.0）。我们在表 1中列出了术语对以及医师和专家给出的平均分数。术语对 20（以粗体显示）已从测试床中排除，因为在 SNOMED-CT ®术语中未找到术语"肺浸润"。因此，生成的测试集包含 29 对；但是，我们能够使用所有 30 对来计算评分者间一致性。医师之间的平均相关性为 0.68。医学编码员之间的平均相关性为 0.78。在对各组成员对测试集中每对的评分进行平均后，我们还计算了两组之间的相关性。组间相关性为 0.85。

6.2措施间的比较

我们使用每个度量对 29 个测试平台对中的每一个进行评分，然后计算度量的输出与表 1所示的人类专家判断分数之间的相关性。这些相关性显示在表 2中。当上下文向量度量仅从临床记录的 IP 部分得出时，其相关性最高。在与医生判断相关的情况下尤其如此。选择与上下文向量一起使用的语料库显然至关重要，因为当使用整个梅奥诊所临床记录语料库时，该度量所获得的相关性会大幅下降。事实上，基于所有临床记录的上下文向量度量的表现与林氏度量非常相似。

我们还注意到，上下文向量测量与医生的关联性远高于与医学编码员的关联性。对于所有其他测量，情况则相反。我们假设这是由于这两组人的专业培训和活动的性质所致------医学编码员接受过使用层次分类的培训，而医生接受过诊断和治疗患者的培训。从这一观察中可以得出一个可能的迹象，即临床记录中包含的数据可能比手工制作的医学本体（如 SNOMED-CT ® ）更好地反映医生头脑中医学概念之间的某些语义关系。无论如何，需要进行更多实验来检验这一假设。
三个信息内容指标处于中等水平，Lin 表现出相当高的相关性，可以作为医生和医学编码员。Jiang 和 Conrath 以及 Resnik 的表现都略低于 Lin，彼此的水平相同。这与在领域独立环境中对 Miller 和 Charles 测试集进行的直接评估形成了鲜明对比，Budanitsky 和 Hirst $8$ 以及 Patwardhan 等人 $10$ 都报告说，Jiang 和 Conrath 的相关性水平比 Lin 或 Resnik 高得多。
向量测量的总体成功表明，与本体无关的测量至少可以达到与基于本体的测量一样好甚至更好的效果。但是，正如上下文向量测量受到其来源语料库的强烈影响一样，信息内容测量也可能受到同样的影响。未来工作的一个重要途径是尝试使用临床记录的不同部分和不同类型的语料库来得出信息内容估计值。

6.3语料库的大小和类型对语境向量测量的影响

上下文向量测量是本文介绍的测量中最灵活的，因此需要做出一些明智的选择才能使其有效发挥作用。其中最关键的是用于导出向量的语料库的数量和类型。为了确定临床笔记中的章节类型是否对上下文向量测量的性能有影响，我们在使用 100K 字的临床笔记部分时对四种章节类型进行了实验。表 3显示了从这些不同章节中导出的上下文向量的相关性，按与医生的相关性排序。
表 3.从梅奥诊所临床笔记语料库的 100K 部分的不同部分得出的上下文向量度量的相关性
在由 IP 部分编译而成的语料库中，相关性最高，其次是 DX。这并不奇怪，因为 IP 部分包含与患者病情相关的诊断信息，直观上应该包含比其他部分更密切相关的术语。DX 部分是 IP 部分的摘要，因为它只包含诊断而没有其他描述。值得注意的是，每个子部分的性能都比从整个语料库表 4得出的上下文向量更好。
为了评估语料库规模对语境向量测量的影响，我们对梅奥诊所临床笔记语料库进行了语境向量测量实验，这些语料库的字数从 10 万到 100 万不等。在这些实验中，我们使用了临床笔记四个部分的数据------主诉 (CC)、现病史 (HPI)、印象/计划 (IP) 和最终诊断 (DX)。
表 3显示了临床笔记每个大小部分的单词数。单词 (token) 的数量是通过排除出现次数少于 5 次和超过 1000 次的所有单词得出的。矩阵大小表示在给定这些截止值的情况下找到的唯一单词的数量。例如，在临床笔记的 100,000 字部分中发现了 32,594 种不同的词类。上下文向量测量中使用的共现矩阵是对称的，这意味着为语料库中在指定频率范围内出现的每个单词创建一个词向量，并且当两个单词出现在同一行文本上时，它们被称为共现。
图 2显示了与 29 个术语对的测试集相关的测试结果。总体趋势表明，随着数据量的增加，上下文向量度量的相关性判断与人类专家的相关性判断之间的相关性会提高 ，其中 300K 大小似乎是增益趋于平稳的点。图 2分别显示了上下文向量度量与医生和医学编码员的分数的相关性，以及两组的平均综合分数。对数线显示了语料库大小的整体改进。
图 2.不同训练语料库大小的上下文向量测量与人类专家的相关性。趋势线以对数刻度拟合医生获得的结果。

7.限制

必须提及本研究的某些局限性，以便于解释结果。本研究的主要局限性在于，对于我们编译以创建测试集的 120 个术语对的初始集合，注释者之间的一致性相对较低。为了解决这一局限性，我们专注于我们项目的主要目标，即比较基于手动编译的本体知识源的几种既定相似性和相关性度量与一种独立于本体的方法。在这些比较中，我们认为从大多数注释者同意的 120 对中选取 30 对子集是合理的。因此，这个较小的集合更可靠，但显然偏向"简单"的术语对。本文报告的相关值不能以绝对值来解释；但是，可以使用简化的测试集来确定不同度量的相对性能。

8.结论和未来工作

在本文中，我们展示了将为领域无关英语开发的语义相似度和语义相关性度量应用于以 SNOMED-CT ®为代表的生物医学专业子领域的有效性。我们还展示了，只要有足够大的未标记训练数据语料库，本体无关的上下文向量度量至少与其他本体相关度量一样有效。这一发现很重要，因为开发 WordNet、SNOMED-CT ®或 UMLS ®等专业本体是一个非常耗费人力的过程。此外，有迹象表明，手动构建的本体可能无法完全反映执业医师心中语义关系的现实。基于向量的度量除了具有快速适应新领域的好处外，还可以帮助缓解这些问题。
在不久的将来，我们计划扩展关联性度量，使用 UMLS ®作为基于路径的度量的本体关系来源，并使用 UMLS 定义作为上下文向量度量。我们还想尝试将语义关联性度量应用于生物医学领域的 NLP 任务，例如词义辨别、信息检索和拼写纠正。

致谢

我们感谢 Mayo Clinic Medical Index 工作人员以及 Alexander Ruggieri 博士、Peter Kent 博士和 Auethavekiat Paranee 博士对测试对注释的贡献。Ted Pedersen 博士在这项工作中的作用部分得到了美国国家科学基金会教师早期职业发展奖 (#0092784) 的支持。这项工作还得到了 NLM 医学信息学培训补助金 (T15 LM07041-19) 和 NIH 路线图多学科临床研究职业发展奖补助金 (K12/NICHD)-HD49078 的支持。