Liz Amos, David Anderson, Stacy Brody,
问题
- 直接用户使用情况:探究统一医学语言系统(UMLS)直接用户的增长、现状、使用目的、分布情况以及对 UMLS 的改进建议。
- 研究用途:通过文献综述深入了解 UMLS 在研究中的应用情况,包括使用的产品、处理的语料库以及具体用途。
- 与预期对比:分析 UMLS 当前的使用情况与最初期望的符合程度,以及其在应对生物医学信息多样性方面的价值。
挑战
- 数据增长与复杂性:随着时间推移,UMLS 使用数据量大幅增加,如从 2004 年到 2018 年,调查回复表示使用 UMLS 的用户数量从 1427 增长到 5043,同时 API 请求和下载量也显著变化,这给数据的整理和分析带来挑战。
- 用户需求多样性:UMLS 用户来自不同学科、具有不同技术专长和兴趣,其对 UMLS 改进的建议多样,例如在 2018 年调查中,多数用户希望有更多用例示例、培训和更简单的资源,但具体需求差异大,难以统一满足。
- 术语覆盖与理解:尽管 UMLS 包含众多术语,但用户仍提出添加已有或未有的术语和代码系统,可能由于对 UMLS 覆盖范围不熟悉、对新添加信息关注不足等原因,同时用户对 UMLS 知识产权限制理解存在困难。
创新点
- 综合分析方法:通过整合 UMLS 用户注册数据、年度报告和下载及 API 调用统计数据,全面分析直接用户使用情况,并结合文献综述深入研究其在研究中的应用,提供了对 UMLS 使用的多维度视角。
- 揭示使用转变:清晰地展现了从 2004 年到 2018 年 UMLS 使用从侧重于术语研究向解决文本解释、临床术语应用、数据分析和应用开发等多方面问题的转变,体现了其适应时代需求的发展。
- 资源价值体现:强调 UMLS 资源尤其是 Metathesaurus 在统一术语模型、节省获取多术语成本、促进语义理解和信息检索等方面的独特价值,突出其在处理生物医学信息多样性中的关键作用。
贡献
- 数据收集与整合:收集和整合了 UMLS 直接使用的多源数据,包括用户注册、年度报告、下载和 API 调用统计,形成了对用户和使用情况的全面画像。
- 文献综述研究:进行了 2005 年至 2019 年春季相关文献的范围审查,深入分析 UMLS 在研究中的应用,为 UMLS 的研究用途提供了更多见解。
- 结果对比分析:对比年度调查和文献综述结果,确认 UMLS 主要用于处理文本和术语映射,与项目初衷一致,验证了 UMLS 资源的价值和意义。
提出的方法
- 年度调查、用户注册数据和使用统计结合:NLM 要求 UMLS Metathesaurus 许可证持有者提交年度报告,将报告数据与用户注册数据和内部日志文件相结合,以获取 UMLS 用户和使用情况的全面信息。
- 文献综述方法:在 PubMed、Web of Science 和 Scopus 中广泛搜索 [Unified Medical Language System],并检索引用关键 UMLS 文章的文献,经过去重、筛选和审查,提取关于 UMLS 产品使用、研究语料库和使用方式的信息。
指标
- 用户数量:通过年度调查回复表示使用 UMLS 的用户数量衡量,如 2004 年为 1427,2018 年为 5043。
- 下载量:记录每年 UMLS 资源的下载次数,如 2013 年为 2020 次,2018 年为 4402 次。
- API 请求量:统计每年 UMLS 应用编程接口的请求数量,以百万为单位,如 2013 年为 15.0 百万次,2018 年为 66.1 百万次。
模型结构(文中未提及特定模型结构相关内容,UMLS 主要是一个术语系统资源,不涉及传统意义上的模型结构)
结论
- 使用现状:UMLS 资源被研究人员和系统开发者广泛使用,其使用方式与最初预期相符,主要用于促进不同计算机系统中生物医学意义的解释,服务于科学家、健康专业人员和公众。
- 资源价值:UMLS 资源,特别是 Metathesaurus,在统一术语表示、减少建模工作量、提供广泛术语访问和促进语义理解与信息检索方面具有重要价值。
- 改进方向:对 UMLS 结构和生产方法进行改进,如更高效确定同义词、分配语义类型和整合术语更新,将使大多数用户受益。
剩余挑战和未来工作
- 应对多样化需求:继续满足 UMLS 用户多样化的需求,包括提供更多培训材料、简化资源复杂度、优化文档和查询功能,以帮助用户更好地理解和使用 UMLS 资源。
- 术语管理优化:解决用户对术语覆盖范围的误解,改进术语添加和更新机制,确保 UMLS 能够及时准确地反映生物医学领域的最新术语和概念。
- 国际应用拓展:考虑到研究使用的地理分布更广泛,进一步提高 UMLS 在国际上的适用性,如改善非英语术语的覆盖和支持,促进其在全球范围内的应用。
数据集
- 用户数据:包括 UMLS 用户注册数据、年度报告数据,涵盖用户身份(如研究者、开发者等)、所属机构(学术、盈利、非营利、政府等)、地域分布(多数在美国)等信息。
- 使用统计数据:涉及 UMLS 资源的下载统计、应用编程接口(API)请求统计,反映了不同年份 UMLS 资源的使用频率和趋势。
- 文献数据:通过在 PubMed、Web of Science 和 Scopus 中搜索获取的 2005 年至 2019 年春季发表的与 UMLS 相关的文献,包括研究论文、综述等,用于分析 UMLS 在研究中的应用情况。
UMLS的使用现状:
UMLS 的使用现状呈现出多方面的特点,包括用户数量、使用目的、地理分布以及资源使用情况等。
- 用户数量与增长趋势
- 从 2004 年到 2018 年,UMLS 的直接用户数量呈现显著增长趋势。2004 年,在年度调查中表示使用 UMLS 的用户为 1427 人,到 2018 年,这一数字增长至 5043 人。尽管在 2018 年整体使用量(包括下载量和 API 请求量)相比 2017 年略有下降,但在之前的 2013 - 2017 年期间经历了显著增长。例如,2013 年下载量为 2020 次,2017 年增长至 4898 次,2018 年回落到 4402 次;API 请求量在 2013 年为 15.0 百万次,2017 年达到 68.4 百万次,2018 年为 66.1 百万次123。
- 用户身份与所属机构
- 用户主要自认为是研究者(42%)、软件开发者(28%)、管理员 / 经理(20%)、医疗服务提供者(7%)、教育者(5%)、分析师(5%)和学生(3%)。所属机构方面,最常见的是学术机构(32%)、营利性实体(23%)、非营利性实体(16%)和政府(7%)。在地域分布上,大多数用户(77%)居住在美国,2018 年代表 1339 个不同组织下载了 UMLS 资源,其中 49% 的组织为营利性4。
- 使用目的
- 文本处理与知识提取:51% 的用户使用 UMLS 进行文本处理以提取概念、关系或知识,这在研究和生产应用中均有涉及。研究用途包括处理科学文献、临床笔记、药物信息和社交媒体等,目的是改善信息检索、发现新知识、测试假设和评估文本处理方法;生产应用中用于映射本地术语到标准术语、注释记录以提升信息检索、处理文本实现自动化临床编码、改进临床文档以及解释患者问题510。
- 术语映射与链接:49% 的用户利用 UMLS 促进术语之间的映射,这一比例较 2004 年(35%)有所增加。映射目的多样,常见的是将本地术语映射到标准术语以满足报告和健康信息交换需求,以及将 SNOMED CT 映射到 ICD - 10 - CM 用于报销和统计目的511。
- 其他用途:如从 Metathesaurus 中提取特定术语(29%)、开发信息检索系统(19%)、创建和维护本地术语(19%)、研究术语和本体(18%)、支持术语服务器或服务(7%)等。在 "其他" 类别中,最频繁的自由文本回复涉及教育、电子健康记录(EHRs)和质量措施67。
- 资源使用情况
- UMLS 产品使用偏好:在 UMLS 资源中,Metathesaurus 和 MetaMap 是最常被使用的产品。75% 的研究文章表明使用了 Metathesaurus,MetaMap 用于从文本中识别 Metathesaurus 中的概念。一些未直接报告使用 Semantic Network 的作者在研究或应用中依赖于分配给 Metathesaurus 概念的语义类型,部分未声明使用 UMLS 本身的受访者表示使用了依赖于它的产品,如 MetaMap812。
- 处理语料库类型:在使用 UMLS 的研究中,最常见的处理语料库是科学文献(如 PubMed/MEDLINE 引用和摘要、全文文章、书籍章节等)和 EHR 数据(医疗记录、医生笔记),其他还包括来自 NCBI 基因和蛋白质数据库的数据、消费者问题和网站、用户生成数据、社交媒体以及 ClinicalTrials.gov 和临床实践指南等9。
抽象的
美国国家医学图书馆定期收集统一医学语言系统 (UMLS) 资源直接使用的汇总数据。汇总数据来源包括 UMLS 用户注册数据 、注册用户提交的必需年度报告以及下载和应用程序编程接口调用的统计数据 。2019 年,美国国家医学图书馆分析了 2018 年 UMLS 使用情况的汇总数据。该图书馆还对文献进行了范围界定审查,以提供有关 UMLS 研究用途的更多情报,作为计划于 2020 年进行的 UMLS 生产方法和优先级审查的输入。2018 年,5043 名 UMLS 数据和工具的直接用户下载了 4402 份 UMLS 资源,并发出了 66 130 951 个 UMLS 应用程序编程接口请求。年度报告和范围界定审查结果一致,UMLS 的主要用途是处理和解释文本并促进术语之间的映射或链接。这些用途与 UMLS 最初声明的目的一致。
介绍
这一观点概述了统一医学语言系统 (UMLS) 1 的直接 用户和用途的增长和当前规模,并评论了这些如何与美国国家医学图书馆 (NLM) 在 1990 年发布第一个实验版 UMLS 知识源(元同义词库和语义网络)时的希望和期望保持一致。2--4自那时起,至少每年发布一次 UMLS 资源的扩展和更新版本。SPECIALIST 词典和词汇工具于 1994 年首次成为 UMLS 发布的一部分。正如预期的那样,成千上万的直接 UMLS 用户主要是信息学研究人员和数据库和软件开发人员。他们中的一些人使用 UMLS 来构建或增强电子资源和应用程序(例如,PubMed、ClinicalTrials.gov、临床数据仓库、电子健康记录 (EHR) 系统的组件、自然语言处理管道、测试集合),这些资源和应用程序总共被全球数百万人使用。间接使用 UMLS 资源的数量和影响可能是巨大的,但实际上是无法估量的。
NLM 定期审查直接使用 UMLS 的汇总数据以及提交给 NLM 客户服务的少数 UMLS 改进具体建议,这些建议旨在为有关 UMLS 内容、制作和分发更改的决策提供信息。汇总数据来源包括:UMLS 用户注册数据、注册用户提交的必需年度报告以及下载和应用程序编程接口 (API) 调用的统计数据。NLM 还会不时特别征求重度 UMLS 用户的反馈,以帮助设定 UMLS 开发和客户服务改进的多年优先事项。来自所有这些来源的输入影响了许多 UMLS 增强功能,例如,向 UMLS 元词库添加词汇表、改进 API 和下载功能以及扩展文档和培训材料。
2019 年,为了准备 2020 年计划举行的指导 UMLS 发展重点的研讨会,我们分析了 2018 年的 UMLS 使用数据摘要,并对文献进行了范围审查,以提供有关 UMLS 研究用途的更多情报。
材料与方法
年度调查、用户注册数据和使用情况统计
NLM 要求 UMLS Metathesaurus 许可证持有者提供年度用户报告。许可证持有者包括 UMLS、SNOMED CT、RxNorm、Value Set Authority Center 和其他 NLM 术语产品的用户以及出于探索目的而执行许可证的人员。未能提交年度报告将自动取消许可证,从而无法访问受许可证约束的新版本的 NLM 术语产品。NLM 每年 1 月通过电子邮件向用户索取报告。2019 年 1 月 11 日,25,326 名许可证持有者被要求完成 2018 年年度报告。其中,12,503 份提交了回复,**5,043 份使用 UMLS 进行了报告。**我们将这些受访者的年度报告数据(以下称为年度调查)与用户注册数据和内部日志文件结合起来,以全面了解 UMLS 用户和用途。
文献综述
2019 年,NLM 工作人员对 2005 年至 2019 年春季发表的文献进行了范围审查和评估,以进一步了解当前 UMLS 研究的用途和应用,为 UMLS 生产的未来发展提供参考。本次审查重点关注使用 UMLS 及其产品(例如 MetaMap,一种用于识别文本中 UMLS 概念的工具)的原创研究文章。搜索策略分为两部分:(1)在 PubMed、Web of Science 和 Scopus 中广泛搜索 [统一医学语言系统](补充材料1)和(2)检索引用有关 UMLS 的关键文章(参见5 )的文章(补充材料2)。删除重复项后,剩下 3510 篇文章。三位合著者 (SB、LA、AR) 独立筛选了 3510 篇文章中随机 10% 样本 (n = 348) 的标题、摘要、材料/方法部分,以确定使用 UMLS 或相关产品作为方法工具的英文论文。
讨论 UMLS 但未报告实际使用 UMLS(或相关产品)的研究论文被排除在外。出版类型为观点、致编辑的信和书籍章节的文章也被排除在外。剩下的 110 篇文章被分成几对合著者(SB/LA 和 AR/BH),并进行独立审查,以提取有关所使用的 UMLS 产品、进行研究的语料库或测试的方法/工具以及如何使用 UMLS 产品的信息。计算出 2 对合著者的 Kappa 评分者信度为 0.6792。EndNote X9 6用于引文管理。Colandr 7是一种用于进行协作审查的开源工具,用于筛选和数据提取。
结果
年度调查、用户注册数据和使用情况统计
2004 年,NLM 开始要求用户填写年度调查问卷,以保留其 UMLS 帐户。8表示使用 UMLS 的调查受访者数量从 2004 年的 1427 人增加到 2018 年的 5043 人(见表1)。此数字代表从 1 年到下一年保持对 UMLS 访问权限的用户。从下载量、API 请求和调查回复来看,UMLS 的总体使用量从 2013 年到 2017 年显着增加。2018 年的使用量略有下降。
根据注册数据,2018 年 UMLS 用户 (n = 5043) 自我认定为研究人员 (42%)、软件开发人员 (28%)、管理员/经理 (20%)、医疗保健提供者 (7%)、教育工作者 (5%)、分析师 (5%) 和学生 (3%)。UMLS 用户最常见的隶属关系是学术机构 (32%)、营利性实体 (23%)、非营利性实体 (16%) 和政府 (7%)。2018 年,代表 1339 个不同组织的用户下载了 UMLS 发布文件。根据对电子邮件域的分析,其中 49% 的组织是营利性的。大多数受访者居住在美国 (77%)。
大多数用户报告称他们在自己的研究中使用 UMLS 产品,但 18% 的受访者报告称他们"向使用 UMLS 的外部用户提供了应用程序、工具或系统"。这些用户提供了其应用程序的自由文本描述。答案揭示了研究人员、医疗保健行业和普通公众使用的多种实现方式。
在年度调查中,用户指出了他们使用 UMLS 的目的(见表2)。无论是在研究环境还是在应用程序开发中,用户主要利用 UMLS 来识别文本中的含义、在术语之间建立联系以及改进信息检索。
"其他"类别中最常见的自由文本回复涉及教育(教学或学习)、EHR 和质量衡量。
NLM 和其他公司已经开发出利用 UMLS 识别临床文本、生物医学摘要或其他语料库含义的工具。今年使用的术语产品列表中选择了 UMLS 的受访者中,有 14% (733) 也选择了 NLM 的 MetaMap。9在声明为 UMLS 的用户的自由文本回复中,其他四种工具被提及 10 次或更多次:Apache cTAKES 10 164 次、CLAMP 11 18 次、QuickUMLS 12 17 次和 SemRep 13 16 次。
年度调查包括几个开放式问题,询问用户建议对 UMLS 的各个方面进行哪些改进,包括 UMLS 元同义词库中术语和代码系统的覆盖范围、UMLS 术语服务 API 和下载、文件格式、安装、站点导航、客户支持、用例示例、培训、文档以及 UMLS 用户希望提出的任何其他改进。大多数这些问题仅收到了百分之几的 UMLS 用户的回复,并且许多回复中没有包括改进建议(例如,N/A、无、没有、不确定、不知道、OK)。实质性回复差异很大(例如,一些人认为文档难以使用或不充分,而另一些人则认为非常出色)。但是,关于用例示例、培训和文档,大多数受访者要求"更多",其中许多人表示他们希望 UMLS 资源更简单。
2018 年,关于 UMLS 增强功能的最常见问题是"您希望在 UMLS 中添加哪些术语或代码系统?" 18% 的受访者(924)给出了答复,但其中 49% 的人没有建议添加。在大多数情况下,他们的回答意味着对当前的覆盖范围感到满意。一些受访者直接说明了这一点(例如,"我对现有的内容很满意 - 很棒的服务!")。多次建议的大多数特定术语和代码系统已经在 UMLS 元同义词库中了。最常提到的不在 UMLS 中的系统是:RadLex 14(15 次提及)、国际疾病分类第 11 修订版(ICD-11)15(15 次提及)和国际肿瘤疾病分类第 3 版(ICD-O-3)16(14 次提及)。
文献综述
对于 3510 篇文章中的随机 10% 样本(n = 348),按第一作者划分的地理分布为:北美洲(53%),包括美国 173 篇、加拿大 9 篇;欧洲(25%);亚洲和澳大利亚(20%);中美洲和南美洲(1%)以及非洲(1%)。
对 348 110 篇采用 UMLS 或相关产品作为方法工具的英语研究文章进行了进一步分析:所使用的 UMLS 产品、进行研究的语料库或测试的方法/工具,以及如何使用 UMLS 产品。
UMLS 产品
75% 的文章表示使用了 Metathesaurus,但实际使用率可能更接近 100%。第二常用的 UMLS 产品是 MetaMap,它可以识别文本中 Metathesaurus 中的概念(见图1)。
语料库
使用 UMLS 进行研究时处理的最常见语料库(见图2)是科学文献(以 PubMed/MEDLINE 引文和摘要、全文文章、书籍章节等为代表)和 EHR 数据(医疗记录、医生笔记)。其他语料库包括:来自 NCBI 基因(GEO)和蛋白质(Uniprot)数据库的数据;消费者问题和面向消费者的网站、用户生成的数据(患者论坛);推文/Twitter 和其他(例如 ClinicalTrials.gov、临床实践指南)。
UMLS 在研究中的应用
110 篇文章中超过一半被标记为超过 1 个 UMLS 使用类别(见图3)。大多数(78%)文章描述使用 UMLS 产品来处理文本或促进生物医学概念的映射或链接。这些文章通常描述处理单词和短语的 NLP 管道,然后"分配 UMLS CUI"或使用 UMLS CUI 创建索引。例如,Nawab 等人18使用 UMLS 进行查询扩展以检测 MEDLINE 中的抄袭:"使用 MetaMap 将输入术语映射到 UMLS CUI。然后查阅 UMLS Metathesaurus MRCONSO 表来识别每个 CUI 的同义词,并将这些用于查询扩展。"Nawab 使用 UMLS 的基于信息检索的方法在抄袭检测检索任务中优于 Kullback-Leibler 距离方法。
讨论
数以百万计的科学家、卫生专业人员和消费者通过在一定程度上依赖 UMLS 的应用程序(例如 PubMed)间接使用 UMLS。本文的主题是直接使用 UMLS 资源,但规模要小得多,但仍然相当可观。经过几年的快速增长,直接 UMLS 用户数量(以表明使用 UMLS 的调查回复衡量)、下载量和 API 请求在 2018 年略有下降。这种模式似乎适用于用户和下载量,但不适用于更不稳定的 API 请求,后者在 2019 年急剧上升。
过去十年中 UMLS 使用的显著增加可能反映了广泛的环境因素,包括 SNOMED CT、LOINC 和 RxNorm 在 2011 年被指定为美国临床数据的国家标准,计算和通信领域的普遍发展简化了"大"UMLS 数据的使用,以及对自然语言处理和数据挖掘的研究和开发日益重视。促进 UMLS 在研究和应用中使用的可用工具数量也有所增加。
UMLS 的大多数直接用户都是居住在美国的研究人员或软件开发人员。美国用户的比例(77%)自 2004 年以来一直保持稳定,尽管用户数量增加了 250% 以上。相比之下,我们在范围审查中随机抽取的研究文章中近一半的第一作者居住在其他国家,这表明研究使用的地理分布更为广泛。UMLS 元词库目前包括 25 种不同口语中的概念名称,但覆盖范围稀疏且不均衡,这取决于用于构建元词库的英语术语和代码集的电子版翻译的可用性。
根据用户调查和范围审查的结果,使用最频繁的 UMLS 资源是 Metathesaurus 和 MetaMap 。这些产品的用户至少也是语义网络、SPECIALIST 词典和词汇工具的间接用户,这些资源用于构建 Metathesaurus 和 MetaMap 功能。一些没有报告使用语义网络本身的作者在其研究或应用中严重依赖分配给 Metathesaurus 概念的语义类型。一些没有声明使用 UMLS 本身的调查受访者报告说,他们使用依赖于它的产品,例如 MetaMap。
2004 年至 2018 年的使用变化
与 2004 年8 (NLM 使用年度基于 Web 的调查的第一年)相比,UMLS 的使用重点已从术语研究(2004 年 53% 的用户 vs 2018 年 18% 的用户)转向解决与文本解释、现在强制使用的临床术语和代码系统的使用、EHR 和管理数据的大规模分析以及为研究人员、医疗保健提供者和消费者开发应用程序相关的具体研究和实施问题。术语研究中 UMLS 使用量的下降可能反映了导致 UMLS 整体使用量增加的更广泛的环境因素。
在 2018 年的调查中,51% 的 UMLS 用户表示他们使用 UMLS 来"处理文本以提取概念、关系或知识"。2004 年,821 % 的用户表示使用 UMLS 进行"自然语言处理"。 (调查中的类别随着时间的推移而发生了变化。)文本处理既用于研究环境,也用于生产应用。研究用途包括:处理科学文献、18、19临床记录、20、21药物信息、22、23和社交媒体。24、25使用UMLS进行文本处理通常是为了改进信息检索、发现新知识、检验假设和评估文本处理方法以提高性能。在生产应用中,UMLS 用于将本地术语映射到标准术语、用标准术语注释记录以改进信息检索、处理文本以进行自动临床编码、改进临床文档以及解释患者问题。
在 2018 年的调查中,49% 的 UMLS 用户表示使用 UMLS 来"促进术语之间的映射",这一比例高于 2004 年调查中的 35%。尽管临床术语领域的标准化程度正在提高,但映射仍然是必要的。虽然通过 UMLS 同义词和层次结构进行映射不能完全满足大多数用例,但它为从一个词汇表中的代码到另一个词汇表中的代码的交叉提供了关键的起点。用户报告映射的目的多种多样,但一个常见的用例是从本地术语映射到标准术语,以满足所需的报告和健康信息交换。另一个常见的用例是从 SNOMED CT 映射到 ICD-10-CM 以用于报销和统计目的。NLM 为此目的制作了 SNOMED CT 到 ICD-10-CM 映射。26
UMLS 增强建议
2018 年调查的受访者遵循了之前 UMLS 调查结果中的模式,他们提供的改进建议相对较少,但非常多样化。这些回复反映了 UMLS 用户群体中广泛的学科、技术专长和兴趣,以及偏好的分发格式的差异。收到的许多回复都表明,他们希望减少复杂性并增加培训材料。
与之前的调查一样,建议添加 UMLS 元词库中已有的术语和代码系统比建议添加尚未存在的系统更多。造成这种现象的可能原因包括:使用启用 UMLS 的产品,这些产品不包括元词库中的所有来源、新用户不熟悉 UMLS、没有注意到随 UMLS 版本分发的"新添加来源"信息,以及需要更简单的文档和查找功能来发现 UMLS 覆盖范围。一些受访者也极有可能建议更频繁地更新 UMLS 中包含的来源或将其免费提供,而不是将其添加到元词库中。
文献综述结果与调查结果的关系
文献范围审查的结果证实了 2018 年年度调查数据所传达的信息:最常用的 UMLS 产品(Metathesaurus、Metamap)用于处理文本并促进术语之间的映射或链接。科学文献和 EHR 数据是应用 UMLS 产品的最常见语料库。UMLS 的这些主要当前用途与 UMLS 项目开始时所述的目的直接一致:使计算机能够表现得好像它们"理解"生物医学含义一样,2以及 1998 年对其的进一步阐述:"虽然这个术语比项目更新,但本质上 UMLS 努力的目标是构建'中间件',从而在许多不同的健康信息系统中实现高级功能。" 3
当前用途和最初的期望
在影响生物医学和健康信息访问和使用的许多方面,当今世界与 UMLS 诞生前的网络环境截然不同。尽管如此,UMLS 项目所依据的关键假设已被证明是正确的:"......有用的生物医学信息的数量将继续增加,并分散在许多数据库和系统中......数据库中和用户使用的术语的许多差异反映了目的和观点的重要区别......尽管目前为标准化特定类型的生物医学信息的记录结构、传输格式和术语所做的努力......可能会降低 UMLS 任务的复杂性,但不会消除它。" 2
免费提供且定期维护的 UMLS 资源继续为研究人员和开发人员提供价值,帮助他们应对这种多样性。至关重要的是,UMLS 元词库以通用且明确标记的模型呈现其所有源术语的名称、概念信息、层次结构、关系和属性。当项目需要使用具有不同模型和格式的多个术语时,这大大减少或消除了对单个术语进行耗时的建模的需要。UMLS 模型的核心是概念导向或将同义词分组为 UMLS 概念、非语义概念标识符以及为所有这些概念分配语义类型。UMLS 元词库是第一个按概念组织的生物医学术语资源,它的开发对后续的医学信息学理论和实践产生了重大影响。27 UMLS中广泛的术语覆盖范围、同义词和语义类型与其词汇工具相结合,使其主要用例成为可能:识别文本中的含义、词汇之间的映射以及改进信息检索。
此外,使用 UMLS 元词库可以节省时间和精力,以便获取用于评估、比较和研究的不同术语。年度调查答案和客户服务查询告诉我们,用户并不总是了解知识产权限制的所有细微差别,但 UMLS 元词库许可证有效地使人们能够获取广泛的生物医学术语以用于研究和评估目的,而无需解开与这些术语相关的各种限制。这可以大大简化确定哪些术语在其原始格式中也可能需要的过程------对于数据创建中使用的任何词汇来说通常都是这种情况。
结论
在 UMLS 知识源首次试验性发布 30 年后,UMLS 资源被研究人员和系统开发人员广泛使用。它们的主要用途是:帮助解释许多不同计算机系统中不同电子信息和数据的生物医学含义,这些计算机系统为科学家、卫生专业人员和公众服务。因此,对 UMLS 结构和生产方法的增强,使同义词确定、语义类型的分配和术语更新的整合更加高效和有效,可能会使大多数 UMLS 用户受益。
资金
这项研究得到了美国国立卫生研究院、美国国家医学图书馆内部研究项目的支持,部分资金来自由美国国家医学图书馆赞助、橡树岭科学与教育研究所管理的 NLM 副研究员奖学金计划。
作者贡献
LA 构思了整个项目的想法;DA 负责 UMLS 调查数据的提取/分析和撰写;SB 负责文献综述方法;SB、LA、AR、BH 负责文献综述分析;SB 负责文献综述数据的提取/分析撰写;LA、AR、DA 在 BH 的指导下整理了手稿。LA 和 BH 负责最后的编辑。所有作者都审阅、编辑并签署了手稿。
补充材料
补充材料可在美国医学信息学协会杂志在线版上查阅。
致谢
感谢 NLM 的 Jim Mork 和 Olivier Bodenreider 慷慨地阅读了草稿并提供了评论。Stacy Brody 在这项工作期间与 NLM/NIH 合作,目前在乔治华盛顿大学 Himmelfarb 健康科学图书馆工作。