知识图谱存在的挑战---基础知识库相关和开发工具相关

文章目录

- 基础知识库相关
- 开发工具相关

基础知识库相关

基础知识库是构建知识图谱的主要数据来源，包括维基百科、Freebase、YAGO、及国内的Zhishi.me、CN-Dbpedia、X-lore等。但在构建大规模知识图谱时将涉及不同基础知识库数据，而且在不同基础知识库的融合过程中会出现数据不一致、格式不统一、数据质量参差不齐等问题。应该如何对不同基础数据库的数据进行判断，如何建立判断标准，若涉及的相关基础数据库对该信息的描述都不完整，又该如何抉择？若同一个问题，不同基础数据库从不同维度进行描述，又该进行怎样选取，是选择其中认为较为认可的描述知识信息，还是整合两者描述信息？这些问题都是基础知识库融合将面临的问题。

目前基础知识库多集中在通用百科领域，缺乏垂直领域的知识库。虽然百科知识库会涉及部分垂直领域相关知识，但缺乏专业、成体系的描述，如专业性要求较高的医疗领域、司法领域等。如果想构建比较完整的知识图谱，需要丰富知识的广度和深度，则亟待各构建垂直领域的专业知识库，实现对现有百科知识库的补充和完善。而且，在垂直领域知识库构建过程中，会面临知识获取问题、知识库边界问题及专业知识的正确性验证问题。

目前个别企业或机构已建立了自有的领域知识库，由于投入了大量的人力和资金，导致不愿意对社会免费开放，进而形成了封闭域数据，影响了该领域知识的有效利用率。此外，该知识库知识的补充仅限于该机构本身，无法发挥众包的优势，不利于知识的丰富和发展。甚至可能由于该机构的资金、人力等原因，导致该知识库的停止使用和维护，这些因素都将影响垂直领域知识库构建的进程。

上述问题都将影响基础知识库的构建和开放利用，进而影响知识图谱的构建，如何去克服这些问题，打造在百科知识库的基础上建立各垂直领域知识库，形成开放的知识库生态，是知识库构建及知识图谱深远发展面临的重要挑战。

开发工具相关

随着业内构建知识图谱的需求增多，很多信息化厂商和大学开始通过抽象知识图谱构建过程，总结归纳图谱构建相关方法学，尝试搭建图谱构建工具。当前业内这类工具通常会覆盖从Schema构建到构建知识图谱及最后的图谱融合和实体对齐等功能，辅助业务人员构建知识图谱，减轻从业者对图谱业务知识的依赖。但由于知识图谱本身属于人工智能领域较为新兴的技术方向，使得该领域内目前市场上各类知识图谱开发工具的水平参差不齐。对于如何构建出完整、易用、高效的知识图谱构建工具还存在和诸多挑战。

而对于业内知识图谱技术有关的厂商还没有建设出来覆盖知识图谱全生命周期的平台类产品来支持知识图谱技术的发展与应用。目前实际构建知识图谱的过程中，对于多数知识图谱生命周期的流程，还处于基于非专业工具，甚至没有可利用的工具的阶段。由于功能模块的短板及专业工具的匮乏，使得贯穿知识图谱全生命周期的平台严重缺失，这不仅降低了知识图谱构建以及搭建应用的效率，也大大增加了由于工具的不专业性使得构建出的知识图谱中存在极大的风险。如何构建出可以贯穿知识图谱全生命周期的平台型产品成为业内非常重要的挑战。

随着人工智能技术的发展，目前行业大部分知识谱图相关的厂商声称自己利用机器学习技术在数据中自动抽取并构建知识图谱。但是对于特定垂直行业来说，由于需要非常缜密的知识逻辑结构及丰富的业务知识尚无法实现，通常会选择算法、工具、领域专家三者进行深度人机协同的方式来进行。由算法将知识从数据中进行抽取和剥离，并将这些知识通过工具进行可视化，并且可供使用者在工具上对知识进行编辑，最后由业务领域专家对已经抽取出来的知识进行二次编辑与业务知识摄入。而如何构建出提高知识编辑效率的工具，其既能深入融合算法与数据接口满足高效地抽取出精确知识的需求，又能为业务领域专家提供良好用户体验，对于构建此类工具的厂商而言，也是一个充满挑战的。

大多数实体关系的均蕴含在文本数据中，如何利用好这部分数据成为能否构建出高质量知识图谱的关键。虽然随着人工智能技术的发展，越来越多的算法可以从文本数据中抽取实体，并构建实体间对应的关系，但是通常这类计算需要人工对数据进行大量标注来支撑监督学习的模型构建。为了解决这类问题，最近衍生出远程监督学习的概念来利用Freebase等知识库已经标注好的知识来构建模型，但是对于大多数垂直领域，此类知识库目前还非常匮乏。而且中文领域目前没有类似的开源知识库供中文文本进行类似的计算与建模。如何让图谱构建工具更能利用中文文本数据中汲取知识来构建知识图谱是图谱构建工具的一大挑战。

由于语言语系种类的关系，在利用文本数据进行知识抽取时会存在不小的差异。从各语言知识储量来看，英文领域中已经存在的可用于知识图谱的数据相对较多，例如通用知识领域可Wiki、Freebase等。但是由于机器翻译的精度问题及手工实体对齐的工作量巨大，从语序上来看中文和英文通常是"主-谓-宾"的语序结构，而日文是"主-宾-谓"，这就让关系识别的计算方法在各语言间也不能通用。如何针对不同语言构建更适合的知识抽取算法集成到工具中，以及如何构建跨语言语系的知识图谱构建也急需建设。

在构建好知识图谱之后，如何基于知识图谱构建出符合业务需求的工具也是非常重要的过程。目前基于图谱的诸多应用，例如基于图谱的检索系统、KB-QA等应用的构建都需要很多的人工参与及查询语言规则的指定。如何整理出一个可以基于知识图谱构建应用的方法学，将之利用到一个平台类产品中，并能通过平台以低人工投入并能构建出高质量知识图谱相关应用，将成为知识图谱中间件的建设关键。