什么是知识图谱
知识图谱(Knowledge Graph)是2012年由谷歌正式提出。知识图谱最基本组成单元为三元组(头实体、关系、尾实体)即(s,r,o),它将知识表示为一个图结构形式。知识图谱可以被广泛应用于搜索引擎、智能问答、推荐系统等众多领域。知识图谱为每个实体和关系学习一个向量表示(向量化表示称为Embedding或"Distributed Vector Representation")。
通过机器来理解文本中的知识有两大技术路线:第一种是抽取技术,例如:从文本中识别实体、关系和逻辑结构等;第二种是语言预训练,即通过大量的文本语料训练一个神经网络大模型,文本中的知识被隐含在参数化的向量模型中,并且向量化的表示和深度学习对机器来说是友好的。(个人认为第二种类似大模型的路线)
知识图谱的技术栈
涉及的技术:表示、存储、抽取、融合、推理、问答和分析等几个方面
知识图谱表示方法有属性图表示、RDF图模型、OWL本体表示、规则知识建模,其中前两个最为常用。
知识图谱存储是研究怎样利用已有的关系数据库存储知识图谱。图数据库具有微索引,这使得在遍历查询时更加方便,查询复杂度与数据集的整体大小无关,仅正比于相邻子图的大小。
知识图谱抽取涉及实体识别、关系抽取、事件抽取。
知识图谱融合包括实体对齐、本体映射、概念匹配。
知识图谱推理是知识图谱的核心技术和任务。目标是利用已有知识(已经存在的事实或关联关系)来推断未知的关系或事实。其方法可以分为基于符号逻辑推理和基于表示学习推理方法。传统的基于符号逻辑的方法优点是具有可解释性,缺点是不易于处理隐含和不确定的知识;基于表示学习的方法优点是推理效率高且能表征隐含知识,缺点是缺少可解释性。