初识知识图谱

大熊的饲养员2024-10-24 20:48

什么是知识图谱

知识图谱（Knowledge Graph）是2012年由谷歌正式提出。知识图谱最基本组成单元为三元组（头实体、关系、尾实体）即（s,r,o），它将知识表示为一个图结构形式。知识图谱可以被广泛应用于搜索引擎、智能问答、推荐系统等众多领域。知识图谱为每个实体和关系学习一个向量表示（向量化表示称为Embedding或"Distributed Vector Representation"）。

通过机器来理解文本中的知识有两大技术路线：第一种是抽取技术，例如：从文本中识别实体、关系和逻辑结构等；第二种是语言预训练，即通过大量的文本语料训练一个神经网络大模型，文本中的知识被隐含在参数化的向量模型中，并且向量化的表示和深度学习对机器来说是友好的。（个人认为第二种类似大模型的路线）

知识图谱的技术栈

涉及的技术：表示、存储、抽取、融合、推理、问答和分析等几个方面

知识图谱表示方法有属性图表示、RDF图模型、OWL本体表示、规则知识建模，其中前两个最为常用。

知识图谱存储是研究怎样利用已有的关系数据库存储知识图谱。图数据库具有微索引，这使得在遍历查询时更加方便，查询复杂度与数据集的整体大小无关，仅正比于相邻子图的大小。

知识图谱抽取涉及实体识别、关系抽取、事件抽取。

知识图谱融合包括实体对齐、本体映射、概念匹配。

知识图谱推理是知识图谱的核心技术和任务。目标是利用已有知识（已经存在的事实或关联关系）来推断未知的关系或事实。其方法可以分为基于符号逻辑推理和基于表示学习推理方法。传统的基于符号逻辑的方法优点是具有可解释性，缺点是不易于处理隐含和不确定的知识；基于表示学习的方法优点是推理效率高且能表征隐含知识，缺点是缺少可解释性。