目录
一、背景
互联网是信息海洋,随着时间的推移而不断增长。这一事实导致数据的复杂性和数量增加。管理、解释数据并从数据中获取意义变得越来越具有挑战性。知识图谱 (KG) 提供了一种结构化的方法来连接数据并使其情境化,以应对这一挑战。它们是以图形格式表示实体及其关系的语义网络,侧重于不同数据片段之间的连接。
虽然"知识图谱"一词早在 1980 年代就出现了,但它是从语义网络、本体论、语义网和链接数据发展而来的。然而,它在 2012 年开始流行起来,当时谷歌宣布了其知识 图谱项目以改善搜索结果,随后包括亚马逊、Facebook 和 Microsoft 在内的其他公司进一步宣布了知识图谱。
从那时起,知识图谱在不同领域变得很重要,从搜索引擎和推荐系统到人工智能和数据分析。它们提供了对关系和上下文的更深入理解,从而使系统能够做出更明智的决策。
在本专栏中,我们将更详细地向您介绍知识图谱的基本概念、相关组件、构建方式以及不同的应用程序。
二、基本概念
**知识图谱是一种数据结构,将信息表示为实体网络及其关系。**它是一个有向的带有标记的图。
知识图谱具有三个关键组件: 前实体、边(关系)和尾实体。
知识图谱与其他数据结构(如传统数据库中的表)的不同之处在于它们能够处理实体之间复杂的互连关系。知识图谱通常存储在 Neo4j 和 ArangoDB 等 图形数据库中。
知识图谱以更加动态和互连的方式存储数据。下图显示了如何在表格和图形中表示数据。图形的好处之一是它提供架构灵活性,消除了预定义的 "table headers" 施加的限制。因此,图形可以演变而不会对数据存储造成任何中断。
三、核心特征
知识图谱是结构化数据集,旨在捕获实体及其关系之间的复杂互连。它们具有几个关键特性,使它们对不同的应用很有价值。
- 实体的相互关联的描述
- 形式语义和本体
- 能够集成来自多个来源的数据
- 可扩展性和灵活性
1、实体的相互关联的描述
知识图谱不仅存储孤立的事实。它们表示实体的相互关联的描述的集合。在知识图谱中,每个实体都表示为一个节点,例如人员,而边表示将一个实体绑定到另一个实体的语义链接。这些连接创建了一个信息网络,并提供了对实体之间的上下文和关系的更深入理解。
2、形式语义学和本体论
在知识图谱的上下文中,形式语义和本体是实现清晰解释和一致数据组织的重要组成部分。形式语义是指使用定义明确的规则来表示和推理信息,而知识图谱严重依赖它,这意味着它们使用预定义的结构(本体)来定义实体和关系的类型。
本体通常包括:
- 类定义知识图谱中的实体类型,例如"Person"、"Place"或"Event"。
- 属性描述实体的属性以及它们之间的关系。例如,"Person" 类可能具有 "Name"、"Age" 和 "Address" 等属性。
- **实例:**知识图谱中的实际数据点表示特定类。
知识图谱可以使用本体以一致和结构化的方式组织数据,使其更易于分析。
3、能够集成来自多个来源的数据
组合来自多个来源的数据可能很复杂。当我们将结构化数据(如数据库)、半结构化数据(如 XML 文件)和非结构化数据(如文本)整合在一起时,它可能会变得混乱。值得庆幸的是,知识图谱非常灵活,擅长将这些部分整合到一个清晰的图片中。这是因为它们可以以反映人类理解和认知的格式表示实体和关系。
例如,知识图谱可以将电影数据库(结构化数据)与来自多个网站的电影评论(非结构化数据)和来自不同来源的评级(半结构化数据)连接起来。这种集成可以对每部电影进行更全面的分析和洞察,包括其演员、导演、类型、评级和人们的意见。
4、可扩展性和灵活性
知识图谱具有可扩展性和灵活性。它们旨在通过随着数据集的增长有效地管理更多实体、关系和查询来应对增长。
可扩展性可以通过两种主要方式实现:
**(1)垂直可扩展性:**这涉及增加单个系统的容量,例如添加更多内存。我们可以升级存储图形的数据库系统,以处理更多数据和复杂查询。
**(2)水平可扩展性:**这涉及在多个系统之间分发数据。知识图谱可以拆分到不同的机器上,每台机器处理图谱的一部分。
由于其基于图的性质,知识图谱可以轻松扩展以处理大量数据,从而轻松集成和修改数据。
四、生命周期
1、知识建模
2、知识获取
3、知识融合
4、知识存储
常见的图数据存储:
5、知识计算