带你从入门到精通——知识图谱(一. 知识图谱入门)

目录

[一. 知识图谱入门](#一. 知识图谱入门)

[1.1 知识图谱概述](#1.1 知识图谱概述)

[1.2 分层架构](#1.2 分层架构)

[1.2.1 数据层](#1.2.1 数据层)

[1.2.2 模式层](#1.2.2 模式层)

[1.3 技术架构](#1.3 技术架构)


一. 知识图谱入门

1.1 知识图谱概述

知识图谱(Knowledge Graph)一种基于图数据结构的关系网络或数据库,于2012年正式被Google提出,在知识图谱中,节点可以表示概念(抽象出来的事物,也称本体)、实体(具体的事物)、属性值,边可以表示事物的关系(事物的内外部联系)或属性(事物的内部特征),由于图可以分为有向图和无向图,因此知识图谱也可以是有向或无向的。

与传统的关系型数据库,如MySQL相比,知识图谱能够通过节点和边的关系更便捷地处理复杂的多跳关系、并且在数据层添加新的节点和边不会影响已有的数据,有着更强的可扩展性,此外知识图谱还支持语义推理。

1.2 分层架构

知识图谱的分层架构通常包括两个主要层:数据层(data layer)模式层(schema layer)

1.2.1 数据层

数据层是知识图谱的基础 ,用于存储知识图谱的具体数据,类似于关系型数据库的数据表中的具体数据,在数据层中通常使用**资源描述框架(Resource Description Framework,RDF)**来存储实体、实体的属性以及实体之间的关系。

RDF使用三元组来存储数据,例如:(实体,关系,实体)、(实体,属性,属性值),这样的一个三元组即为一个知识。

在数据层中,节点表示实体或属性值,边表示关系或属性 ,并且数据层是动态的,可以不断扩展和更新。

1.2.2 模式层

模式层知识图谱的逻辑框架 ,用于定义知识图谱的结构和规则,类似于关系型数据库中的表结构(表结构包括表的字段、字段的数据类型及其键约束),在模式层中通过**本体(即实体的抽象化概念)**来​定义知识的结构和规则,对数据层进行约束。

在模式层中,节点表示本体(包含了属性约束,用于约束数据层中的实体与其属性),边表示本体间的关系 ,模式层是静态的,设计时需根据业务需求定义。

1.3 技术架构

知识图谱的整体技术框架图如下:

数据获取 :用于构建知识图谱的数据可以分为三种:结构化数据、半结构化数据以及非结构化数据 ,其中结构化数据是指以二维表格存储的数据(如CSV文件、TSV文件);半结构化数据具有一定的结构性的数据(如以键值对存储的JSON文件、带有标签的XML文件);非结构化数据是指没有明确结构的数据(如txt纯文本文件)。

信息抽取 :信息抽取是指从异构数据(指不同格式、不同结构或是不同来源的数据)中抽取可用的候选知识单元,对于结构化数据只需要进行简单的预处理即可使用,但是对于半结构化数据和非结构化数据一般需要进行实体抽取、关系抽取以及属性抽取等步骤才能提炼出可以使用的结构化信息。

注意:对于属性抽取可以转换为实体和属性值之间的关系抽取。

知识融合 :知识融合是指将多源异构的候选知识单元统一整合到一个一致的知识体系中,知识融合的过程需要解决指代消解、实体消歧等问题。

知识加工:知识加工是指对完成知识融合后得到的知识体系或是由知识推理得到的新的候选知识单元进行进一步加工和质量评估并形成知识图谱的过程。

相关推荐
八位数花园2 小时前
PyTorch-CUDA镜像支持Knowledge Graph Embedding吗?
pytorch·cuda·知识图谱嵌入
视觉震撼2 小时前
逐步指南:为大模型构建自动化知识图谱
运维·自动化·知识图谱
用什么都重名2 小时前
Conda 虚拟环境安装配置路径详解
windows·python·conda
阿也在北京2 小时前
基于Neo4j和TuGraph的知识图谱与问答系统搭建——胡歌的导演演员人际圈
python·阿里云·知识图谱·neo4j
计算机徐师兄2 小时前
Python基于知识图谱的胆囊炎医疗问答系统(附源码,文档说明)
python·知识图谱·胆囊炎医疗问答系统·python胆囊炎医疗问答系统·知识图谱的胆囊炎医疗问答系统·python知识图谱·医疗问答系统
北冥码鲲2 小时前
【保姆级教程】从零入手:Python + Neo4j 构建你的第一个知识图谱
python·知识图谱·neo4j
沛沛老爹2 小时前
从Web到AI:行业专属Agent Skills生态系统技术演进实战
java·开发语言·前端·vue.js·人工智能·rag·企业转型
B站计算机毕业设计超人2 小时前
计算机毕业设计Python+大模型音乐推荐系统 音乐数据分析 音乐可视化 音乐爬虫 知识图谱 大数据毕业设计
人工智能·hadoop·爬虫·python·数据分析·知识图谱·课程设计
喵手2 小时前
Python爬虫零基础入门【第三章:Requests 静态爬取入门·第5节】限速与礼貌爬取:并发、延迟、频率控制!
爬虫·python·python爬虫实战·python爬虫工程化实战·python爬虫零基础入门·requests静态爬取·限速与爬取