一:概念
1.知识图谱:
对知识整理,得到我们需要的正确的信息.
图谱(graph):由节点和边组成,节点是实体,边是关系
2.实现知识图谱的方式:
对数据提取处理后得到信息,构造图谱存储到数据库(neo4j数据库).
3.知识图谱的应用场景:
3.1搜索引擎:
3.2问答系统:
在项目中我们使用知识图谱查询和实体相关的信息:
疾病相关的药物,饮食,运动等信息
3.3推荐系统:
先把用户的爱好构建图谱,然后把爱好向量化,通过计算相似度来判断那些用户相似,然后把各自的商品相互推荐
3.4数据挖掘
发掘实体间的隐含关系
比如说一种食物同时对一型糖尿病和二型糖尿病都有治疗效果,那我们分析这个食物内部是否有相关物质抑制糖尿病
3.4归纳总结
检索信息生成一张完整的知识图谱,然后可以通过图谱来解决问题
在知识图谱里面实体之间的关系很细致,可以全面的检索到知识库中的信息,单独使用rag系统进行检索的时候,我们没有办法知道信息检索的全不全.
3.5风险检查
比如说一家公司的合作其他公司都有问题,那么这家公司的风险比较高
4.知识图谱在教育领域的应用(和rag项目以及agent项目结合使用):
5.分层架构(理解)
6.技术架构
6.1数据获取
使用业务提供或者爬取的数据作为原始数据
结构化数据可以直接提取信息
非结构化,半结构化数据需要处理后才可以提取信息
6.2信息提取
实体提取:使用自然语言处理(NLP)技术,如命名实体识别(NER),采用规则、统计模型或深度学习模型,以识别并标注文本中的实体。
关系抽取:利用监督学习,使用有标签的数据进行训练,采用统计方法或深度学习模型,以识别文本中的关系。
属性抽取:采用规则匹配、基于统计的方法,或者深度学习模型,以从文本中提取出与实体相关的属性信息。
6.3知识融合
不同来源的数据整合在一起.
需要解决的问题有:
消除冗余(重复数据),
统一表达(同一个实体的不同称呼),
解决冲突(相同实体的信息真假不同),
知识拓展(总结只是丰富完整性)
常见的解决方法:
指代消解、
实体消歧(实体链接)、
实体统一(实体对齐)、
关系对齐等