知识图谱(六)之数据处理

一处理步骤

1.1获取token

1.2token转标签

使用词表把原始数据转换为标签类型:

比如:

打标数据存在字典里面.

先判断遍历字典是不是打标数据,如果不是,标记为o

如果是打标数据:

比如:

右腹部:是身体部位,打标的结果是BODY.,然后判断是不是开头,是开头标记为B,不是开头标记为I.

1.2.1整体处理思路:
  • 现在我们有一个json文件,先把json文件加载为字典:

原始的json文件:

  • 然后使用中文作为key查询他的英文:
  • 得到英文后,使用遍历开始索引到结束索引的方式拼接B,I

遍历原始的数据,通过索引和标签的字典,将相应的位置打上标签(根据索引查字典,如果可以查到结果,那把value作为实体标签,如果查不到,则打上o标签)

1.2.2难点
  • 获取所有的数据
  • 获取原始数据对应的标注数据
相关推荐
cookqq3 小时前
Palantir Foundry 核心建模体系:构建企业级智能知识图谱的基石
人工智能·机器学习·知识图谱·ai编程
一个数据大开发4 小时前
本体论与大模型的融合实践:知识图谱的下一个十年
人工智能·知识图谱
空中海12 小时前
Redis知识图谱和回顾
数据库·redis·知识图谱
龙腾AI白云12 小时前
【无标题】知识图谱:AI的超级大脑
人工智能·知识图谱·tornado
renhongxia115 小时前
用知识图谱重构搜索引擎
人工智能·搜索引擎·重构·分类·语音识别·知识图谱
Arhero15 小时前
GraphRAG 层级聚类中的“孤儿社区“:为什么有些 Community 没有 PARENT_OF 边
知识图谱·社区检测·graphrag·leiden算法·层级聚类
领航猿1号1 天前
本体论技术深度调研报告
知识图谱·本体论·ontology·本体模型
龙腾AI白云1 天前
中国人工智能培训网
人工智能·django·知识图谱
人工智能培训1 天前
中国人工智能培训网—AI系列录播课
大数据·人工智能·机器学习·计算机视觉·知识图谱
Omics Pro2 天前
免费!糖蛋白质组学数据分析
开发语言·深度学习·数据挖掘·数据分析·r语言·excel·知识图谱