知识图谱(六)之数据处理

一处理步骤

1.1获取token

1.2token转标签

使用词表把原始数据转换为标签类型:

比如:

打标数据存在字典里面.

先判断遍历字典是不是打标数据,如果不是,标记为o

如果是打标数据:

比如:

右腹部:是身体部位,打标的结果是BODY.,然后判断是不是开头,是开头标记为B,不是开头标记为I.

1.2.1整体处理思路:
  • 现在我们有一个json文件,先把json文件加载为字典:

原始的json文件:

  • 然后使用中文作为key查询他的英文:
  • 得到英文后,使用遍历开始索引到结束索引的方式拼接B,I

遍历原始的数据,通过索引和标签的字典,将相应的位置打上标签(根据索引查字典,如果可以查到结果,那把value作为实体标签,如果查不到,则打上o标签)

1.2.2难点
  • 获取所有的数据
  • 获取原始数据对应的标注数据
相关推荐
B站计算机毕业设计超人4 小时前
计算机毕业设计Python+百度千问大模型微博舆情分析预测 微博情感分析可视化 大数据毕业设计(源码+LW文档+PPT+讲解)
大数据·hive·hadoop·python·毕业设计·知识图谱·课程设计
Blossom.1181 天前
AI Agent的长期记忆革命:基于向量遗忘曲线的动态压缩系统
运维·人工智能·python·深度学习·自动化·prompt·知识图谱
田井中律.1 天前
知识图谱(五)
知识图谱
高洁011 天前
AIGC技术与进展(1)
深度学习·算法·机器学习·transformer·知识图谱
高洁012 天前
AI智能体搭建(4)
python·深度学习·机器学习·transformer·知识图谱
人工智能培训2 天前
如何大幅降低大模型的训练和推理成本?
人工智能·深度学习·大模型·知识图谱·强化学习·智能体搭建·大模型工程师
阿坤带你走近大数据2 天前
Rag与RagFlow的区别
人工智能·知识图谱
田井中律.2 天前
知识图谱(三)之知识查询语言
知识图谱
KG_LLM图谱增强大模型2 天前
知识图谱的演进:从静态到动态、时序与事件的全景综述
人工智能·大模型·知识图谱