知识图谱(六)之数据处理

一处理步骤

1.1获取token

1.2token转标签

使用词表把原始数据转换为标签类型:

比如:

打标数据存在字典里面.

先判断遍历字典是不是打标数据,如果不是,标记为o

如果是打标数据:

比如:

右腹部:是身体部位,打标的结果是BODY.,然后判断是不是开头,是开头标记为B,不是开头标记为I.

1.2.1整体处理思路:
  • 现在我们有一个json文件,先把json文件加载为字典:

原始的json文件:

  • 然后使用中文作为key查询他的英文:
  • 得到英文后,使用遍历开始索引到结束索引的方式拼接B,I

遍历原始的数据,通过索引和标签的字典,将相应的位置打上标签(根据索引查字典,如果可以查到结果,那把value作为实体标签,如果查不到,则打上o标签)

1.2.2难点
  • 获取所有的数据
  • 获取原始数据对应的标注数据
相关推荐
河南青谷科技 · GEO优化专家9 小时前
GEO优化技术原理:E-E-A-T框架与知识图谱优化实践
人工智能·知识图谱
renhongxia117 天前
世界模型作为AGI落地底层底座的作用
人工智能·深度学习·生成对抗网络·自然语言处理·知识图谱·agi
龙腾AI白云17 天前
数字孪生和世界模型,二者的技术边界正在慢慢融合吗?
人工智能·django·知识图谱
searchforAI17 天前
2026国产AI笔记工具横评:Get笔记、Ai好记、通义听悟、BiBiGPT各有什么特色?
人工智能·笔记·学习·ai·音视频·知识图谱·知识库
searchforAI17 天前
啥是LLM?大语言模型从原理到选型的完整科普
人工智能·科技·深度学习·ai·语言模型·知识图谱·agent
qzhqbb18 天前
论文精读|CR-Writing:大语言模型与知识图谱协同推理赋能专业写作
人工智能·语言模型·知识图谱
人工智能培训18 天前
数字孪生的未来发展方向探析
gpt·深度学习·机器学习·容器·知识图谱
羊羊小栈18 天前
基于GraphRAG的医疗健康知识诊断系统(Neo4j_大语言模型)
人工智能·语言模型·毕业设计·知识图谱·创业创新·neo4j·大作业