一处理步骤
1.1获取token
1.2token转标签
使用词表把原始数据转换为标签类型:
比如:
打标数据存在字典里面.
先判断遍历字典是不是打标数据,如果不是,标记为o
如果是打标数据:
比如:
右腹部:是身体部位,打标的结果是BODY.,然后判断是不是开头,是开头标记为B,不是开头标记为I.
1.2.1整体处理思路:
- 现在我们有一个json文件,先把json文件加载为字典:
原始的json文件:
- 然后使用中文作为key查询他的英文:
- 得到英文后,使用遍历开始索引到结束索引的方式拼接B,I
遍历原始的数据,通过索引和标签的字典,将相应的位置打上标签(根据索引查字典,如果可以查到结果,那把value作为实体标签,如果查不到,则打上o标签)
1.2.2难点
- 获取所有的数据
- 获取原始数据对应的标注数据