使用ChatGLMTokenizer处理json格式数据

我下载了一些中文wikipedia数据,准备采用ChatGLMTokenizer对齐进行清洗,整理为预训练语料。

cpp 复制代码
import numpy as np
import json
from tqdm import tqdm
from chatglm_tokenizer.tokenization_chatglm import ChatGLMTokenizer

tokenizer = ChatGLMTokenizer(vocab_file='./chatglm_tokenizer/tokenizer.model')

with open('./data/wikipedia-cn-20230720-filtered.json') as f:
    data = json.load(f)
    print(data[0:3])
    data = data[0:3]
    doc_ids = []
    for line in tqdm(data):
        text = line['completion']
        text_id = tokenizer.encode(text, add_special_tokens=False)
        text_id.append(tokenizer.special_tokens['<eos>'])
        # doc_ids = doc_ids+text_id
        doc_ids.append(doc_ids)
    doc_ids = np.array(doc_ids, dtype=np.uint16)

    with open('./test.bin', 'wb') as f:
        f.write(doc_ids.tobytes())

其中,chatglm_tokenizer目录下的文件如下:

相关推荐
曦月合一2 小时前
访问服务器json接口,将json字符串解析成json格式的demo
运维·服务器·json
云姜.17 小时前
JSON Schema使用
python·json
电商API&Tina21 小时前
唯品会数据采集API接口||电商API数据采集
java·javascript·数据库·python·sql·json
李子焱1 天前
第四节:理解 JSON 结构与 Item 概念
json·js·工作流
张涛酱1074561 天前
降低 LLM Token 成本 40-50%:TOON 格式实战
json·ai编程
wefly20171 天前
jsontop.cn使用全攻略:免费无广告的在线工具站,电脑手机通用
开发语言·安全·json·ecmascript·json在线转换
菜鸟程序员专写BUG2 天前
SpringBoot 接口返回异常全集|JSON解析失败/响应乱码/状态码错误完美解决
spring boot·后端·json
张涛酱1074562 天前
Jackson 严格解析:拒绝"温柔"的 JSON
spring boot·json
nilm612 天前
作为前端请使用vue2,elementUI框架 根据后端返回的json 生成表格.
前端·elementui·json
wefly20173 天前
免安装!m3u8live.cn在线 M3U8 播放器,小白也能快速上手
java·开发语言·python·json·php·m3u8·m3u8在线转换