使用ChatGLMTokenizer处理json格式数据

我下载了一些中文wikipedia数据,准备采用ChatGLMTokenizer对齐进行清洗,整理为预训练语料。

cpp 复制代码
import numpy as np
import json
from tqdm import tqdm
from chatglm_tokenizer.tokenization_chatglm import ChatGLMTokenizer

tokenizer = ChatGLMTokenizer(vocab_file='./chatglm_tokenizer/tokenizer.model')

with open('./data/wikipedia-cn-20230720-filtered.json') as f:
    data = json.load(f)
    print(data[0:3])
    data = data[0:3]
    doc_ids = []
    for line in tqdm(data):
        text = line['completion']
        text_id = tokenizer.encode(text, add_special_tokens=False)
        text_id.append(tokenizer.special_tokens['<eos>'])
        # doc_ids = doc_ids+text_id
        doc_ids.append(doc_ids)
    doc_ids = np.array(doc_ids, dtype=np.uint16)

    with open('./test.bin', 'wb') as f:
        f.write(doc_ids.tobytes())

其中,chatglm_tokenizer目录下的文件如下:

相关推荐
inxunoffice12 分钟前
按规则批量修改 txt/html/json/xml/csv/记事本等文本文件内容
xml·json
JhonKI6 小时前
【从零实现Json-Rpc框架】- 项目实现 - 客户端注册主题整合 及 rpc流程示意
c++·qt·网络协议·rpc·json
还是鼠鼠8 小时前
Node.js中间件的5个注意事项
javascript·vscode·中间件·node.js·json·express
五行星辰9 小时前
Fastjson 处理 JSON 生成与解析指南
java·json
JeJe同学1 天前
教程:如何使用 JSON 合并脚本
json·coco
ElasticPDF-新国产PDF编辑器2 天前
React 项目 PDF 批注插件库在线版 API 示例教程
react.js·pdf·json
豆芽脚脚2 天前
合并相同 patient_id 的 JSON 数据为数组
postgresql·json
还是鼠鼠2 天前
Node.js全局生效的中间件
javascript·vscode·中间件·node.js·json·express
IT成长日记2 天前
【MySQL基础】 JSON函数入门
mysql·json·json函数
阿沁QWQ2 天前
应用层协议http
json