使用ChatGLMTokenizer处理json格式数据

我下载了一些中文wikipedia数据,准备采用ChatGLMTokenizer对齐进行清洗,整理为预训练语料。

cpp 复制代码
import numpy as np
import json
from tqdm import tqdm
from chatglm_tokenizer.tokenization_chatglm import ChatGLMTokenizer

tokenizer = ChatGLMTokenizer(vocab_file='./chatglm_tokenizer/tokenizer.model')

with open('./data/wikipedia-cn-20230720-filtered.json') as f:
    data = json.load(f)
    print(data[0:3])
    data = data[0:3]
    doc_ids = []
    for line in tqdm(data):
        text = line['completion']
        text_id = tokenizer.encode(text, add_special_tokens=False)
        text_id.append(tokenizer.special_tokens['<eos>'])
        # doc_ids = doc_ids+text_id
        doc_ids.append(doc_ids)
    doc_ids = np.array(doc_ids, dtype=np.uint16)

    with open('./test.bin', 'wb') as f:
        f.write(doc_ids.tobytes())

其中,chatglm_tokenizer目录下的文件如下:

相关推荐
kupeThinkPoem13 小时前
QJsonObject能否嵌套查找?
qt·json
BD_Marathon14 小时前
SpringMVC——json数据传递参数
json
程序员欣宸16 小时前
LangChain4j实战之十二:结构化输出之三,json模式
java·人工智能·ai·json·langchain4j
秃了也弱了。17 小时前
FASTJSON库:阿里出品java界json解析库,使用与踩坑记录
java·开发语言·json
..过云雨19 小时前
应用层自定义协议与序列化一站式指南
网络协议·tcp/ip·json·信息与通信
eggcode20 小时前
C#读写Bson格式的文件
c#·json·bson
电商API&Tina21 小时前
电商数据采集 API:驱动选品、定价、运营的数据分析核心引擎
大数据·开发语言·人工智能·python·数据分析·json
ID_180079054732 天前
闲鱼商品详情API接口基础架构解析
json
wtsolutions2 天前
Sheet-to-Doc数据格式支持:JSON/JSONL/CSV全解析
json
麦聪聊数据2 天前
MySQL 性能调优:从EXPLAIN到JSON索引优化
数据库·sql·mysql·安全·json