使用ChatGLMTokenizer处理json格式数据

我下载了一些中文wikipedia数据,准备采用ChatGLMTokenizer对齐进行清洗,整理为预训练语料。

cpp 复制代码
import numpy as np
import json
from tqdm import tqdm
from chatglm_tokenizer.tokenization_chatglm import ChatGLMTokenizer

tokenizer = ChatGLMTokenizer(vocab_file='./chatglm_tokenizer/tokenizer.model')

with open('./data/wikipedia-cn-20230720-filtered.json') as f:
    data = json.load(f)
    print(data[0:3])
    data = data[0:3]
    doc_ids = []
    for line in tqdm(data):
        text = line['completion']
        text_id = tokenizer.encode(text, add_special_tokens=False)
        text_id.append(tokenizer.special_tokens['<eos>'])
        # doc_ids = doc_ids+text_id
        doc_ids.append(doc_ids)
    doc_ids = np.array(doc_ids, dtype=np.uint16)

    with open('./test.bin', 'wb') as f:
        f.write(doc_ids.tobytes())

其中,chatglm_tokenizer目录下的文件如下:

相关推荐
alikami2 小时前
【若依】用 post 请求传 json 格式的数据下载文件
前端·javascript·json
dingdingfish4 小时前
JSON 系列之1:将 JSON 数据存储在 Oracle 数据库中
oracle·json·database
糖朝6 小时前
c#读取json
c#·json
dingdingfish9 小时前
JSON 系列之2:JSON简单查询
oracle·json·database·19c·23ai
_oP_i14 小时前
HTTP 请求Media typetext/plain application/json text/json区别
网络协议·http·json
fkdw18 小时前
C# Newtonsoft.Json 反序列化派生类数据丢失问题
c#·json
Kiros_Jiang1 天前
开源低代码平台-Microi吾码 打印引擎使用
javascript·开源·json·.net·pip
nbsaas-boot2 天前
探索 JSON 数据在关系型数据库中的应用:MySQL 与 SQL Server 的对比
数据库·mysql·json
疯一样的码农2 天前
Jackson 的@JsonRawValue
json
Web打印2 天前
web打印插件 HttpPrinter 使用半年评测
javascript·json·firefox·jquery·html5