使用ChatGLMTokenizer处理json格式数据

我下载了一些中文wikipedia数据,准备采用ChatGLMTokenizer对齐进行清洗,整理为预训练语料。

cpp 复制代码
import numpy as np
import json
from tqdm import tqdm
from chatglm_tokenizer.tokenization_chatglm import ChatGLMTokenizer

tokenizer = ChatGLMTokenizer(vocab_file='./chatglm_tokenizer/tokenizer.model')

with open('./data/wikipedia-cn-20230720-filtered.json') as f:
    data = json.load(f)
    print(data[0:3])
    data = data[0:3]
    doc_ids = []
    for line in tqdm(data):
        text = line['completion']
        text_id = tokenizer.encode(text, add_special_tokens=False)
        text_id.append(tokenizer.special_tokens['<eos>'])
        # doc_ids = doc_ids+text_id
        doc_ids.append(doc_ids)
    doc_ids = np.array(doc_ids, dtype=np.uint16)

    with open('./test.bin', 'wb') as f:
        f.write(doc_ids.tobytes())

其中,chatglm_tokenizer目录下的文件如下:

相关推荐
terry60011 分钟前
2026企业级携号转网查询标准:论实时数据同步与高并发承载设计
java·大数据·人工智能·json·信息与通信·数据库架构
㱘郳15 小时前
VS Code 的setting.json的预配置
json
一拳小和尚LXY1 天前
我开发了一款免费 Chrome 插件 TabScribe:一键复制所有标签页为 Markdown/JSON,完全离线零追踪
前端·chrome·json
nap-joker1 天前
使用n8n+飞书搭建自动推送新闻机器人
javascript·json·飞书·工作流·n8n·36氪新闻向客户端推送
一只积极向上的小咸鱼1 天前
TOML、JSON、YAML、INI 配置文件格式总结
java·服务器·json
San813_LDD1 天前
[后端开发]GET/POST_带参/不带参
前端·后端·计算机网络·json
winfredzhang1 天前
Python 实战:用 wxPython 写一个 MD5 文件查重清理工具
python·sqlite·json·wxpython·md5·预览·查重
木雷坞2 天前
6月 Docker 国内镜像源配置:daemon.json、/v2/ 连通性和 pull 验证
docker·eureka·json
落羽的落羽2 天前
【项目】JsonRpc框架——开发实现2(业务层)
linux·数据结构·c++·人工智能·算法·json·动态规划
ward RINL3 天前
WorkBuddy 自定义模型配置踩坑记录:models.json、/v1、API Key 一次讲清楚
json