Arrow2json
使用默认的Huggingface路径
以allenai/tulu-3-sft-mixture
数据集为例。
使用load_dataset
即可:
go
from datasets import load_dataset
# 加载数据集
dataset = load_dataset("allenai/tulu-3-sft-mixture")
# 指定保存路径
output_dir = "~/xxx/open-instruct/data/tulu-3-sft-mixture-json"
# 将数据集转换为 JSON 格式
for split in dataset.keys(): # 处理所有划分 (train, validation 等)
dataset[split].to_json(f"{output_dir}/{split}.json", orient="records", lines=True)
使用ls -sh输出可以看到数据集train.json大小是3.3GB
go
3.3G train.json
从本地路径
本地路径如下:
查看一下文件大小:
go
ls -sh ~/.cache/huggingface/datasets/allenai___tulu-3-sft-mixture-1024/train
total 1.2G
223M data-00000-of-00005.arrow 283M data-00002-of-00005.arrow 132M data-00004-of-00005.arrow
273M data-00001-of-00005.arrow 252M data-00003-of-00005.arrow 4.0K state.json
使用load_from_disk
函数从本地路径加载
go
from datasets import load_dataset, load_from_disk
# 加载数据集
dataset = load_from_disk("~/.cache/huggingface/datasets/allenai___tulu-3-sft-mixture-1024")
# 指定保存路径
output_dir = "~/xxx/open-instruct/data/tulu-3-sft-mixture-seqlen-1024-json"
# 将数据集转换为 JSON 格式
for split in dataset.keys(): # 处理所有划分 (train, validation 等)
dataset[split].to_json(f"{output_dir}/{split}.json", orient="records", lines=True)
这样就可以转换为json了。
查看一下大小:
go
ls -sh xxx/open-instruct/data/tulu-3-sft-mixture-seqlen-1024-json
total 1.3G
1.3G train.json
后记
2024年12月29日20点16分于上海.