datasets的一些使用技巧

#加载某类文件作为数据集

dataset = load_dataset("json", data_files="./train_pair_1w.json", split="train")

#加载数据集中的子数据集

datasets = load_dataset("clue",name="afqmc",#trust_remote_code=True)

train_dataset=datasets["train"]

#load_dataset加载某类文件(json,csv,text)

ds=load_dataset("json",data_files="path.json")

data_files = {"train": "train.csv", "test": "test.csv"}

dataset = load_dataset("dataset_name", data_files=data_files)

#构造数据集

try_dataset=train_dataset[:10]

dataset = Dataset.from_dict(try_dataset)

dataset_dict = DatasetDict({'train': dataset})

Dataset_dict才可以使用map方法

#用脚本的方式加载dataset:

from datasets import load_dataset

ds = load_dataset('path/to/local/loading_script/loading_script.py', split='train')

#使用save_to_disk之后的加载方式:(必须是save_to_disk保存过的,不然不能这样加载,用load_datset加载)

ds.save_to_disk("path/to/dataset/directory")

ds = load_from_disk('path/to/dataset/directory')

#如果文件夹里面有train,test等多个文件夹,那么就需要用DatasetDict

c3 = DatasetDict.load_from_disk("./c3/")

更多加载方式以及参数:

https://huggingface.co/docs/datasets/v2.16.1/en/package_reference/main_classes#datasets.Dataset.save_to_disk

相关推荐
Luis Li 的猫猫1 小时前
深度学习中的知识蒸馏
人工智能·经验分享·深度学习·学习·算法
带娃的IT创业者2 小时前
机器学习实战(6):支持向量机(SVM)——强大的非线性分类器
算法·机器学习·支持向量机
木觞清3 小时前
PyTorch与TensorFlow的对比:哪个框架更适合你的项目?
人工智能·pytorch·tensorflow
wyg_0311136 小时前
用deepseek学大模型04-模型可视化与数据可视化
人工智能·机器学习·信息可视化
陈敬雷-充电了么-CEO兼CTO7 小时前
DeepSeek核心算法解析:如何打造比肩ChatGPT的国产大模型
人工智能·神经网络·自然语言处理·chatgpt·大模型·aigc·deepseek
盼小辉丶8 小时前
TensorFlow深度学习实战(8)——卷积神经网络
深度学习·cnn·tensorflow
南风过闲庭8 小时前
人工智能泡沫效应
大数据·人工智能·科技·搜索引擎·百度·ai
我是一个对称矩阵9 小时前
YOLOv5-Seg 深度解析:与 YOLOv5 检测模型的区别
人工智能·yolo·目标跟踪
AomanHao9 小时前
图像质量评价指标-UCIQE-UIQM
图像处理·人工智能·计算机视觉·评价指标
MYT_flyflyfly9 小时前
计算机视觉-尺度不变区域
人工智能·计算机视觉