[huggingface]—离线加载数据集

前言

服务器没网,需要手动下载,离线加载数据。

步骤

以加载下面这个数据集为例:

复制代码
dataset = load_dataset('stereoset', 'intrasentence')
  1. 去hugginface找到这个仓库,看files and versions里面的py文件,需要下载什么文件,比如:

    https://huggingface.co/datasets/stereoset/blob/main/stereoset.py
    _DOWNLOAD_URL = "https://github.com/moinnadeem/Stereoset/raw/master/data/dev.json"

  2. 把这个dev.json,以及files and versions里面的其他文件(这里是dataset_infos.json,stereoset.py)都下载下来,放入目录X。

  3. 把加载数据的那行代码改成:

    dataset = load_dataset("X/stereoset.py", 'intrasentence')

(如果是dataset = load_dataset("X", 'intrasentence'),会走site-packages/datasets/builder.pydef _prepare_split_single,可能会报如下错)

复制代码
ValueError: Not able to read records in the JSON file at /data/syxu/representation-engineering/data/fairness/dev.json. You should probably indicate the field of the JSON file containing your records. This JSON file contain the following fields: ['version', 'data']. Select the correct one and provide it as `field='XXX'` to the dataset loading method. 
  1. 改_split_generators中得到data_path的方式

原来可能是:

复制代码
data_path = dl_manager.download_and_extract(self._DOWNLOAD_URL)

注释掉这行,把data_path直接改成'X/dev.json'

  1. 最后,通过环境变量设置为离线模式

    export HF_DATASETS_OFFLINE=1

其他情况

parquet文件:

复制代码
from datasets import load_dataset
dataset = load_dataset("parquet", data_files={'train': [文件路径], 'test': [同]})

参考

https://huggingface.co/docs/datasets/v1.12.0/loading.html

相关推荐
skywalk81631 分钟前
免费且完全开源的金融平台,金融数据集软件openbb
人工智能·金融·openbb
学而要时习2 分钟前
深度神经网络到AI大语言模型:一场被“误认为突然发生”的技术演进
人工智能·语言模型·dnn
OctShop大型商城源码3 分钟前
大型多用户商城源码+收银系统源码+IM在线客服源码一体化OctShop
人工智能·商城系统·开源收银系统·im在线客服系统源码
快降重025 分钟前
AIGC降重全指南:从工具选择到完美定稿
人工智能·aigc·论文降重·ai降重·快降重
源创力环形导轨5 分钟前
环形导轨输送系统技术解析与应用探讨
大数据·人工智能·自动化·制造·环形导轨
liliangcsdn6 分钟前
视频嵌入表示生成方案的探索
数据库·人工智能·音视频
查无此人byebye9 分钟前
深度解析:当前AI视频生成为何普遍“短小精悍”?
人工智能·pytorch·python·深度学习·音视频·transformer
有Li17 分钟前
SafeRPlan: 用于椎弓根螺钉置入术中规划的安全深度强化学习/文献速递-基于人工智能的医学影像技术
论文阅读·人工智能·深度学习·文献·医学生
小章UPUP19 分钟前
数学建模中的机器学习方法
人工智能·机器学习·数学建模
学而要时习22 分钟前
Claude Code 深度测评:当 AI 遇到“豪纳森数”与“光谱分析”,它能扛得住吗?
人工智能