[huggingface]—离线加载数据集

前言

服务器没网,需要手动下载,离线加载数据。

步骤

以加载下面这个数据集为例:

复制代码
dataset = load_dataset('stereoset', 'intrasentence')
  1. 去hugginface找到这个仓库,看files and versions里面的py文件,需要下载什么文件,比如:

    https://huggingface.co/datasets/stereoset/blob/main/stereoset.py
    _DOWNLOAD_URL = "https://github.com/moinnadeem/Stereoset/raw/master/data/dev.json"

  2. 把这个dev.json,以及files and versions里面的其他文件(这里是dataset_infos.json,stereoset.py)都下载下来,放入目录X。

  3. 把加载数据的那行代码改成:

    dataset = load_dataset("X/stereoset.py", 'intrasentence')

(如果是dataset = load_dataset("X", 'intrasentence'),会走site-packages/datasets/builder.pydef _prepare_split_single,可能会报如下错)

复制代码
ValueError: Not able to read records in the JSON file at /data/syxu/representation-engineering/data/fairness/dev.json. You should probably indicate the field of the JSON file containing your records. This JSON file contain the following fields: ['version', 'data']. Select the correct one and provide it as `field='XXX'` to the dataset loading method. 
  1. 改_split_generators中得到data_path的方式

原来可能是:

复制代码
data_path = dl_manager.download_and_extract(self._DOWNLOAD_URL)

注释掉这行,把data_path直接改成'X/dev.json'

  1. 最后,通过环境变量设置为离线模式

    export HF_DATASETS_OFFLINE=1

其他情况

parquet文件:

复制代码
from datasets import load_dataset
dataset = load_dataset("parquet", data_files={'train': [文件路径], 'test': [同]})

参考

https://huggingface.co/docs/datasets/v1.12.0/loading.html

相关推荐
cyforkk3 分钟前
YAML 配置文件中的常见陷阱:内联字典与块映射混用
人工智能·深度学习·机器学习
Testopia3 分钟前
人脸检测:OpenVINO在计算机视觉中的应用
人工智能·计算机视觉·openvino
heimeiyingwang4 分钟前
企业级知识库构建:从数据清洗到向量检索
大数据·人工智能·机器学习
globaldomain7 分钟前
立海世纪:.com和.net域名哪个更适合你的网站
大数据·前端·人工智能·新媒体运营·国外域名·域名注册
小小工匠11 分钟前
大模型开发 - 手写Manus之Tavily搜索工具:04 让AI Agent接入互联网
人工智能·搜索·tavily
TMT星球12 分钟前
豆包除夕AI互动19亿次,Seedance2.0为春晚提供技术支持
人工智能
爱编程的Zion13 分钟前
小白AI学习笔记---第一章,如何正确使用
人工智能·笔记·学习
新缸中之脑18 分钟前
构建有长期记忆的AI代理
人工智能
LedgerNinja31 分钟前
从用户规模到技术选择:一家交易平台在2025年的发展样本
人工智能
媒体人88837 分钟前
孟庆涛:生成式引擎优化(GEO)的投毒攻击防御策略研究
大数据·人工智能·搜索引擎·生成式引擎优化·geo优化