【专辑】AI大模型应用开发入门-拥抱Hugging Face与Transformers生态 - 使用datasets库加载Huggingface数据集

大家好,我是java1234_小锋老师,最近更新《AI大模型应用开发入门-拥抱Hugging Face与Transformers生态》专辑,感谢大家支持。

本课程主要介绍和讲解Hugging Face和Transformers,包括加载预训练模型,自定义数据集,模型推理,模型微调,模型性能评估等。是AI大模型应用开发的入门必备知识。

使用datasets库加载Huggingface数据集

Huggingface以及魔塔社区提供了很多数据集,我们可以使用这些数据集来训练和微调模型。

我们首先要安装下datasets库。

复制代码
pip install datasets -i http://mirrors.aliyun.com/pypi/simple/   --trusted-host mirrors.aliyun.com

IMDb 数据集包含电影评论和相应的情感标签(正面或负面)。这个数据集非常适合情感分析和舆情分析的任务。

复制代码
https://huggingface.co/datasets/stanfordnlp/imdb

我们用里面的测试集和训练集文件。

Parquet是一种‌列式存储文件格式‌,专为高效存储和处理大规模数据设计,广泛应用于大数据生态系统(如Spark、Hadoop)。其核心特点包括:

1‌,高效压缩‌:通过列式存储实现高压缩比(如Snappy、Gzip编码),显著减少磁盘空间占用。‌‌‌

2,查询优化‌:支持映射下推(仅读取所需列)和谓词下推(过滤无效数据),提升查询性能。‌‌ ‌3,嵌套数据支持‌:原生处理复杂嵌套结构(如JSON、Map),无需扁平化存储。‌‌

我们可以通过datasets库的load_dataset()方法来加载数据集。

测试代码:

复制代码
from datasets import load_dataset
​
# 加载 IMDb 数据集
dataset = load_dataset(path="./imdb")
​
train = dataset['train']  # 获取训练集
test = dataset['test']  # 获取测试集
print(train, type(train))
print(train[0], type(train[0]))  # 每个元素是一个字典
print(train[0]['label'], train[0]['text'])
print(test, type(test))
​
# 遍历数据集
for i in train:
    print(i)

运行输出:

微博评论csv下载

复制代码
https://www.modelscope.cn/datasets/Sunnyshan/weibo_sentiment

csv文件的数据集获取代码:

复制代码
from datasets import load_dataset
​
# 加载微博数据集
dataset = load_dataset(path="csv", data_files="./weibo_senti_100k.csv")
​
# 获取数据集
train = dataset['train']
​
for i in train:
    print(i)

运行输出:

相关推荐
gis分享者8 小时前
AI数字营销实测体验,GEO效果查询功能体验
人工智能·csdn·geo·数字营销·实测体验·效果查询
莱歌数字8 小时前
轻出20%性能:三维拓扑优化如何重塑无人机电子设备散热格局
人工智能·科技·制造·cae·散热
猿小猴子9 小时前
主流 AI IDE 之一的「DeepSeek-Reasonix 」介绍
人工智能·ai·deepseek·reasonix
装不满的克莱因瓶9 小时前
链式法则如何传递参数误差 —— 深入理解神经网络中的梯度传播
人工智能·python·深度学习·神经网络·数学·机器学习·ai
Anastasiozzzz9 小时前
从有限状态机到智能体图:传统 FSM 与 Agent Graph的演进
java·人工智能·python·ai
程序员cxuan14 小时前
为每个任务配一套 harness:Claude Code 里的动态工作流
人工智能
程序员cxuan14 小时前
Claude Fable 5 来了
人工智能·后端·程序员
云边云科技_云网融合14 小时前
云边云科技亮相 2026 WOD 制造业数智化博览会 云网融合赋能制造焕新
人工智能·科技·安全·制造
Σίσυφος190014 小时前
激光三角 光平面标定-多高度误差分析
人工智能·计算机视觉·平面
JS菌15 小时前
手写一个 AI Agent 全栈项目:从沙箱执行到子智能体的完整实现
前端·人工智能·后端