常见、主流、可靠的机器学习与深度学习训练集网站

常见、主流、可靠的机器学习与深度学习训练集网站如下,可以根据任务类型(图像/文本/音频/综合)选择:

📌 综合类大型数据集平台(各种领域都能找到)

Kaggle Datasets

最流行的数据集社区,分类明确、数量巨大,还有竞赛与代码示例。

Google Dataset Search

类似数据集的"搜索引擎",能从全网找到可用的数据集。

Papers with Code -- Datasets

和最新论文关联的数据集,更新快,科研常用。

Hugging Face Datasets

NLP 最强平台,也有图像/音频数据集,可直接用 Python 加载。

UCI Machine Learning Repository

经典入门平台,结构化数据居多。

📌 图像类(CV)

ImageNet(分类/目标识别)

COCO(MS COCO)(物体检测、分割)

Open Images Dataset(Google)

VisualData(各种视觉数据集索引)

Roboflow Universe(大量开源数据集,可在线标注)

📌 文本 / NLP

Hugging Face Datasets(最强)

OpenAI Dataset Index(各类大型文本数据)

Common Crawl(网络文本爬取)

Wikipedia Dumps(用于 NLP 的基础语料)

Project Gutenberg(公共领域文本)

📌 语音 / 音频

LibriSpeech(最著名语音识别集)

Mozilla Common Voice(多语言语音)

VoxCeleb(人声表征/说话人识别)

AudioSet(Google)(声音分类)

📌 视频

Kinetics Dataset(人体动作识别)

UCF101 / HMDB51(经典视频动作识别数据集)

Something-Something V2(行为理解)

📌 偏科研/专业

Stanford ML Group datasets

MIT CSAIL datasets

OpenML(机器学习实验平台+数据集)

相关推荐
用户208046804563 小时前
文档解析实战:PDF、Word 与 HTML 的清洗提取指南
人工智能
得物技术4 小时前
从狂野代码到按目标生产:得物推荐 AI Harness 的工程化实践|AICon 演讲整理
人工智能·算法·架构
HokKeung4 小时前
飞书 lark-cli 如何存储 tenant_access_token 和 user_access_token
人工智能·go
Ralph_Salar4 小时前
从0到1搭建AI智能支付风控助手Stage3-Function Calling — 让AI能动起来
人工智能
Ralph_Salar4 小时前
从0到1搭建AI智能支付风控助手Stage4-Agent编排 — 让AI自己思考、决策、行动
人工智能
smallyoung4 小时前
Spring AI 2.0 VectorStore实战:从原理到RAG落地
人工智能·后端
火山引擎开发者社区5 小时前
被 Vibe Coding 用户频点名的火山 Supabase 到底是个啥?一图来看懂
人工智能
火山引擎开发者社区5 小时前
动手做 AI 实验赢好礼!产品 + 大模型免费额度限时供应!
人工智能
字节跳动视频云技术团队6 小时前
从 VCloud 到 Agentic VCloud:Agent 时代的范式重构
人工智能·音视频开发
AKAMAI6 小时前
每百万 Token 成本砍六成,出海 AI 团队开始重算推理这笔账
人工智能·云计算