常见、主流、可靠的机器学习与深度学习训练集网站

常见、主流、可靠的机器学习与深度学习训练集网站如下,可以根据任务类型(图像/文本/音频/综合)选择:

📌 综合类大型数据集平台(各种领域都能找到)

Kaggle Datasets

最流行的数据集社区,分类明确、数量巨大,还有竞赛与代码示例。

Google Dataset Search

类似数据集的"搜索引擎",能从全网找到可用的数据集。

Papers with Code -- Datasets

和最新论文关联的数据集,更新快,科研常用。

Hugging Face Datasets

NLP 最强平台,也有图像/音频数据集,可直接用 Python 加载。

UCI Machine Learning Repository

经典入门平台,结构化数据居多。

📌 图像类(CV)

ImageNet(分类/目标识别)

COCO(MS COCO)(物体检测、分割)

Open Images Dataset(Google)

VisualData(各种视觉数据集索引)

Roboflow Universe(大量开源数据集,可在线标注)

📌 文本 / NLP

Hugging Face Datasets(最强)

OpenAI Dataset Index(各类大型文本数据)

Common Crawl(网络文本爬取)

Wikipedia Dumps(用于 NLP 的基础语料)

Project Gutenberg(公共领域文本)

📌 语音 / 音频

LibriSpeech(最著名语音识别集)

Mozilla Common Voice(多语言语音)

VoxCeleb(人声表征/说话人识别)

AudioSet(Google)(声音分类)

📌 视频

Kinetics Dataset(人体动作识别)

UCF101 / HMDB51(经典视频动作识别数据集)

Something-Something V2(行为理解)

📌 偏科研/专业

Stanford ML Group datasets

MIT CSAIL datasets

OpenML(机器学习实验平台+数据集)

相关推荐
深度之眼2 分钟前
Nature:物理信息深度学习前沿创新思路
人工智能·深度学习·pinn
自然语2 分钟前
三维场景管理类位姿抖动优化计划
人工智能·数码相机·算法
柠萌f4 分钟前
易元AI 2026 升级:让投放素材生产流,更智能、更规模化
人工智能
智界前沿5 分钟前
告别随机生成!AIGC 视频广告级精度为工业视频注入可视化新动能
人工智能·aigc
大模型实验室Lab4AI7 分钟前
从 0 到 1 落地智能家居 AI 交互:LLaMA Factory & Qwen3-4B 微调实战指南
人工智能·microsoft
程序员老周6668 分钟前
10.一文学会GPU与cuda原理,并从其原理来理解FlashAttention
人工智能·深度学习·语言模型·大模型·transformer·gpu算力·cuda
RockHopper20259 分钟前
工业AMR场景融合设计原理5——约束体系的价值
人工智能·系统架构·智能制造·具身智能·amr·工业amr
AI工具测评大师10 分钟前
怎么有效降低英文文本的GPTZero AI检测率?3步有效降低AI率方法与工
人工智能·深度学习·自然语言处理·ai写作·ai自动写作
轻微的风格艾丝凡11 分钟前
圆周率(π)2-10进制转换及随机性量化分析技术文档
人工智能·算法
测试专家12 分钟前
反射内存卡在航空电子中的应用
网络·人工智能