常见、主流、可靠的机器学习与深度学习训练集网站如下,可以根据任务类型(图像/文本/音频/综合)选择:
📌 综合类大型数据集平台(各种领域都能找到)
Kaggle Datasets
最流行的数据集社区,分类明确、数量巨大,还有竞赛与代码示例。
Google Dataset Search
类似数据集的"搜索引擎",能从全网找到可用的数据集。
Papers with Code -- Datasets
和最新论文关联的数据集,更新快,科研常用。
Hugging Face Datasets
NLP 最强平台,也有图像/音频数据集,可直接用 Python 加载。
UCI Machine Learning Repository
经典入门平台,结构化数据居多。
📌 图像类(CV)
ImageNet(分类/目标识别)
COCO(MS COCO)(物体检测、分割)
Open Images Dataset(Google)
VisualData(各种视觉数据集索引)
Roboflow Universe(大量开源数据集,可在线标注)
📌 文本 / NLP
Hugging Face Datasets(最强)
OpenAI Dataset Index(各类大型文本数据)
Common Crawl(网络文本爬取)
Wikipedia Dumps(用于 NLP 的基础语料)
Project Gutenberg(公共领域文本)
📌 语音 / 音频
LibriSpeech(最著名语音识别集)
Mozilla Common Voice(多语言语音)
VoxCeleb(人声表征/说话人识别)
AudioSet(Google)(声音分类)
📌 视频
Kinetics Dataset(人体动作识别)
UCF101 / HMDB51(经典视频动作识别数据集)
Something-Something V2(行为理解)
📌 偏科研/专业
Stanford ML Group datasets
MIT CSAIL datasets
OpenML(机器学习实验平台+数据集)