常见、主流、可靠的机器学习与深度学习训练集网站

常见、主流、可靠的机器学习与深度学习训练集网站如下,可以根据任务类型(图像/文本/音频/综合)选择:

📌 综合类大型数据集平台(各种领域都能找到)

Kaggle Datasets

最流行的数据集社区,分类明确、数量巨大,还有竞赛与代码示例。

Google Dataset Search

类似数据集的"搜索引擎",能从全网找到可用的数据集。

Papers with Code -- Datasets

和最新论文关联的数据集,更新快,科研常用。

Hugging Face Datasets

NLP 最强平台,也有图像/音频数据集,可直接用 Python 加载。

UCI Machine Learning Repository

经典入门平台,结构化数据居多。

📌 图像类(CV)

ImageNet(分类/目标识别)

COCO(MS COCO)(物体检测、分割)

Open Images Dataset(Google)

VisualData(各种视觉数据集索引)

Roboflow Universe(大量开源数据集,可在线标注)

📌 文本 / NLP

Hugging Face Datasets(最强)

OpenAI Dataset Index(各类大型文本数据)

Common Crawl(网络文本爬取)

Wikipedia Dumps(用于 NLP 的基础语料)

Project Gutenberg(公共领域文本)

📌 语音 / 音频

LibriSpeech(最著名语音识别集)

Mozilla Common Voice(多语言语音)

VoxCeleb(人声表征/说话人识别)

AudioSet(Google)(声音分类)

📌 视频

Kinetics Dataset(人体动作识别)

UCF101 / HMDB51(经典视频动作识别数据集)

Something-Something V2(行为理解)

📌 偏科研/专业

Stanford ML Group datasets

MIT CSAIL datasets

OpenML(机器学习实验平台+数据集)

相关推荐
Black蜡笔小新8 分钟前
自动化AI算法训练服务器DLTM训推一体工作站赋能多行业智能化升级
人工智能·算法·自动化
KaMeidebaby8 分钟前
卡梅德生物技术快报|噬菌体文库构建实验优化及偶联体系实验数据分析
大数据·人工智能·架构·spark·新浪微博
NineData13 分钟前
SQL 都在等锁时,ChatDBA 先帮 MySQL 找到谁在挡路
数据库·人工智能·sql·mysql·安全·数据复制·数据迁移工具
意图共鸣17 分钟前
意图共鸣科技《AI记忆链商业化白皮书3.0》技术解读:“AI焦虑的解药”——从通用AI到个人记忆链架构
人工智能·科技·架构
小e说说22 分钟前
AI 时代,IT 职业教育如何为学习者赋能?——职坐标的 AI+教育实践
人工智能
后端小肥肠24 分钟前
不会做视频的我,用 Codex 跑通口播 + 自动剪辑,获客 20+
人工智能·aigc·agent
某林21231 分钟前
跨越底层与AI的鸿沟:ROS2+多模态大模型(Qwen-VL)机器人全链路排障实录
人工智能·stm32·机器人·人机交互·ros2·技术复盘
没事别瞎琢磨34 分钟前
二、类型系统——给所有概念起名字
人工智能·node.js
卡梅德生物科技小能手39 分钟前
卡梅德生物科普:MAPT(微管相关蛋白Tau)
人工智能·经验分享·机器学习
战族狼魂42 分钟前
基于 CNN 的ConvS2S(Convolutional Sequence-to-Sequence)架构英德机器翻译模型
人工智能·cnn·机器翻译