常见、主流、可靠的机器学习与深度学习训练集网站

常见、主流、可靠的机器学习与深度学习训练集网站如下,可以根据任务类型(图像/文本/音频/综合)选择:

📌 综合类大型数据集平台(各种领域都能找到)

Kaggle Datasets

最流行的数据集社区,分类明确、数量巨大,还有竞赛与代码示例。

Google Dataset Search

类似数据集的"搜索引擎",能从全网找到可用的数据集。

Papers with Code -- Datasets

和最新论文关联的数据集,更新快,科研常用。

Hugging Face Datasets

NLP 最强平台,也有图像/音频数据集,可直接用 Python 加载。

UCI Machine Learning Repository

经典入门平台,结构化数据居多。

📌 图像类(CV)

ImageNet(分类/目标识别)

COCO(MS COCO)(物体检测、分割)

Open Images Dataset(Google)

VisualData(各种视觉数据集索引)

Roboflow Universe(大量开源数据集,可在线标注)

📌 文本 / NLP

Hugging Face Datasets(最强)

OpenAI Dataset Index(各类大型文本数据)

Common Crawl(网络文本爬取)

Wikipedia Dumps(用于 NLP 的基础语料)

Project Gutenberg(公共领域文本)

📌 语音 / 音频

LibriSpeech(最著名语音识别集)

Mozilla Common Voice(多语言语音)

VoxCeleb(人声表征/说话人识别)

AudioSet(Google)(声音分类)

📌 视频

Kinetics Dataset(人体动作识别)

UCF101 / HMDB51(经典视频动作识别数据集)

Something-Something V2(行为理解)

📌 偏科研/专业

Stanford ML Group datasets

MIT CSAIL datasets

OpenML(机器学习实验平台+数据集)

相关推荐
落羽的落羽16 小时前
【算法札记】练习 | Week4
linux·服务器·数据结构·c++·人工智能·算法·动态规划
英辰朗迪AI获客16 小时前
【AI】豆包与抖音智能功能深度评测报告
人工智能
大橙子打游戏17 小时前
难题彻底解决!VPaste:让 SSH 终端也能"粘贴"截图
人工智能
IT_陈寒17 小时前
Redis内存用爆了,原来我们都忽略了这个配置
前端·人工智能·后端
captain_AIouo17 小时前
降本增效突围,Captain AI助力Ozon商家提升盈利空间
大数据·人工智能·经验分享·aigc
Cosolar17 小时前
RAG语义丢失?全链路优化通关宝典✅
人工智能·面试·llm
Bode_200217 小时前
“端-边-云”协同架构构建难点
人工智能·架构·制造
花椒技术18 小时前
低代码平台接入 Agent 后,我们踩到的组件、上下文和追问坑
前端·人工智能·agent
ACP广源盛1392462567318 小时前
iOS 27 开放 AI 生态@ACP#小型化扩展黄金风口,IX8008全面超越 ASM2806,铸就嵌入式 AI 扩展核心
人工智能·嵌入式硬件·macos·ios·计算机外设·objective-c·cocoa
xinxiangwangzhi_18 小时前
立体匹配--GGEV(2025)
人工智能·计算机视觉