机器学习深度学习用得到的数据集

以下是一些常见的机器学习数据集下载渠道:

  1. Google 数据集搜索引擎 :可以通过文本搜索数据集,并能按日期、数据格式和使用权限等进行过滤。地址:https://datasetsearch.research.google.com/
  2. Kaggle :这是世界领先的数据科学平台,拥有大量数据集,还允许用户发布数据集及与其他数据科学家交流和竞争。地址:https://www.kaggle.com/datasets
  3. UCI 机器学习存储库 :加州大学尔湾分校提供的数据库,有 550 多个数据集,可按问题类型(如分类、回归和聚类等)进行筛选。地址:UCI Machine Learning Repository
  4. 亚马逊数据集 :包含来自不同领域的数据集,具有一些较大型的数据集。地址:Registry of Open Data on AWS
  5. 微软数据集 :在公共云中提供数据存储库以促进全球研究社区协作,并提供已用于发表研究的整理数据集。地址:https://azure.microsoft.com/en-us/services/open-datasets/catalog/?q+
  6. 数据世界(data.world) :与 Google 数据集搜索引擎类似,搜索深度较好,能显示数据集及可能包含所需数据的子文件。地址:The Data Catalog Platform | data.world
  7. 欧洲核子研究组织开放数据门户 :提供有关最小物理量(粒子物理学)的数据。地址:CERN Open Data Portal
  8. Lionbridge AI 数据集 :Lionbridge 公司的网站上展示了各种数据集,还有相关文章介绍,例如用于机器学习的气候变化数据集、免费数据集等。地址:https://lionbridge.ai/datasets/
  9. Awesome 公共数据集(https://github.com/awesomedata/awesome-public-datasets:这是一个由社区公开维护的按主题分类的数据集清单,涵盖了生物学、经济学、教育学等多个领域,其中多数数据集免费,但使用前需检查许可要求。
  10. 计算机视觉数据集(VisualData - Search Engine for Computer Vision Datasets:如果你从事图像处理、计算机视觉或深度学习工作,这里有许多可用于构建计算机视觉模型的数据集,能通过特定的计算机视觉任务查找相应数据集。

还有一些其他途径可以获取数据集,比如:

  1. Kaggle :拥有各种有趣的数据集,涵盖多个领域。链接为:https://www.kaggle.com/
  2. UCI 机器学习库 :是较为古老的数据集源之一,有大量用户贡献的数据集,多数较为干净,可直接下载且无需注册。链接为:http://mlr.cs.umass.edu/ml/
  3. AI Studio 数据集 :百度的人工智能学习与实训社区提供的开放数据集。链接为:开放数据集-飞桨AI Studio星河社区
  4. 天池数据集 :阿里系唯一对外开放数据分享平台。链接为:天池数据集_阿里系唯一对外开放数据分享平台-阿里云天池
  5. Papers With Code 数据集 :可以找到与相关论文对应的数据集。链接为:Machine Learning Datasets | Papers With Code
  6. Graviti Open Datasets :提供公开数据集下载,包括图像识别、NLP 等领域的数据集。链接为:https://gas.graviti.cn/open-datasets
  7. Huggingface 数据集 :链接为:https://huggingface.co/datasets
  8. CLUE 数据集https://www.cluebenchmarks.com/dataSet_search.html
  9. VisualData :分好类的计算机视觉数据集,可以进行搜索。链接为:VisualData - Search Engine for Computer Vision Datasets

一些具体的数据集如下:

相关推荐
vivo互联网技术10 分钟前
ICLR2026 | 视频虚化新突破!Any-to-Bokeh 一键生成电影感连贯效果
人工智能·python·深度学习
OpenBayes贝式计算22 分钟前
边看、边听、边说,MiniCPM-0-4.5 全双工全模态模型;Pan-Cancer scRNA-Seq 涵盖三种生物学状态单细胞转录数据集
人工智能·深度学习·机器学习
CoovallyAIHub22 分钟前
速度暴涨10倍、成本暴降6倍!Mercury 2用扩散取代自回归,重新定义LLM推理速度
深度学习·算法·计算机视觉
OpenBayes贝式计算35 分钟前
教程上新丨基于500万小时语音数据,Qwen3-TTS实现3秒语音克隆及精细调控
人工智能·深度学习·机器学习
CoovallyAIHub1 小时前
开源:YOLO最强对手?D-FINE目标检测与实例分割框架深度解析
人工智能·算法·github
用户2576595759091 小时前
当人类知识学会自己奔跑--skill
人工智能
个入资料3 小时前
阿里云ecs+飞书搭建openclaw
人工智能
CoovallyAIHub4 小时前
OpenClaw一脚踩碎传统CV?机器终于不再只是看世界
深度学习·算法·计算机视觉
CoovallyAIHub4 小时前
仅凭单目相机实现3D锥桶定位?UNet-RKNet破解自动驾驶锥桶检测难题
深度学习·算法·计算机视觉