深度学习关键要素:数据集汇总与分享

引言

在深度学习的应用中,数据被认为是最重要的因素之一。因此,选择一个好的数据集对于深度学习的成功至关重要。在选择数据集时,不仅需要关注数据量的大小、多样性以及质量,还要考虑数据集是否代表了所研究问题的真实情况。本文整理了当前深度学习领域公开的数据集,供大家训练模型时选择和使用。

1 综合数据集

1.1 kaggle数据集

kaggle是规模最大的在线数据集存储库之一,涵盖体育、医学和政府等一系列主题。它的平台由社区主导,这意味着用户可以上传自己的数据集。鉴于 Kaggle 的数据来源多种多样,彻底检查您取自其中的数据集的质量非常重要。此外,Kaggle 还提供关于机器学习主题的讨论以及关于关键流程的教程。

地址:kaggle datasets

1.2 AI Studio数据集

百度推出的AI Studio 是一个一站式开发平台:囊括了 AI 教程、代码环境、算法算力、数据集,并提供免费的在线云计算,是一个一体化编程环境。

地址:AI Studio数据集

1.3 天池数据集

天池数据集是阿里集团对外开放的科研数据平台,由阿里巴巴集团业务团队和外部研究机构联合提供,覆盖了电商、娱乐、物流、医疗健康、交通、工业、自然科学、能源等十多个行业,涵盖了数据挖掘、机器学习、计算机视觉、自然语言处理、决策智能等经典的人工智能技术领域。

地址:tianchi datasets

1.4 Graviti 数据集

Graviti 是一个提供公开数据集的平台,你可以很方便的搜索你想要的数据,可在线预览样例数据、标注、标签。Graviti 收录了 400 多个高质量 CV 类数据集,覆盖无人驾驶、智慧零售、机器人等多种 AI 应用领域。

地址:graviti datasets

1.7 papers with code

有超过四千个数据集(还在不断增加)。这些数据集由社区上传。您可以按模态、任务和语言轻松地筛选这些数据集。数据库中还包含指向其他数据库的链接,后者也提供多种数据集。

地址:papers with code datasets

1.8 DataFlair

DataFlair链接到 70 多个机器学习数据集,还包括源代码和项目思路等有用信息。例如,在包含手写数字的数据集列表中,DataFlair 建议创建图像分类算法来识别纸张中的手写数字。利用该网站可以启发新思路。

地址:data flair

1.9 EliteDataScience

EliteDataScience包括免费数据集和最热门的聚合器的精选列表。这些数据集按用例组织,其中包括可用于深度学习、自然语言处理、网络抓取等的数据集。

地址:elitedatascience

1.10 UCI数据集

UCI 拥有 500 多个机器学习数据集,可按文件类型、任务、应用领域和主题进行排序。其中许多数据集都包含可用于基准测试的学术论文链接。最古老的数据集源之一,是寻找有趣数据集的第一站。虽然数据集是用户贡献的,因此具有不同的清洁度,但绝大多数都是干净的,可以直接从UCI机器学习库下载,无需注册。

地址:uci dataset

1.11 github公开数据集

github公开数据集提供公共数据集的开源集合。您可以在其中查看目录,选择一个主题,主题涵盖农业、交通等领域。Github 还包括一般机器学习模型的集合。大多数链接的数据集都是免费的。

地址:github datasets

1.12 Azure数据集

Microsoft Azure 拥有一个公共数据集数据库,开发人员可将其用于原型设计和测试。数据库类别包括美国政府和机构数据、其他统计和科学数据以及在线服务数据。此外,您还可以在其中阅读有关 SQL 以及如何构建移动和 Web 应用程序的文档。

地址:azure datasets

2 计算机视觉数据集

2.1 ImageNet数据集

ImageNet数据集是当今深度学习应用领域中最为流行的数据集之一,其包含了大量的图像数据及标注。ImageNet数据集的标注涵盖了所有的大类别、中类别和小类别,其中大类别越通用,小类别越具体,这一特征使得该数据集适合进行图像分类问题的研究。

地址:ImageNet数据集

2.2 COCO数据集

全称为"Microsoft Common Objects in Context Dataset",COCO数据集是一个可用于图像检测(image detection),语义分割(semantic segmentation)和图像标题生成(image captioning)的大规模数据集。它有超过330K张图像(其中220K张是有标注的图像),包含150万个目标,80个目标类别(object categories:行人、汽车、大象等),91种材料类别(stuff categoris:草、墙、天空等),每张图像包含五句图像的语句描述,且有250,000个带关键点标注的行人。

地址:coco dataset

2.3 IMDB-Wiki数据集

IMDB-Wiki数据集提供最大的人脸图像集合,拥有超过 500,000 张图像。许多图像来自名人和维基百科。每张图像都附有性别和年龄标签。

地址:imdb datasets

2.4 LabelMe数据集

使用LabelMe标注工具构建。该工具使用户能够勾勒出对象的轮廓,并为对象添加标签。这个数据集可用于图像识别项目。

地址:labelme datasets

2.5 chars74k数据集

chars74k包括 74,000 张图像。数据包括自然图像中的字符识别(例如,餐厅标志的图像)

地址:chars74k datasets

2.6 Kinetics-700数据集

Kinetics-700包含一系列主要标注为人类行为的 YouTube 视频链接。其中有超过 65 万个视频片段,涵盖 700 种人类行为。

地址:kinetics-700 datasets

2.7 Places2 Database

Places2 Database是麻省理工学院发布的数据集,包含超过 1,000 万张图像,涵盖 400 多个场景。它对场景分类和场景解析等项目很有帮助。

地址:places2 datasets

2.8 MPII人体姿态数据集

MPII人体姿态数据集包括约 25,000 张涉及 410 个人体姿态的图像。图像中包含大约 40,000 个不同的人,每张图像都标注了人体关节。这些图像收集自 YouTube 视频。

地址:human-pose datasets

2.9 Open Images数据集

Open Images是由谷歌发布的一个开源图片数据集,在2022年10月份发布了最新的V7版本。这个版本的数据集包含了900多万张图片,都有类别标记。其中190多万张图片有非常精细的标注。Open Images可以用于许多不同的应用程序,包括图像分类、目标检测、图像分割和图像生成等

地址:open images dataset

2.10 Cityscapes数据集

Cityscapes是一个城市街景语义分割数据集,包含来自德国50个城市的3257幅高分辨率图像。数据集中涵盖了早晨、白天和夜晚等不同照明情况下的街景图像。每个图像的分辨率为2048x1024,并针对多种标签包括建筑物、道路和行人等进行了专业的标注。数据集还提供了用于训练、验证和测试的列表,以及基准性能指标。Cityscapes数据集的引入将有助于推动城市场景分析的发展,为深度学习算法的研究和应用提供了更多的可能性。

地址:cityscapes dataset

2.11 搜狗数据集

互联网图片库来自sogou图片搜索所索引的部分数据。其中收集了包括人物、动物、建筑、机械、风景、运动等类别,总数高达2,836,535张图片。对于每张图片,数据集中给出了图片的原图、缩略图、所在网页以及所在网页中的相关文本。200多G

地址:http://www.sogou.com/labs/dl/p.html

2.12 IMAGECLEF数据集

IMAGECLEF致力于位图片相关领域提供一个基准(检索、分类、标注等等) Cross Language Evaluation Forum (CLEF) 。从2003年开始每年举行一次比赛.

地址:http://www.imageclef.org/

3 自然语言处理数据集

3.1 Google Blogger Corpus

Google Blogger Corpus包括来自 blogger.com 的近 700,000 篇博客文章。每一篇文章至少有 200 个英语单词。总体而言,这些博客文章包含许多常见的英语单词。

地址:BlogCorpus datasets

3.2 Yelp Reviews

Yelp Reviews数据集涵盖餐厅的排名和评论,包含与此主题相关的丰富信息。该数据集中的评论可用于情感分析项目。

地址:yelp dasets

3.3 WikiQA语料库

WikiQA语料库是一个问答数据集,由 Bing 搜索数据编译而成。它包括 3,000 多个问题,提供 29,000 个回答句,其中 1,500 个标注为回答句。

地址:WikiQA Corpus

3.4 WordNet

WordNet是一个按词义分组的英语单词数据库。共有 117,000 个同义词集(根据同义词配对的单词),然后链接到相关的同义词集。可以在文本分类项目中使用。

地址:wordnet datasets

3.5 OpinRank数据集

OpinRank数据集包含来自 Edmunds 和 TripAdvisor 的 300,000 条评论。它们根据旅游目的地、酒店和其他相关因素分类。

地址:OpinRank datasets

3.6 多域情感数据集

多域情感数据集包括Amazon.com四个领域的产品评论:DVD、书籍、厨房和电子产品。每个领域都有几千条评论,附有 1-5 星评级。顾名思义,这个数据集对情感分析项目很有用。

地址:mdredze datasets

3.7 Twitter情感分析数据集

Twitter情感分析数据集包括超过 150 万条分类推文。数据集的每一行都有一个排名:1 表示正面情绪,0 表示负面情绪。

地址:twitter-sentiment datasets

3.8 Newsgroups数据集

Newsgroups包含 20,000 个文档,顾名思义,它来自 20 多个不同的新闻组。它包含的主题很多,其中一些主题相对相似。该数据集包括三个版本:一个是初始版本,一个是删除日期的版本,还有一个是删除重复的版本。

地址:20Newsgroups datasets

3.9 HuggingFace 数据集

HuggingFace数据集包括611 个文本数据集,可以下载以准备在一行 python 中使用;涵盖 467 种语言,其中 99 种包含至少 10 个数据集;

地址:huggingface datasets

4 音视频数据集

4.1 M-AI Labs语音数据集

M-AI Labs语音数据集包括近 1,000 小时的音频与转录。包括使用多种语言的男性和女性语音。

地址:MAI labs datasets

4.2 LibriSpeech

LibriSpeech包括大约 1000 小时的语音数据,这些数据已经被分段和对齐。这些数据编译自 LibriVox 项目的有声读物。

地址:Librispeech datasets

5 数据集搜索

5.1 谷歌数据集搜索

Google 提供一个数据集搜索引擎,您可以在其中按名称搜索数据集。该引擎允许您按多种功能对数据集进行排序,例如文件类型、主题、最新更新和相关性。它还可以从互联网上的数千个数据库中获取数据集,因此您可以真正地通过广泛的选项进行搜索。数据集的上传者包括众多国际组织,如哈佛大学和世界卫生组织。

地址:google dataset search

5.2 clue数据集检索

中文语言理解测评基准,包括代表性的数据集、基准(预训练)模型、语料库、排行榜。我们会选择一系列有一定代表性的任务对应的数据集,做为我们测试基准的数据集。这些数据集会覆盖不同的任务、数据量、任务难度。

地址:cluebenchmarks

5.3 visualdata数据集

visualdata包含了一些用于构建计算机视觉模型的优秀数据集,用户可通过某个CV主题查询,例如语义分割、图像标题、图像生成、自动驾驶汽车等内容。

地址:visualdata

6 具体数据集

6.1 医疗图像数据集

肺结节数据库LIDC-IDRI:cancer image

乳腺图像数据库DDSM MIAS:乳腺图像数据库

医学图像问答:medical-image-faq

右心室分割挑战赛(2012):mr-images

肺癌分类比赛:http://data-science-bowl-2017

分割肺癌(Kaggle):finding-lungs-in-ct

肺癌数据库:cancer image

医学影像数据集:medical-data

医疗影像分析:grand-challenge

6.2 Kaggle竞赛数据集

6.3 自然语言处理数据集

6.4 各类/各场景图像数据/综合图像

6.5 场景图像

6.6 Web图像标签

6.7 人形轮廓图像

6.8 视觉文字识别图像

6.9 特定一类事物图像

6.10 材质纹理图像

6.11 物体分类图像

6.12 人脸图像

6.13 姿势动作图像

6.14 指纹识别图像

6.15 其他图像数据

6.16 推荐系统数据集

6.17 金融数据集

6.18 交通数据集

6.19 商业数据

6.20 医疗数据

6.21 视频数据(人类动作、目标检测、密集人群等)

6.22 人类动作视频

6.23 目标检测视频

6.24 密集人群视频

6.25 其他视频

6.26 音频数据

6.27 文本、评价、回答数据集合

6.28 科研数据集

6.29 社会数据集

6.30 其他数据集综合

7 政府公开数据集

欧洲政府数据集 https://data.europa.eu/euodp/data/dataset

美国政府数据集 https://www.data.gov/

新西兰政府数据集https://catalogue.data.govt.nz/dataset

印度政府数据集 https://data.gov.in/

北爱尔兰公共数据集 https://www.opendatani.gov.uk/

相关推荐
martian66527 分钟前
【人工智能数学基础篇】——深入详解多变量微积分:在机器学习模型中优化损失函数时应用
人工智能·机器学习·微积分·数学基础
人机与认知实验室1 小时前
人、机、环境中各有其神经网络系统
人工智能·深度学习·神经网络·机器学习
黑色叉腰丶大魔王1 小时前
基于 MATLAB 的图像增强技术分享
图像处理·人工智能·计算机视觉
迅易科技4 小时前
借助腾讯云质检平台的新范式,做工业制造企业质检的“AI慧眼”
人工智能·视觉检测·制造
古希腊掌管学习的神5 小时前
[机器学习]XGBoost(3)——确定树的结构
人工智能·机器学习
ZHOU_WUYI6 小时前
4.metagpt中的软件公司智能体 (ProjectManager 角色)
人工智能·metagpt
靴子学长6 小时前
基于字节大模型的论文翻译(含免费源码)
人工智能·深度学习·nlp
AI_NEW_COME7 小时前
知识库管理系统可扩展性深度测评
人工智能
海棠AI实验室8 小时前
AI的进阶之路:从机器学习到深度学习的演变(一)
人工智能·深度学习·机器学习
hunteritself8 小时前
AI Weekly『12月16-22日』:OpenAI公布o3,谷歌发布首个推理模型,GitHub Copilot免费版上线!
人工智能·gpt·chatgpt·github·openai·copilot