公开数据集类型汇总分类

一、按数据类型分类

二、按应用领域分类

[1️⃣ 计算机视觉 (Computer Vision)](#1️⃣ 计算机视觉 (Computer Vision))

[1️⃣ 图像分类 (Image Classification)](#1️⃣ 图像分类 (Image Classification))

[2️⃣ 目标检测 (Object Detection)](#2️⃣ 目标检测 (Object Detection))

[3️⃣ 语义分割 (Semantic Segmentation)](#3️⃣ 语义分割 (Semantic Segmentation))

[4️⃣ 人脸识别 (Face Recognition)](#4️⃣ 人脸识别 (Face Recognition))

[5️⃣ 医学图像 (Medical Imaging)](#5️⃣ 医学图像 (Medical Imaging))

[6️⃣ 遥感/卫星图像 (Remote Sensing)](#6️⃣ 遥感/卫星图像 (Remote Sensing))

[2️⃣ 自然语言处理 (NLP)](#2️⃣ 自然语言处理 (NLP))

[3️⃣ 语音与音频](#3️⃣ 语音与音频)

[4️⃣ 推荐系统](#4️⃣ 推荐系统)

[5️⃣ 自动驾驶与机器人](#5️⃣ 自动驾驶与机器人)

[6️⃣ 医疗健康](#6️⃣ 医疗健康)

[7️⃣ 时序与金融](#7️⃣ 时序与金融)

[8️⃣ 工业与科学](#8️⃣ 工业与科学)

三、按机器学习任务分类

四、主流数据集平台汇总

一、按数据类型分类

数据类型	典型任务	代表数据集
图像数据	分类、检测、分割	MNIST、CIFAR-10/100、ImageNet、COCO
文本数据	分类、情感分析、问答	IMDB Reviews、SQuAD、BBC News、Amazon Reviews
语音/音频	语音识别、情感识别	LibriSpeech、RAVDESS、VoxCeleb
视频数据	动作识别、视频分类	YouTube-8M、Kinetics、UCF101
结构化数据	回归、分类、聚类	Iris、Boston Housing、UCI系列
时序数据	预测、异常检测	Yahoo Finance、UCI Gas Sensor
3D/点云数据	3D检测、重建	KITTI、ScanNet、nuScenes
医学影像	病灶检测、诊断	LIDC-IDRI、HAM10000、MIMIC-III

二、按应用领域分类

1️⃣ 计算机视觉 (Computer Vision)

图像分类：MNIST、CIFAR-10/100、ImageNet、Fashion-MNIST
目标检测：COCO、PASCAL VOC、Open Images
语义分割：Cityscapes、ADE20K、PASCAL Context
人脸识别：LFW、CelebA、VGGFace2
医学图像：LIDC-IDRI（肺结节）、HAM10000（皮肤癌）、DDSM（乳腺）
遥感/卫星图像：Sentinel-2、EuroSAT、DeepGlobe

1️⃣ 图像分类 (Image Classification)

数据集	机构/来源	规模与特点	官方网址
MNIST	Yann LeCun (NYU)	70,000张28×28手写数字灰度图，10类	http://yann.lecun.com/exdb/mnist/
CIFAR-10/100	University of Toronto	60,000张32×32自然彩色图像，10/100类	https://www.cs.toronto.edu/~kriz/cifar.html
ImageNet-1K	Stanford/Princeton	1400万张图像，1000类，ILSVRC基准	https://www.image-net.org/
ImageNet-21K	Stanford	完整ImageNet，21,841类，1419万张图	https://www.image-net.org/ (Fall11/Win21版本)
Fashion-MNIST	Zalando Research	70,000张时尚商品图像，替代MNIST	https://github.com/zalandoresearch/fashion-mnist
SVHN	Stanford	630,000张街景门牌号数字，32×32彩色	http://ufldl.stanford.edu/housenumbers/
Places365	MIT	180万张场景图像，365类场景分类	http://places2.csail.mit.edu/download.html
CINIC-10	University of Edinburgh	270,000张图像（CIFAR-10+ImageNet混合），验证集90,000张	https://datashare.ed.ac.uk/handle/10283/3192
Tiny ImageNet	Stanford CS231N	200类，100,000张64×64训练图，10,000验证	http://cs231n.stanford.edu/tiny-imagenet-200.zip

2️⃣ 目标检测 (Object Detection)

数据集	机构/来源	规模与特点	官方网址
COCO	Microsoft	330,000张图像，80类，实例分割+关键点	https://cocodataset.org/#download
PASCAL VOC	Oxford/ Leeds	20类，2007/2012版本，经典检测基准	http://host.robots.ox.ac.uk/pascal/VOC/
Open Images	Google AI	600类，900万张图像，1900万个标注框	https://storage.googleapis.com/openimages/web/download.html
LVIS	Facebook AI (FAIR)	1203类，164,000张图像，长尾分布实例分割	https://www.lvisdataset.org/
KITTI	Karlsruhe Inst. + Toyota	7,481张训练图，8类（车/行人/骑车人），自动驾驶场景	http://www.cvlibs.net/datasets/kitti/
BDD100K	Berkeley AI Research	100,000视频，10类目标检测，可行驶区域分割	http://bdd-data.berkeley.edu/
nuScenes	Aptiv (nuTonomy)	1000场景，6相机+5雷达+1激光雷达，23类3D框	https://www.nuscenes.org/
Waymo Open Dataset	Waymo (Google)	1,150场景，高分辨率激光雷达+相机，4类	https://waymo.com/open/
xView	DIUx (Defense)	846张卫星图，60类，140万平方公里，0.3m分辨率	http://xviewdataset.org/

3️⃣ 语义分割 (Semantic Segmentation)

数据集	机构/来源	规模与特点	官方网址
Cityscapes	Daimler等	5,000张精细标注，30类，城市街道场景	https://www.cityscapes-dataset.com/
ADE20K	MIT	20,000张图像，150类场景解析	https://groups.csail.mit.edu/vision/datasets/ADE20K/
PASCAL Context	Stanford	60类标签，基于PASCAL 2010扩展	https://cs.stanford.edu/~roozbeh/pascal-context/
COCO-Stuff	University of Edinburgh	171类，164,000张图像， stuff+thing联合分割	https://github.com/nightrome/cocostuff
Mapillary Vistas	Mapillary	25,000张高分辨率街景，66类，全球覆盖	https://www.mapillary.com/dataset/vistas
SUN RGB-D	Princeton	10,335张室内RGB-D图像，37类，4种相机	https://rgbd.cs.princeton.edu/
NYU Depth V2	NYU	1,449张对齐RGB-D，464个室内场景	https://cs.nyu.edu/~fergus/datasets/nyu_depth_v2.html
ISPRS Vaihingen	ISPRS	33张9cm分辨率航空图，6类（建筑/道路/植被）	https://www.isprs.org/education/benchmarks/UrbanSemLab/2d-sem-label-vaihingen.aspx
ISPRS Potsdam	ISPRS	38张5cm分辨率航空图，6类，6000×6000像素	https://www.isprs.org/education/benchmarks/UrbanSemLab/2d-sem-label-potsdam.aspx

4️⃣ 人脸识别 (Face Recognition)

数据集	机构/来源	规模与特点	官方网址
LFW	University of Massachusetts	13,000张图像，5,749人，无约束环境	http://vis-www.cs.umass.edu/lfw/
CelebA	CUHK	200,000张图像，10,177人，40个属性	https://mmlab.ie.cuhk.edu.hk/projects/CelebA.html
VGGFace2	Oxford VGG Group	331万张图像，9,131人，跨姿态年龄	https://www.robots.ox.ac.uk/~vgg/data/vgg_face2/
IJB-B	NIST	1,845人，21,800张图像+55,000视频帧	https://www.nist.gov/programs-projects/face-challenges
IJB-C	NIST	3,531人，31,334张图像+117,542视频帧	https://www.nist.gov/programs-projects/face-challenges
MegaFace	University of Washington	100万张图像，690,000人，百万级干扰项测试	http://megaface.cs.washington.edu/
MS-Celeb-1M	Microsoft Research	1000万张图像，100K名人，最大公开人脸数据集	https://www.microsoft.com/en-us/research/project/ms-celeb-1m-challenge-recognizing-one-million-celebrities-real-world/
FaceScrub	National University of Singapore	106,863张图像，530位公众人物，男女均衡	http://vintage.winklerbros.net/facescrub.html
CASIA-WebFace	CASIA	494,141张图像，10,575人，网络爬取清洗	https://github.com/deepinsight/insightface/wiki/Dataset-Zoo

5️⃣ 医学图像 (Medical Imaging)

数据集	机构/来源	规模与特点	官方网址
LIDC-IDRI	NIH/NCI	1,018例低剂量胸部CT，肺结节标注	https://wiki.cancerimagingarchive.net/pages/viewpage.action?pageId=1966254
HAM10000	ISIC/Harvard	10,000张皮肤镜图像，7类皮肤病变	https://dataverse.harvard.edu/dataset.xhtml?persistentId=doi:10.7910/DVN/DBW86T
CBIS-DDSM	University of Chicago	3,100例乳腺钼靶，钙化/肿块标注	https://wiki.cancerimagingarchive.net/pages/viewpage.action?pageId=22516698
ChestX-ray14	NIH Clinical Center	112,120张X光片，30,805患者，14类病变	https://nihcc.app.box.com/v/ChestXray-NIHCC
BraTS	Medical Imaging	3D脑肿瘤分割，4种MRI模态（T1/T2/FLAIR）	https://www.med.upenn.edu/cbica/brats/
LiTS	MICCAI Challenge	131例训练+70例测试，3D CT肝脏肿瘤分割	https://competitions.codalab.org/competitions/17094
ISIC Archive	ISIC	40万+皮肤病变图像，多机构贡献	https://isic-archive.com/
TCGA Pathology	NCI/NIH	30,072张全切片图像，32种癌症类型	https://www.cancer.gov/ccg/research/genome-sequencing/tcga
3D-IRCADb01	IRCAD France	20例3D CT肝脏肿瘤，专家标注	https://www.ircad.fr/research/data-sets/liver-segmentation-3d-ircadb-01/

6️⃣ 遥感/卫星图像 (Remote Sensing)

数据集	机构/来源	规模与特点	官方网址
Sentinel-2	ESA (European Space Agency)	多光谱13波段，10-60米分辨率，全球覆盖	https://scihub.copernicus.eu/
EuroSAT	Technical University of Munich	27,000张64×64图像，10类土地利用，Sentinel-2	https://github.com/phelber/eurosat
DeepGlobe	IEEE/ CVPR Workshop	高分辨率卫星图像，道路/建筑分割	http://deepglobe.org/
DOTA	Wuhan University (China)	2,806张航拍图，15类，188,282实例，定向检测	https://captain-whu.github.io/DOTA/
xView	DIUx (Defense Innovation)	846张卫星图，60类，0.3m分辨率，WorldView-3	http://xviewdataset.org/
NWPU-RESISC45	Northwestern Polytechnical Univ.	31,500张图像，45类场景，256×256，Google Earth	http://www.escience.cn/people/JunweiHan/NWPU-RESISC45.html
BigEarthNet	Technical University of Munich	590,326对 Sentinel-1/2图像，19类土地覆盖	https://bigearth.net/
SpaceNet	Radiant Solutions	卫星图像建筑/道路提取，多城市覆盖	https://spacenet.ai/
HRSC2016	Wuhan University	1,061张图像，舰船检测，旋转框标注	https://sites.google.com/site/hrschand/
LoveDA	Wuhan University	5,987张1024×1024图像，7类，城乡场景	https://github.com/Junjue-Wang/LoveDA
fMoW	DigitalGlobe/IARPA	100万张图像，63类，207国家，时序变化检测	https://github.com/fMoW/dataset

2️⃣ 自然语言处理 (NLP)

1. 情感分析 (Sentiment Analysis)

数据集	官方来源	规模	特点
IMDB Reviews	http://ai.stanford.edu/~amaas/data/sentiment/	50,000条	电影评论二分类，长文本基准
Sentiment140	http://help.sentiment140.com/for-students	160万条	基于表情符号自动标注的推文
Yelp Reviews	https://www.yelp.com/dataset/download	700万条	包含商家信息和JSON/SQL格式
SST-2/5	https://nlp.stanford.edu/sentiment/	67K (SST-2)	斯坦福情感树库，细粒度标签
Amazon Reviews	https://huggingface.co/datasets/amazon_polarity	数百万条	多领域产品评论

2. 文本分类 (Text Classification)

数据集	官方来源	规模	特点
BBC News	https://www.kaggle.com/hgultekin/bbcnewsarchive	2,225篇	5类别新闻（商业/娱乐/政治/体育/科技）
20 Newsgroups	http://qwone.com/~jason/20Newsgroups/	18,828篇	20个新闻组主题，经典基准
AG News	https://huggingface.co/datasets/ag_news	100万+	4类别新闻分类
TREC	https://cogcomp.seas.upenn.edu/Data/QA/QC/	5,452条	问题分类（6/50类），问答系统基准
Yahoo Answers	https://huggingface.co/datasets/yahoo_answers_qa	140万+	10类别问答社区文本

3. 命名实体识别 (NER)

数据集	官方来源	规模	特点
CoNLL-2003	https://huggingface.co/datasets/conll2003	14,987句	4实体类型（PER/ORG/LOC/MISC），英语+德语
OntoNotes 5.0	https://catalog.ldc.upenn.edu/LDC2013T19	最大英文NER语料	18实体类型，含指代消解
WikiANN	https://huggingface.co/datasets/wikiann	282种语言	跨语言NER，基于Wikipedia
Groningen Meaning Bank	http://gmb.let.rug.nl/data.php	10,000句	含语法层和语义层标注

4. 机器翻译 (Machine Translation)

数据集	官方来源	规模	特点
WMT	http://www.statmt.org/wmt/	年度更新	权威翻译竞赛，含德-英、中-英等
OPUS	http://opus.nlpl.eu/	400+语言对	开放平行语料，含书籍/网页/字幕
OpenSubtitles	http://www.opensubtitles.org/	多语言	电影字幕平行语料，日常对话风格
ParaCrawl	https://paracrawl.eu/	百亿级	从网页自动挖掘的平行语料
Europarl	https://www.statmt.org/europarl/	21种语言	欧洲议会会议记录，政治领域

5. 问答系统 (Question Answering)

数据集	官方来源	规模	特点
SQuAD 1.1/2.0	https://rajpurkar.github.io/SQuAD-explorer/	10万+/15万+	抽取式QA基准，2.0含不可答问题
HotpotQA	https://hotpotqa.github.io/	113,000+	多跳推理，需综合多个文档
Natural Questions	https://ai.google.com/research/NaturalQuestions	30万+	Google真实查询，含长/短答案
WikiQA	https://microsoft.com/en-us/download/details.aspx?id=52419	3,047问题	Bing真实查询，含不可答样本
MS MARCO	https://microsoft.github.io/msmarco/	100万+	真实Bing查询， passage排序
TriviaQA	https://nlp.cs.washington.edu/triviaqa/	65万+	含文档与问题-答案对
DROP	https://allennlp.org/drop	-	离散推理，需算术/比较/排序
QuAC	https://quac.ai/	14K对话	对话式问答，含上下文依赖

6. 文本摘要 (Summarization)

数据集	官方来源	规模	特点
CNN/DailyMail	https://huggingface.co/datasets/cnn_dailymail	30万+	新闻摘要基准，抽取+生成式
XSum	https://huggingface.co/datasets/xsum	22万+	极端摘要，单句概括BBC文章
SAMSum	https://huggingface.co/datasets/samsum	16,000+	对话摘要，Messenger风格聊天
Newsroom	https://lil.nlp.cornell.edu/newsroom/	130万	多来源新闻，多样化摘要策略
Gigaword	LDC Catalog	400万+	标题生成，新闻文章-摘要对
BigPatent	https://huggingface.co/datasets/big_patent	130万	专利文档摘要，长文本

7. 自然语言推理 (NLI) / 文本蕴含

数据集	官方来源	规模	特点
SNLI	https://nlp.stanford.edu/projects/snli/	55万对	斯坦福NLI基准，众包标注
MultiNLI (MNLI)	https://huggingface.co/datasets/multi_nli	43万对	多领域NLI，跨领域泛化测试
ANLI	https://huggingface.co/datasets/anli	16万+	对抗性NLI，难例挖掘
RTE	GLUE Benchmark	2,490对	文本蕴含识别，来自年度竞赛
XNLI	https://github.com/facebookresearch/XNLI	15种语言	跨语言NLI

8. 语义相似度/复述检测

数据集	官方来源	规模	特点
STS-B	GLUE Benchmark	5,750对	语义文本相似度，1-5分回归
MRPC	https://huggingface.co/datasets/glue	3,668对	微软复述语料，新闻句子对
QQP	https://huggingface.co/datasets/glue	36万对	Quora问题对，语义等价检测
SICK	http://clic.cimec.unitn.it/composes/sick.html	10,000对	句子的组合知识，含相矛盾对
SimLex-999	https://fh295.github.io/simlex.html	999对	词汇相似度，人类标注

9. 语法可接受性/语言表格

数据集	官方来源	规模	特点
CoLA	https://huggingface.co/datasets/glue	10,657句	语言可接受性判断，二分类
BLiMP	https://huggingface.co/datasets/blimp	67,000句	语言学最小对，测试语法知识
Penn Treebank	LDC Catalog	-	句法分析标准，词性+句法树
Universal Dependencies	https://universaldependencies.org/	100+语言	跨语言依存句法标注

10. 常识推理 (Commonsense Reasoning)

数据集	官方来源	规模	特点
CommonsenseQA	https://www.tau-nlp.org/commonsenseqa	12,247问	基于ConceptNet，需背景知识
HellaSwag	https://rowanzellers.com/hellaswag/	7万+	常识推理，故事补全
WinoGrande	https://huggingface.co/datasets/winogrande	4.4万+	代词消歧，扩展Winograd
PIQA	https://huggingface.co/datasets/piqa	20,000+	物理常识推理，日常情境
Social IQA	https://huggingface.co/datasets/social_i_qa	3.8万+	社会情境情感推理
OpenBookQA	https://huggingface.co/datasets/openbookqa	5,957问	开放书问答，结合知识检索
Cosmos QA	https://wilburone.github.io/cosmos	3.56万	语境常识推理，叙事理解
ARC	https://allenai.org/data/arc	7,787问	小学科学考试，挑战推理
BoolQ	https://huggingface.co/datasets/boolq	16,000+	布尔型问答，是非判断

11. 事实验证/事实核查

数据集	官方来源	规模	特点
FEVER	https://fever.ai/	18.5万声明	事实抽取与验证，维基百科证据
SciFact	https://scifact.apps.allenai.org/	1,409声明	科学文献事实核查
Climate-FEVER	https://huggingface.co/datasets/climate_fever	1,535声明	气候变化相关事实验证
COVID-Fact	-	4,086声明	疫情相关事实核查
HealthVER	-	-	健康声明验证，科学文献

12. 语言模型预训练 (Pretraining)

数据集	官方来源	规模	特点
Common Crawl	https://commoncrawl.org/	PB级	全网爬取，原始网页数据
C4	https://huggingface.co/datasets/c4	806GB (en)	Colossal Clean Crawled Corpus，清洗版
The Pile	https://pile.eleuther.ai/	825GB	EleutherAI发布，22个高质量子集
RedPajama	https://huggingface.co/datasets/togethercomputer/RedPajama-Data-1T	1.2万亿token	开源LLaMA训练数据
RefinedWeb	https://huggingface.co/datasets/tiiuae/falcon-refinedweb	5T tokens	Falcon模型训练数据，高质量过滤
OpenWebText	https://skylion007.github.io/OpenWebTextCorpus/	-	WebText开源替代，Reddit链接
One Billion Word	http://www.statmt.org/lm-benchmark/	10亿词	语言建模标准基准
BookCorpus	https://huggingface.co/datasets/bookcorpus	1.1万本	未出版书籍，GPT-1训练数据
ROOTS	https://huggingface.co/bigscience-data/roots	1.6TB	BigScience项目，多语言
Pile of Law	https://huggingface.co/datasets/pile-of-law/pile-of-law	-	法律领域专用语料

13. 对话系统 (Dialogue/Chat)

数据集	官方来源	规模	特点
DailyDialog	http://yanran.li/dailydialog	13,118对话	日常对话，含情感+意图标注
MultiWOZ	https://github.com/budzianowski/multiwoz	10,438对话	多领域任务导向对话，完全标注
Persona-Chat	https://huggingface.co/datasets/personachat	16万+话语	基于人格角色的开放域对话
Topical-Chat	https://huggingface.co/datasets/topical_chat	-	知识 grounding 对话
Wizard of Wikipedia	https://huggingface.co/datasets/wizard_of_wikipedia	-	维基百科知识对话
Ubuntu Dialogue	https://huggingface.co/datasets/ubuntu_dialogs_corpus	100万+	技术支持对话，多轮
ED (Empathetic Dialogues)	https://huggingface.co/datasets/empathetic_dialogues	25,000+	情感对话，共情回复

14. 其他重要基准 (Benchmarks)

基准	涵盖任务	官方链接
GLUE	9项NLU任务 (CoLA/SST-2/MRPC/STS-B/QQP/MNLI/QNLI/RTE/WNLI)	https://gluebenchmark.com/
SuperGLUE	更难NLU任务 (BoolQ/CB/Copa/MultiRC/ReCoRD/RTE/WiC/WSC)	https://super.gluebenchmark.com/
Xtreme	跨语言理解基准	https://huggingface.co/datasets/xtreme
BIG-bench	200+语言与推理任务	https://github.com/google/BIG-bench
MMLU	57学科多选问答	https://huggingface.co/datasets/cais/mmlu

3️⃣ 语音与音频

语音识别：LibriSpeech、TED-LIUM、Common Voice
语音情感识别：RAVDESS、IEMOCAP、LSSED
音乐分析：Million Song Dataset、GTZAN（音乐流派）
环境音识别：ESC-50、AudioSet、UrbanSound8K

4️⃣ 推荐系统

电影推荐：MovieLens、Netflix Prize、MovieTweetings
电商推荐：Amazon Product Data、Yelp、Goodbooks
音乐推荐：Last.fm、Spotify Million Playlist Dataset

5️⃣ 自动驾驶与机器人

自动驾驶：KITTI、Cityscapes、BDD100K、nuScenes、Waymo Open Dataset
SLAM/定位：TUM RGB-D、EuRoC、Oxford RobotCar
3D重建：ScanNet、Matterport3D、Replica Dataset

6️⃣ 医疗健康

电子病历：MIMIC-III/IV（重症监护）、eICU
医学影像：如上述CV医学数据集
药物发现：ChEMBL、DrugBank、PubChem
基因组学：TCGA、1000 Genomes Project

7️⃣ 时序与金融

股票价格：Yahoo Finance、Quandl
经济指标：World Bank Open Data、FRED
传感器数据：UCI Gas Sensor、WISDM（人体活动）

8️⃣ 工业与科学

工业检测：NEU Surface Defect、DAGM、 MVTec AD
农业：PlantVillage（植物病害）、Crop Yield
气象：NOAA、ERA5、Climate Data Store

三、按机器学习任务分类

任务类型	适用数据集示例
分类 (Classification)	Iris、MNIST、CIFAR、Spam Detection
回归 (Regression)	Boston Housing、California Housing、Energy Consumption
聚类 (Clustering)	Wine、Wholesale Customers、Mall Customer Segmentation
目标检测	COCO、PASCAL VOC、Open Images
语义分割	Cityscapes、ADE20K、PASCAL Context
生成模型	CelebA-HQ、FFHQ、LSUN
强化学习	OpenAI Gym、MuJoCo、Atari 2600
图神经网络	Cora、Citeseer、PubMed、OGB

四、主流数据集平台汇总

平台名称	特点	网址
Kaggle	竞赛平台，数据集质量高，社区活跃	kaggle.com/datasets
UCI ML Repository	经典学术数据集，适合算法基准测试	archive.ics.uci.edu/ml
Google Dataset Search	搜索引擎，聚合多源数据	datasetsearch.research.google.com
Papers With Code	与论文关联，包含SOTA结果	paperswithcode.com/datasets
Hugging Face Datasets	NLP/CV为主，加载方便	huggingface.co/datasets
Kaggle Datasets	竞赛和实战数据集	kaggle.com/datasets
天池数据集	阿里系，中文场景丰富	tianchi.aliyun.com
AI Studio	百度飞桨，中文数据集	aistudio.baidu.com
AWS Open Data	大规模公开数据集	registry.opendata.aws
Data.gov	美国政府开放数据	data.gov
EU Open Data Portal	欧盟官方数据	data.europa.eu