目录
[1️⃣ 计算机视觉 (Computer Vision)](#1️⃣ 计算机视觉 (Computer Vision))
[1️⃣ 图像分类 (Image Classification)](#1️⃣ 图像分类 (Image Classification))
[2️⃣ 目标检测 (Object Detection)](#2️⃣ 目标检测 (Object Detection))
[3️⃣ 语义分割 (Semantic Segmentation)](#3️⃣ 语义分割 (Semantic Segmentation))
[4️⃣ 人脸识别 (Face Recognition)](#4️⃣ 人脸识别 (Face Recognition))
[5️⃣ 医学图像 (Medical Imaging)](#5️⃣ 医学图像 (Medical Imaging))
[6️⃣ 遥感/卫星图像 (Remote Sensing)](#6️⃣ 遥感/卫星图像 (Remote Sensing))
[2️⃣ 自然语言处理 (NLP)](#2️⃣ 自然语言处理 (NLP))
[3️⃣ 语音与音频](#3️⃣ 语音与音频)
[4️⃣ 推荐系统](#4️⃣ 推荐系统)
[5️⃣ 自动驾驶与机器人](#5️⃣ 自动驾驶与机器人)
[6️⃣ 医疗健康](#6️⃣ 医疗健康)
[7️⃣ 时序与金融](#7️⃣ 时序与金融)
[8️⃣ 工业与科学](#8️⃣ 工业与科学)
一、按数据类型分类
| 数据类型 | 典型任务 | 代表数据集 |
|---|---|---|
| 图像数据 | 分类、检测、分割 | MNIST、CIFAR-10/100、ImageNet、COCO |
| 文本数据 | 分类、情感分析、问答 | IMDB Reviews、SQuAD、BBC News、Amazon Reviews |
| 语音/音频 | 语音识别、情感识别 | LibriSpeech、RAVDESS、VoxCeleb |
| 视频数据 | 动作识别、视频分类 | YouTube-8M、Kinetics、UCF101 |
| 结构化数据 | 回归、分类、聚类 | Iris、Boston Housing、UCI系列 |
| 时序数据 | 预测、异常检测 | Yahoo Finance、UCI Gas Sensor |
| 3D/点云数据 | 3D检测、重建 | KITTI、ScanNet、nuScenes |
| 医学影像 | 病灶检测、诊断 | LIDC-IDRI、HAM10000、MIMIC-III |
二、按应用领域分类
1️⃣ 计算机视觉 (Computer Vision)
-
图像分类:MNIST、CIFAR-10/100、ImageNet、Fashion-MNIST
-
目标检测:COCO、PASCAL VOC、Open Images
-
语义分割:Cityscapes、ADE20K、PASCAL Context
-
人脸识别:LFW、CelebA、VGGFace2
-
医学图像:LIDC-IDRI(肺结节)、HAM10000(皮肤癌)、DDSM(乳腺)
-
遥感/卫星图像:Sentinel-2、EuroSAT、DeepGlobe
1️⃣ 图像分类 (Image Classification)
| 数据集 | 机构/来源 | 规模与特点 | 官方网址 |
|---|---|---|---|
| MNIST | Yann LeCun (NYU) | 70,000张28×28手写数字灰度图,10类 | http://yann.lecun.com/exdb/mnist/ |
| CIFAR-10/100 | University of Toronto | 60,000张32×32自然彩色图像,10/100类 | https://www.cs.toronto.edu/~kriz/cifar.html |
| ImageNet-1K | Stanford/Princeton | 1400万张图像,1000类,ILSVRC基准 | https://www.image-net.org/ |
| ImageNet-21K | Stanford | 完整ImageNet,21,841类,1419万张图 | https://www.image-net.org/ (Fall11/Win21版本) |
| Fashion-MNIST | Zalando Research | 70,000张时尚商品图像,替代MNIST | https://github.com/zalandoresearch/fashion-mnist |
| SVHN | Stanford | 630,000张街景门牌号数字,32×32彩色 | http://ufldl.stanford.edu/housenumbers/ |
| Places365 | MIT | 180万张场景图像,365类场景分类 | http://places2.csail.mit.edu/download.html |
| CINIC-10 | University of Edinburgh | 270,000张图像(CIFAR-10+ImageNet混合),验证集90,000张 | https://datashare.ed.ac.uk/handle/10283/3192 |
| Tiny ImageNet | Stanford CS231N | 200类,100,000张64×64训练图,10,000验证 | http://cs231n.stanford.edu/tiny-imagenet-200.zip |
2️⃣ 目标检测 (Object Detection)
| 数据集 | 机构/来源 | 规模与特点 | 官方网址 |
|---|---|---|---|
| COCO | Microsoft | 330,000张图像,80类,实例分割+关键点 | https://cocodataset.org/#download |
| PASCAL VOC | Oxford/ Leeds | 20类,2007/2012版本,经典检测基准 | http://host.robots.ox.ac.uk/pascal/VOC/ |
| Open Images | Google AI | 600类,900万张图像,1900万个标注框 | https://storage.googleapis.com/openimages/web/download.html |
| LVIS | Facebook AI (FAIR) | 1203类,164,000张图像,长尾分布实例分割 | https://www.lvisdataset.org/ |
| KITTI | Karlsruhe Inst. + Toyota | 7,481张训练图,8类(车/行人/骑车人),自动驾驶场景 | http://www.cvlibs.net/datasets/kitti/ |
| BDD100K | Berkeley AI Research | 100,000视频,10类目标检测,可行驶区域分割 | http://bdd-data.berkeley.edu/ |
| nuScenes | Aptiv (nuTonomy) | 1000场景,6相机+5雷达+1激光雷达,23类3D框 | https://www.nuscenes.org/ |
| Waymo Open Dataset | Waymo (Google) | 1,150场景,高分辨率激光雷达+相机,4类 | https://waymo.com/open/ |
| xView | DIUx (Defense) | 846张卫星图,60类,140万平方公里,0.3m分辨率 | http://xviewdataset.org/ |
3️⃣ 语义分割 (Semantic Segmentation)
| 数据集 | 机构/来源 | 规模与特点 | 官方网址 |
|---|---|---|---|
| Cityscapes | Daimler等 | 5,000张精细标注,30类,城市街道场景 | https://www.cityscapes-dataset.com/ |
| ADE20K | MIT | 20,000张图像,150类场景解析 | https://groups.csail.mit.edu/vision/datasets/ADE20K/ |
| PASCAL Context | Stanford | 60类标签,基于PASCAL 2010扩展 | https://cs.stanford.edu/~roozbeh/pascal-context/ |
| COCO-Stuff | University of Edinburgh | 171类,164,000张图像, stuff+thing联合分割 | https://github.com/nightrome/cocostuff |
| Mapillary Vistas | Mapillary | 25,000张高分辨率街景,66类,全球覆盖 | https://www.mapillary.com/dataset/vistas |
| SUN RGB-D | Princeton | 10,335张室内RGB-D图像,37类,4种相机 | https://rgbd.cs.princeton.edu/ |
| NYU Depth V2 | NYU | 1,449张对齐RGB-D,464个室内场景 | https://cs.nyu.edu/~fergus/datasets/nyu_depth_v2.html |
| ISPRS Vaihingen | ISPRS | 33张9cm分辨率航空图,6类(建筑/道路/植被) | https://www.isprs.org/education/benchmarks/UrbanSemLab/2d-sem-label-vaihingen.aspx |
| ISPRS Potsdam | ISPRS | 38张5cm分辨率航空图,6类,6000×6000像素 | https://www.isprs.org/education/benchmarks/UrbanSemLab/2d-sem-label-potsdam.aspx |
4️⃣ 人脸识别 (Face Recognition)
| 数据集 | 机构/来源 | 规模与特点 | 官方网址 |
|---|---|---|---|
| LFW | University of Massachusetts | 13,000张图像,5,749人,无约束环境 | http://vis-www.cs.umass.edu/lfw/ |
| CelebA | CUHK | 200,000张图像,10,177人,40个属性 | https://mmlab.ie.cuhk.edu.hk/projects/CelebA.html |
| VGGFace2 | Oxford VGG Group | 331万张图像,9,131人,跨姿态年龄 | https://www.robots.ox.ac.uk/~vgg/data/vgg_face2/ |
| IJB-B | NIST | 1,845人,21,800张图像+55,000视频帧 | https://www.nist.gov/programs-projects/face-challenges |
| IJB-C | NIST | 3,531人,31,334张图像+117,542视频帧 | https://www.nist.gov/programs-projects/face-challenges |
| MegaFace | University of Washington | 100万张图像,690,000人,百万级干扰项测试 | http://megaface.cs.washington.edu/ |
| MS-Celeb-1M | Microsoft Research | 1000万张图像,100K名人,最大公开人脸数据集 | https://www.microsoft.com/en-us/research/project/ms-celeb-1m-challenge-recognizing-one-million-celebrities-real-world/ |
| FaceScrub | National University of Singapore | 106,863张图像,530位公众人物,男女均衡 | http://vintage.winklerbros.net/facescrub.html |
| CASIA-WebFace | CASIA | 494,141张图像,10,575人,网络爬取清洗 | https://github.com/deepinsight/insightface/wiki/Dataset-Zoo |
5️⃣ 医学图像 (Medical Imaging)
| 数据集 | 机构/来源 | 规模与特点 | 官方网址 |
|---|---|---|---|
| LIDC-IDRI | NIH/NCI | 1,018例低剂量胸部CT,肺结节标注 | https://wiki.cancerimagingarchive.net/pages/viewpage.action?pageId=1966254 |
| HAM10000 | ISIC/Harvard | 10,000张皮肤镜图像,7类皮肤病变 | https://dataverse.harvard.edu/dataset.xhtml?persistentId=doi:10.7910/DVN/DBW86T |
| CBIS-DDSM | University of Chicago | 3,100例乳腺钼靶,钙化/肿块标注 | https://wiki.cancerimagingarchive.net/pages/viewpage.action?pageId=22516698 |
| ChestX-ray14 | NIH Clinical Center | 112,120张X光片,30,805患者,14类病变 | https://nihcc.app.box.com/v/ChestXray-NIHCC |
| BraTS | Medical Imaging | 3D脑肿瘤分割,4种MRI模态(T1/T2/FLAIR) | https://www.med.upenn.edu/cbica/brats/ |
| LiTS | MICCAI Challenge | 131例训练+70例测试,3D CT肝脏肿瘤分割 | https://competitions.codalab.org/competitions/17094 |
| ISIC Archive | ISIC | 40万+皮肤病变图像,多机构贡献 | https://isic-archive.com/ |
| TCGA Pathology | NCI/NIH | 30,072张全切片图像,32种癌症类型 | https://www.cancer.gov/ccg/research/genome-sequencing/tcga |
| 3D-IRCADb01 | IRCAD France | 20例3D CT肝脏肿瘤,专家标注 | https://www.ircad.fr/research/data-sets/liver-segmentation-3d-ircadb-01/ |
6️⃣ 遥感/卫星图像 (Remote Sensing)
| 数据集 | 机构/来源 | 规模与特点 | 官方网址 |
|---|---|---|---|
| Sentinel-2 | ESA (European Space Agency) | 多光谱13波段,10-60米分辨率,全球覆盖 | https://scihub.copernicus.eu/ |
| EuroSAT | Technical University of Munich | 27,000张64×64图像,10类土地利用,Sentinel-2 | https://github.com/phelber/eurosat |
| DeepGlobe | IEEE/ CVPR Workshop | 高分辨率卫星图像,道路/建筑分割 | http://deepglobe.org/ |
| DOTA | Wuhan University (China) | 2,806张航拍图,15类,188,282实例,定向检测 | https://captain-whu.github.io/DOTA/ |
| xView | DIUx (Defense Innovation) | 846张卫星图,60类,0.3m分辨率,WorldView-3 | http://xviewdataset.org/ |
| NWPU-RESISC45 | Northwestern Polytechnical Univ. | 31,500张图像,45类场景,256×256,Google Earth | http://www.escience.cn/people/JunweiHan/NWPU-RESISC45.html |
| BigEarthNet | Technical University of Munich | 590,326对 Sentinel-1/2图像,19类土地覆盖 | https://bigearth.net/ |
| SpaceNet | Radiant Solutions | 卫星图像建筑/道路提取,多城市覆盖 | https://spacenet.ai/ |
| HRSC2016 | Wuhan University | 1,061张图像,舰船检测,旋转框标注 | https://sites.google.com/site/hrschand/ |
| LoveDA | Wuhan University | 5,987张1024×1024图像,7类,城乡场景 | https://github.com/Junjue-Wang/LoveDA |
| fMoW | DigitalGlobe/IARPA | 100万张图像,63类,207国家,时序变化检测 | https://github.com/fMoW/dataset |
2️⃣ 自然语言处理 (NLP)
1. 情感分析 (Sentiment Analysis)
| 数据集 | 官方来源 | 规模 | 特点 |
|---|---|---|---|
| IMDB Reviews | http://ai.stanford.edu/~amaas/data/sentiment/ | 50,000条 | 电影评论二分类,长文本基准 |
| Sentiment140 | http://help.sentiment140.com/for-students | 160万条 | 基于表情符号自动标注的推文 |
| Yelp Reviews | https://www.yelp.com/dataset/download | 700万条 | 包含商家信息和JSON/SQL格式 |
| SST-2/5 | https://nlp.stanford.edu/sentiment/ | 67K (SST-2) | 斯坦福情感树库,细粒度标签 |
| Amazon Reviews | https://huggingface.co/datasets/amazon_polarity | 数百万条 | 多领域产品评论 |
2. 文本分类 (Text Classification)
| 数据集 | 官方来源 | 规模 | 特点 |
|---|---|---|---|
| BBC News | https://www.kaggle.com/hgultekin/bbcnewsarchive | 2,225篇 | 5类别新闻(商业/娱乐/政治/体育/科技) |
| 20 Newsgroups | http://qwone.com/~jason/20Newsgroups/ | 18,828篇 | 20个新闻组主题,经典基准 |
| AG News | https://huggingface.co/datasets/ag_news | 100万+ | 4类别新闻分类 |
| TREC | https://cogcomp.seas.upenn.edu/Data/QA/QC/ | 5,452条 | 问题分类(6/50类),问答系统基准 |
| Yahoo Answers | https://huggingface.co/datasets/yahoo_answers_qa | 140万+ | 10类别问答社区文本 |
3. 命名实体识别 (NER)
| 数据集 | 官方来源 | 规模 | 特点 |
|---|---|---|---|
| CoNLL-2003 | https://huggingface.co/datasets/conll2003 | 14,987句 | 4实体类型(PER/ORG/LOC/MISC),英语+德语 |
| OntoNotes 5.0 | https://catalog.ldc.upenn.edu/LDC2013T19 | 最大英文NER语料 | 18实体类型,含指代消解 |
| WikiANN | https://huggingface.co/datasets/wikiann | 282种语言 | 跨语言NER,基于Wikipedia |
| Groningen Meaning Bank | http://gmb.let.rug.nl/data.php | 10,000句 | 含语法层和语义层标注 |
4. 机器翻译 (Machine Translation)
| 数据集 | 官方来源 | 规模 | 特点 |
|---|---|---|---|
| WMT | http://www.statmt.org/wmt/ | 年度更新 | 权威翻译竞赛,含德-英、中-英等 |
| OPUS | http://opus.nlpl.eu/ | 400+语言对 | 开放平行语料,含书籍/网页/字幕 |
| OpenSubtitles | http://www.opensubtitles.org/ | 多语言 | 电影字幕平行语料,日常对话风格 |
| ParaCrawl | https://paracrawl.eu/ | 百亿级 | 从网页自动挖掘的平行语料 |
| Europarl | https://www.statmt.org/europarl/ | 21种语言 | 欧洲议会会议记录,政治领域 |
5. 问答系统 (Question Answering)
| 数据集 | 官方来源 | 规模 | 特点 |
|---|---|---|---|
| SQuAD 1.1/2.0 | https://rajpurkar.github.io/SQuAD-explorer/ | 10万+/15万+ | 抽取式QA基准,2.0含不可答问题 |
| HotpotQA | https://hotpotqa.github.io/ | 113,000+ | 多跳推理,需综合多个文档 |
| Natural Questions | https://ai.google.com/research/NaturalQuestions | 30万+ | Google真实查询,含长/短答案 |
| WikiQA | https://microsoft.com/en-us/download/details.aspx?id=52419 | 3,047问题 | Bing真实查询,含不可答样本 |
| MS MARCO | https://microsoft.github.io/msmarco/ | 100万+ | 真实Bing查询, passage排序 |
| TriviaQA | https://nlp.cs.washington.edu/triviaqa/ | 65万+ | 含文档与问题-答案对 |
| DROP | https://allennlp.org/drop | - | 离散推理,需算术/比较/排序 |
| QuAC | https://quac.ai/ | 14K对话 | 对话式问答,含上下文依赖 |
6. 文本摘要 (Summarization)
| 数据集 | 官方来源 | 规模 | 特点 |
|---|---|---|---|
| CNN/DailyMail | https://huggingface.co/datasets/cnn_dailymail | 30万+ | 新闻摘要基准,抽取+生成式 |
| XSum | https://huggingface.co/datasets/xsum | 22万+ | 极端摘要,单句概括BBC文章 |
| SAMSum | https://huggingface.co/datasets/samsum | 16,000+ | 对话摘要,Messenger风格聊天 |
| Newsroom | https://lil.nlp.cornell.edu/newsroom/ | 130万 | 多来源新闻,多样化摘要策略 |
| Gigaword | LDC Catalog | 400万+ | 标题生成,新闻文章-摘要对 |
| BigPatent | https://huggingface.co/datasets/big_patent | 130万 | 专利文档摘要,长文本 |
7. 自然语言推理 (NLI) / 文本蕴含
| 数据集 | 官方来源 | 规模 | 特点 |
|---|---|---|---|
| SNLI | https://nlp.stanford.edu/projects/snli/ | 55万对 | 斯坦福NLI基准,众包标注 |
| MultiNLI (MNLI) | https://huggingface.co/datasets/multi_nli | 43万对 | 多领域NLI,跨领域泛化测试 |
| ANLI | https://huggingface.co/datasets/anli | 16万+ | 对抗性NLI,难例挖掘 |
| RTE | GLUE Benchmark | 2,490对 | 文本蕴含识别,来自年度竞赛 |
| XNLI | https://github.com/facebookresearch/XNLI | 15种语言 | 跨语言NLI |
8. 语义相似度/复述检测
| 数据集 | 官方来源 | 规模 | 特点 |
|---|---|---|---|
| STS-B | GLUE Benchmark | 5,750对 | 语义文本相似度,1-5分回归 |
| MRPC | https://huggingface.co/datasets/glue | 3,668对 | 微软复述语料,新闻句子对 |
| QQP | https://huggingface.co/datasets/glue | 36万对 | Quora问题对,语义等价检测 |
| SICK | http://clic.cimec.unitn.it/composes/sick.html | 10,000对 | 句子的组合知识,含相矛盾对 |
| SimLex-999 | https://fh295.github.io/simlex.html | 999对 | 词汇相似度,人类标注 |
9. 语法可接受性/语言表格
| 数据集 | 官方来源 | 规模 | 特点 |
|---|---|---|---|
| CoLA | https://huggingface.co/datasets/glue | 10,657句 | 语言可接受性判断,二分类 |
| BLiMP | https://huggingface.co/datasets/blimp | 67,000句 | 语言学最小对,测试语法知识 |
| Penn Treebank | LDC Catalog | - | 句法分析标准,词性+句法树 |
| Universal Dependencies | https://universaldependencies.org/ | 100+语言 | 跨语言依存句法标注 |
10. 常识推理 (Commonsense Reasoning)
| 数据集 | 官方来源 | 规模 | 特点 |
|---|---|---|---|
| CommonsenseQA | https://www.tau-nlp.org/commonsenseqa | 12,247问 | 基于ConceptNet,需背景知识 |
| HellaSwag | https://rowanzellers.com/hellaswag/ | 7万+ | 常识推理,故事补全 |
| WinoGrande | https://huggingface.co/datasets/winogrande | 4.4万+ | 代词消歧,扩展Winograd |
| PIQA | https://huggingface.co/datasets/piqa | 20,000+ | 物理常识推理,日常情境 |
| Social IQA | https://huggingface.co/datasets/social_i_qa | 3.8万+ | 社会情境情感推理 |
| OpenBookQA | https://huggingface.co/datasets/openbookqa | 5,957问 | 开放书问答,结合知识检索 |
| Cosmos QA | https://wilburone.github.io/cosmos | 3.56万 | 语境常识推理,叙事理解 |
| ARC | https://allenai.org/data/arc | 7,787问 | 小学科学考试,挑战推理 |
| BoolQ | https://huggingface.co/datasets/boolq | 16,000+ | 布尔型问答,是非判断 |
11. 事实验证/事实核查
| 数据集 | 官方来源 | 规模 | 特点 |
|---|---|---|---|
| FEVER | https://fever.ai/ | 18.5万声明 | 事实抽取与验证,维基百科证据 |
| SciFact | https://scifact.apps.allenai.org/ | 1,409声明 | 科学文献事实核查 |
| Climate-FEVER | https://huggingface.co/datasets/climate_fever | 1,535声明 | 气候变化相关事实验证 |
| COVID-Fact | - | 4,086声明 | 疫情相关事实核查 |
| HealthVER | - | - | 健康声明验证,科学文献 |
12. 语言模型预训练 (Pretraining)
| 数据集 | 官方来源 | 规模 | 特点 |
|---|---|---|---|
| Common Crawl | https://commoncrawl.org/ | PB级 | 全网爬取,原始网页数据 |
| C4 | https://huggingface.co/datasets/c4 | 806GB (en) | Colossal Clean Crawled Corpus,清洗版 |
| The Pile | https://pile.eleuther.ai/ | 825GB | EleutherAI发布,22个高质量子集 |
| RedPajama | https://huggingface.co/datasets/togethercomputer/RedPajama-Data-1T | 1.2万亿token | 开源LLaMA训练数据 |
| RefinedWeb | https://huggingface.co/datasets/tiiuae/falcon-refinedweb | 5T tokens | Falcon模型训练数据,高质量过滤 |
| OpenWebText | https://skylion007.github.io/OpenWebTextCorpus/ | - | WebText开源替代,Reddit链接 |
| One Billion Word | http://www.statmt.org/lm-benchmark/ | 10亿词 | 语言建模标准基准 |
| BookCorpus | https://huggingface.co/datasets/bookcorpus | 1.1万本 | 未出版书籍,GPT-1训练数据 |
| ROOTS | https://huggingface.co/bigscience-data/roots | 1.6TB | BigScience项目,多语言 |
| Pile of Law | https://huggingface.co/datasets/pile-of-law/pile-of-law | - | 法律领域专用语料 |
13. 对话系统 (Dialogue/Chat)
| 数据集 | 官方来源 | 规模 | 特点 |
|---|---|---|---|
| DailyDialog | http://yanran.li/dailydialog | 13,118对话 | 日常对话,含情感+意图标注 |
| MultiWOZ | https://github.com/budzianowski/multiwoz | 10,438对话 | 多领域任务导向对话,完全标注 |
| Persona-Chat | https://huggingface.co/datasets/personachat | 16万+话语 | 基于人格角色的开放域对话 |
| Topical-Chat | https://huggingface.co/datasets/topical_chat | - | 知识 grounding 对话 |
| Wizard of Wikipedia | https://huggingface.co/datasets/wizard_of_wikipedia | - | 维基百科知识对话 |
| Ubuntu Dialogue | https://huggingface.co/datasets/ubuntu_dialogs_corpus | 100万+ | 技术支持对话,多轮 |
| ED (Empathetic Dialogues) | https://huggingface.co/datasets/empathetic_dialogues | 25,000+ | 情感对话,共情回复 |
14. 其他重要基准 (Benchmarks)
| 基准 | 涵盖任务 | 官方链接 |
|---|---|---|
| GLUE | 9项NLU任务 (CoLA/SST-2/MRPC/STS-B/QQP/MNLI/QNLI/RTE/WNLI) | https://gluebenchmark.com/ |
| SuperGLUE | 更难NLU任务 (BoolQ/CB/Copa/MultiRC/ReCoRD/RTE/WiC/WSC) | https://super.gluebenchmark.com/ |
| Xtreme | 跨语言理解基准 | https://huggingface.co/datasets/xtreme |
| BIG-bench | 200+语言与推理任务 | https://github.com/google/BIG-bench |
| MMLU | 57学科多选问答 | https://huggingface.co/datasets/cais/mmlu |
3️⃣ 语音与音频
-
语音识别:LibriSpeech、TED-LIUM、Common Voice
-
语音情感识别:RAVDESS、IEMOCAP、LSSED
-
音乐分析:Million Song Dataset、GTZAN(音乐流派)
-
环境音识别:ESC-50、AudioSet、UrbanSound8K
4️⃣ 推荐系统
-
电影推荐:MovieLens、Netflix Prize、MovieTweetings
-
电商推荐:Amazon Product Data、Yelp、Goodbooks
-
音乐推荐:Last.fm、Spotify Million Playlist Dataset
5️⃣ 自动驾驶与机器人
-
自动驾驶:KITTI、Cityscapes、BDD100K、nuScenes、Waymo Open Dataset
-
SLAM/定位:TUM RGB-D、EuRoC、Oxford RobotCar
-
3D重建:ScanNet、Matterport3D、Replica Dataset
6️⃣ 医疗健康
-
电子病历:MIMIC-III/IV(重症监护)、eICU
-
医学影像:如上述CV医学数据集
-
药物发现:ChEMBL、DrugBank、PubChem
-
基因组学:TCGA、1000 Genomes Project
7️⃣ 时序与金融
-
股票价格:Yahoo Finance、Quandl
-
经济指标:World Bank Open Data、FRED
-
传感器数据:UCI Gas Sensor、WISDM(人体活动)
8️⃣ 工业与科学
-
工业检测:NEU Surface Defect、DAGM、 MVTec AD
-
农业:PlantVillage(植物病害)、Crop Yield
-
气象:NOAA、ERA5、Climate Data Store
三、按机器学习任务分类
| 任务类型 | 适用数据集示例 |
|---|---|
| 分类 (Classification) | Iris、MNIST、CIFAR、Spam Detection |
| 回归 (Regression) | Boston Housing、California Housing、Energy Consumption |
| 聚类 (Clustering) | Wine、Wholesale Customers、Mall Customer Segmentation |
| 目标检测 | COCO、PASCAL VOC、Open Images |
| 语义分割 | Cityscapes、ADE20K、PASCAL Context |
| 生成模型 | CelebA-HQ、FFHQ、LSUN |
| 强化学习 | OpenAI Gym、MuJoCo、Atari 2600 |
| 图神经网络 | Cora、Citeseer、PubMed、OGB |
四、主流数据集平台汇总
| 平台名称 | 特点 | 网址 |
|---|---|---|
| Kaggle | 竞赛平台,数据集质量高,社区活跃 | kaggle.com/datasets |
| UCI ML Repository | 经典学术数据集,适合算法基准测试 | archive.ics.uci.edu/ml |
| Google Dataset Search | 搜索引擎,聚合多源数据 | datasetsearch.research.google.com |
| Papers With Code | 与论文关联,包含SOTA结果 | paperswithcode.com/datasets |
| Hugging Face Datasets | NLP/CV为主,加载方便 | huggingface.co/datasets |
| Kaggle Datasets | 竞赛和实战数据集 | kaggle.com/datasets |
| 天池数据集 | 阿里系,中文场景丰富 | tianchi.aliyun.com |
| AI Studio | 百度飞桨,中文数据集 | aistudio.baidu.com |
| AWS Open Data | 大规模公开数据集 | registry.opendata.aws |
| Data.gov | 美国政府开放数据 | data.gov |
| EU Open Data Portal | 欧盟官方数据 | data.europa.eu |