【数据集资源】大数据资源-数据集下载方法-汇总

大概包含10个领域数据集:

金融

交通

商业

推荐系统

医疗健康

图像数据

视频数据

音频数据

自然语言处理

社会数据

处理后的科研和竞赛数据

1、huggingface的数据下载方式:

 1.进入官网数据集列:Hugging Face -- The AI community building the future.

2.选中自己想要下载的数据后,在本地执行如下命令:

git lfs install

git clone https://huggingface.co/datasets/数据名称

2、魔塔社区的数据下载方式(中文数据社区)

1、进入官网数据集列():数据集首页 · 魔搭社区 (modelscope.cn)

 2.选中自己想要下载的数据后,下载方式如下:

数据集的下载 · 文档中心 (modelscope.cn)

Machine Learning Datasets | Papers With Code

阿里巴巴datahub:https://github.com/alibaba/EasyNLP/tree/master/datahub

清华官网整理数据集:openslr.org

聚数力:数据集 -- Labeled Faces in the Wild 数据集 | 聚数力平台 | 大数据应用要素托管与交易平台

文本分类(情感分析)中文数据集汇总

这段时间在公司NLP组里实习,相应的开始学习了一些NLP的知识,并搜索了一些关于NLP中文本分类领域的相关数据集,本文主要列举一些中文数据集。关于英语数据集,且听下回分解。

1.THUCNews数据集:

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。我们在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。使用THUCTC工具包在此数据集上进行评测,准确率可以达到88.6%。

数据集地址: http://thuctc.thunlp.org/

2.今日头条新闻文本分类数据集:

数据来源:今日头条客户端

数据规模:共382688条,分布于15个分类中。

数据格式:6552431613437805063_!102 !news_entertainment !谢娜为李浩菲澄清网络谣言,之后她的两个行为给自己加分!_佟丽娅,网络谣言,快乐大本营,李浩菲,谢娜,观众们

每行为一条数据,以_!_分割的个字段,从前往后分别是

新闻ID,分类code(见下文),分类名称(见下文),新闻字符串(仅含标题),新闻关键词

数据集地址:https://github.com/fate233/toutiao-text-classfication-dataset

3.全网新闻数据(SogouCA):

来自若干新闻站点2012年6月---7月期间国内,国际,体育,社会,娱乐等18个频道的新闻数据,提供URL和正文信息

数据格式为
页面URL 页面ID 页面标题 页面内容 1 2 3 4 5 6 注意:content字段去除了HTML标签,保存的是新闻正文文本

数据集地址: https://www.sogou.com/labs/resource/ca.php

4.搜狐新闻数据(SogouCS):

来自搜狐新闻2012年6月---7月期间国内,国际,体育,社会,娱乐等18个频道的新闻数据,提供URL和正文信息

数据格式为

页面URL

页面ID

页面标题

页面内容

1

2

3

4

5

6

7

注意:content字段去除了HTML标签,保存的是新闻正文文本

数据集地址: https://www.sogou.com/labs/resource/cs.php

5.ChnSentiCorp_htl_all数据集:

7000 多条酒店评论数据,5000 多条正向评论,2000 多条负向评论

数据字段:

Label:1表示正向评论,0表示负向评论

Review:评论内容

1

2

3

数据集地址:

https://raw.githubusercontent.com/SophonPlus/ChineseNlpCorpus/master/datasets/ChnSentiCorp_htl_all/ChnSentiCorp_htl_all.csv

6.waimai_10k数据集:

某外卖平台收集的用户评价,正向4000 条,负向约 8000 条

数据字段:

Label:1表示正向评论,0表示负向评论

Review:评论内容

1

2

3

4

数据集地址:

https://raw.githubusercontent.com/SophonPlus/ChineseNlpCorpus/master/datasets/waimai_10k/waimai_10k.csv

7.online_shopping_10_cats数据集:

10 个类别(书籍、平板、手机、水果、洗发水、热水器、蒙牛、衣服、计算机、酒店),共 6 万多条评论数据,正、负向评论各约 3 万条

数据集下载地址:

https://github.com/SophonPlus/ChineseNlpCorpus/raw/master/datasets/online_shopping_10_cats/online_shopping_10_cats.zip

8.weibo_senti_100k数据集:

10 万多条,带情感标注 新浪微博,正负向评论约各 5 万条。

数据集下载地址:

https://github.com/SophonPlus/ChineseNlpCorpus/blob/master/datasets/weibo_senti_100k/intro.ipynb

9.simplifyweibo_4_moods数据集:

36 万多条,带情感标注 新浪微博,包含 4 种情感,其中喜悦约 20 万条,愤怒、厌恶、低落各约 5 万条

数据集下载地址:

https://pan.baidu.com/s/16c93E5x373nsGozyWevITg

10.dmsc_v2数据集:

28部电影,超70万用户,超200万条评分/评论数据

数据集地址:https://pan.baidu.com/s/1c0yn3TlkzHYTdEBz3T5arA

原始数据集地址:https://www.kaggle.com/utmhikari/doubanmovieshortcomments

11.yf_dianping数据集:

24 万家餐馆,54 万用户,440 万条评论/评分数据

数据集地址:https://pan.baidu.com/s/1yMNvHLl6QYsGbjT7u51Nfg

原始数据集地址:http://yongfeng.me/dataset/

12.yf_amazon数据集:

52 万件商品,1100 多个类目,142 万用户,720 万条评论/评分数据

原始数据集地址:http://yongfeng.me/dataset/

数据集地址:https://pan.baidu.com/s/1SbfpZb5cm-g2LmnYV_af8Q

13.Datahub数据中心:

包含文本分类、情感分析以及知识图谱的数据集

相关地址:http://www.datahub.ileadall42.com/data/list?category=2\&parent_category=1

14.知乎看山杯数据集:

数据集下载地址:https://pan.baidu.com/s/1qUr6IQQn6DzrMlbaAUZslQ

提取码: qbiw

15.AI_challenger情感分析数据集:

数据集分为训练、验证、测试A与测试B四部分。数据集中的评价对象按照粒度不同划分为两个层次,层次一为粗粒度的评价对象,例如评论文本中涉及的服务、位置等要素;层次二为细粒度的情感对象,例如"服务"属性中的"服务人员态度"、"排队等候时间"等细粒度要素。

数据集下载地址:https://github.com/nju161250102/AI_challenger/tree/master/data

16.复旦中文文本分类语料库

数据链接:https://pan.baidu.com/s/1833mT2rhL6gBMlM0KnmyKg

密码:zyxa

以上来源于,更多查看原文链接!

版权声明:本文为CSDN博主「会发paper的学渣」的原创文章,遵循CC 4.0

BY-SA版权协议,转载请附上原文出处链接及本声明。

原文链接:https://blog.csdn.net/sslfk/article/details/123372830

1金融

美国劳工部统计局官方发布数据: http://dataju.cn/Dataju/web/datasetInstanceDetail/139

沪深股票除权除息、配股增发全量数据,截止 2016.12.31http://dataju.cn/Dataju/web/datasetInstanceDetail/344

上证主板日线数据,截止 2017.05.05,原始价、前复权价、后复权价,1260支股票http://dataju.cn/Dataju/web/datasetInstanceDetail/340

深证主板日线数据,截止 2017.05.05,原始价、前复权价、后复权价,466支股票http://dataju.cn/Dataju/web/datasetInstanceDetail/341

深证中小板日线数据,截止 2017.05.05,原始价、前复权价、后复权价,852支股票http://dataju.cn/Dataju/web/datasetInstanceDetail/342

深证创业板日线数据,截止 2017.05.05,原始价、前复权价、后复权价,636支股票http://dataju.cn/Dataju/web/datasetInstanceDetail/343

上证A股日线数据,1999.12.09 至 2016.06.08,前复权,1095支股票http://dataju.cn/Dataju/web/datasetInstanceDetail/37

深证A股日线数据,1999.12.09 至 2016.06.08,前复权,1766支股票http://dataju.cn/Dataju/web/datasetInstanceDetail/38

深证创业板日线数据,1999.12.09 至 2016.06.08,前复权,510支股票http://dataju.cn/Dataju/web/datasetInstanceDetail/39

MT4平台外汇交易历史数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/43

Forex平台外汇交易历史数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/67

几组外汇交易逐笔(Ticks)数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/44

美国股票新闻数据【Kaggle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/220

美国医疗保险市场数据【Kaggle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/225

美国金融客户投诉数据【Kaggle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/229

Lending Club 网贷违约数据【Kaggle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/206

信用卡欺诈数据【Kaggle 数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/206

美国股票数据XBRL【Kaggle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/214

纽约股票交易所数据【Kaggle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/214

贷款违约预测竞赛数据【Kaggle竞赛】 http://dataju.cn/Dataju/web/datasetInstanceDetail/249

Zillow 网站房地产价值预测竞赛数据【Kaggle竞赛】http://dataju.cn/Dataju/web/datasetInstanceDetail/249

Sberbank 俄罗斯房地产价值预测竞赛数据【Kaggle竞赛】http://dataju.cn/Dataju/web/datasetInstanceDetail/266

Homesite 保险定价竞赛数据【Kaggle竞赛】http://dataju.cn/Dataju/web/datasetInstanceDetail/336

Winton 股票回报率预测竞赛数据【Kaggle竞赛】http://dataju.cn/Dataju/web/datasetInstanceDetail/347

2交通

2013年纽约出租车行驶数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/348

2013年芝加哥出租车行驶数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/355

Udacity自动驾驶数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/356

纽约 Uber 接客数据 【Kaggle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/76

英国车祸数据(2005-2015)【Kaagle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/323

芝加哥汽车超速数据【Kaggle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/86

KITTI 自动驾驶任务数据【数据太大仅有部分】http://dataju.cn/Dataju/web/datasetInstanceDetail/210

Cityscapes 场景标注数据【数据太大仅有部分】http://dataju.cn/Dataju/web/datasetInstanceDetail/210

德国交通标志识别数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/232

交通信号识别数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/228

芝加哥Divvy共享自行车骑行数据(2013年至今)http://dataju.cn/Dataju/web/datasetInstanceDetail/228

美国查塔努加市共享单车骑行数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/270

Capital 共享单车骑行数据 https://zhuanlan.zhihu.com/

Bay Area 共享单车骑行数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/338

Nice Ride 共享单车骑行数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/339

花旗银行共享单车骑行数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/325

运用卫星数据跟踪亚马逊热带雨林中的人类轨迹竞赛【Kaggle竞赛】http://dataju.cn/Dataju/web/datasetInstanceDetail/358

纽约出租车管理委员会官方的乘车数据(2009年-2016年)http://dataju.cn/Dataju/web/datasetInstanceDetail/359

3商业

Airbnb 开放的民宿信息和住客评论数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/360

Amazon 食品评论数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/361

【Kaggle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/324

Amazon 无锁手机评论数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/349

【Kaggle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/364

美国视频游戏销售和评价数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/309

【Kaggle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/207

Kaggle 各项竞赛情况数据【Kaggle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/207

Bosch 生产流水线降低次品率竞赛数据【Kaggle竞赛】http://dataju.cn/Dataju/web/datasetInstanceDetail/208

预测公寓租金竞赛数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/208

广告点击预测竞赛数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/230

餐厅营业收入预测建模竞赛 http://dataju.cn/Dataju/web/datasetInstanceDetail/230

银行产品推荐竞赛数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/213

网站用户推荐点击预测竞赛数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/319

在线广告实时竞价数据【Kaggle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/337

购物车商品关联竞赛数据【Kaggle竞赛】 http://dataju.cn/Dataju/web/datasetInstanceDetail/335

Airbnb 新用户的民宿预定预测竞赛数据【Kaggle竞赛】http://dataju.cn/Dataju/web/datasetInstanceDetail/333

3推荐系统

Netflix 电影评价数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/330

MovieLens 20m 电影推荐数据集 http://dataju.cn/Dataju/web/datasetInstanceDetail/329

WikiLens http://dataju.cn/Dataju/web/datasetInstanceDetail/227

Jester http://dataju.cn/Dataju/web/datasetInstanceDetail/350

HetRec2011 http://dataju.cn/Dataju/web/datasetInstanceDetail/354

Book Crossing http://dataju.cn/Dataju/web/datasetInstanceDetail/32

Large Movie Review http://dataju.cn/Dataju/web/datasetInstanceDetail/116

Retailrocket 商品评论和推荐数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/97

4医疗健康

人识别物体时大脑核磁共振影像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/99

人理解单词时大脑核磁共振影像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/101

心脏病心房图像及标注数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/100

细胞病理识别 http://dataju.cn/Dataju/web/datasetInstanceDetail/98

FIRE 视网膜眼底病变图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/290

食物营养成分数据 【Kaggle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/80

EGG 大脑电波形状数据【Kaggle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/79

某人基因序列数据【Kaggle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/121

癌症CT影像数据【Kaggle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/242

软组织肉瘤CT图像数据【Kaggle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/124

美国国家健康与服务部-国家癌症研究所发起的癌症数据仓库介绍【仅有介绍】http://dataju.cn/Dataju/web/datasetInstanceDetail/250

Data Science Bowl 2017 肺癌识别竞赛数据【数据太大仅有介绍】http://dataju.cn/Dataju/web/datasetInstanceDetail/258

TCGA-LUAD 肺癌CT图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/261

RIDER Lung CT 肺癌CT影像 http://dataju.cn/Dataju/web/datasetInstanceDetail/275

TCGA-COAD癌症CT影像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/284

TCIA-TCGA-OV 癌症CT影像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/283

TCIA RIDER NEURO 癌症MRI影像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/287

QIN Beast 乳腺癌MRI影像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/291

5图像数据

综合图像

Visual Genome 图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/311

Visual7w 图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/315

COCO 图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/316

SUFR 图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/317

ILSVRC 2014 训练数据(ImageNet的一部分)http://dataju.cn/Dataju/web/datasetInstanceDetail/369

PASCAL Visual Object Classes 2012 图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/85

PASCAL Visual Object Classes 2011 图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/107

PASCAL Visual Object Classes 2010 图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/51

80 Million Tiny Image 图像数据【数据太大仅有介绍】http://dataju.cn/Dataju/web/datasetInstanceDetail/240

ImageNet【数据太大仅有介绍】 http://dataju.cn/Dataju/web/datasetInstanceDetail/55

Google Open Images【数据太大仅有介绍】http://dataju.cn/Dataju/web/datasetInstanceDetail/40

场景图像

Street Scences 图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/45

Places2 场景图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/48

UCF Google Street View 图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/138

SUN 场景图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/138

The Celebrity in Places 图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/83

Web图像标签

HARRISON 社交标签图像 http://dataju.cn/Dataju/web/datasetInstanceDetail/183

NUS-WIDE 标签图像 http://dataju.cn/Dataju/web/datasetInstanceDetail/74

Visual Synset 标签图像 http://dataju.cn/Dataju/web/datasetInstanceDetail/112

Animals With Attributes 标签图像 http://dataju.cn/Dataju/web/datasetInstanceDetail/160

人形轮廓图像

MPII Human Shape http://dataju.cn/Dataju/web/datasetInstanceDetail/234

人体轮廓数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/173

Biwi Kinect Head Pose 头部姿势数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/52

上半身人像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/52

INRIA Person 数据集 http://dataju.cn/Dataju/web/datasetInstanceDetail/235

视觉文字识别图像

Street View House Number 门牌号图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/236

MNIST 手写数字识别图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/253

3D MNIST 数字识别图像数据【Kaggle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/129

MediaTeam Document 文档影印和内容数据http://dataju.cn/Dataju/web/datasetInstanceDetail/129

Text Recognition 文字图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/110

NIST Handprinted Forms and Characters 手写英文字符数据http://dataju.cn/Dataju/web/datasetInstanceDetail/49

NIST Structured Forms Reference Set of Binary Imageshttp://dataju.cn/Dataju/web/datasetInstanceDetail/73

(SFRS) 图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/47

NIST Structured Forms Reference Set of Binary Imageshttp://dataju.cn/Dataju/web/datasetInstanceDetail/23

(SFRS) II 图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/203

特定一类事物图像

著名的猫图像标注数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/128

Caltech-UCSD http://dataju.cn/Dataju/web/datasetInstanceDetail/176

Birds200 鸟类图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/278

Stanford Car 汽车图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/294

Cars 汽车图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/295

MIT Cars 汽车图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/41

Stanford Cars 汽车图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/105

Food-101 美食图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/106

17_Category_Flower http://dataju.cn/Dataju/web/datasetInstanceDetail/106

图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/254

102_Category_Flower http://dataju.cn/Dataju/web/datasetInstanceDetail/255

图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/109

UCI Folio Leaf 图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/114

Labeled Fishes http://dataju.cn/Dataju/web/datasetInstanceDetail/115

in the Wild 鱼类图像 http://dataju.cn/Dataju/web/datasetInstanceDetail/60

美国 Yelp 点评网站酒店照片 http://dataju.cn/Dataju/web/datasetInstanceDetail/61

CMU-Oxford http://dataju.cn/Dataju/web/datasetInstanceDetail/63

Sculpture 塑像雕像图像 http://dataju.cn/Dataju/web/datasetInstanceDetail/174

Oxford-IIIT Pet 宠物图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/256

Nature http://dataju.cn/Dataju/web/datasetInstanceDetail/301

Conservancy Fisheries Monitoring 过度捕捞监控图像数据【Kaggle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/118

材质纹理图像

CURET 纹理材质图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/111

ETHZ Synthesizability 纹理图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/127

KTH-TIPS 纹理材质图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/172

Describable Textures 纹理图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/71

物体分类图像

COIL-20 图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/62

COIL-100 图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/70

Caltech-101 图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/54

Caltech-256 图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/46

CIFAR-10 图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/42

CIFAR-100 图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/53

STL-10 图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/72

LabelMe_12_50k http://dataju.cn/Dataju/web/datasetInstanceDetail/72

图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/69

NORB v1.0 图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/117

NEC Toy Animal 图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/237

iCubWorld 图像分类数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/238

Multi-class 图像分类数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/239

GRAZ 图像分类数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/108

人脸图像

IMDB-WIKI 500k+ 人脸图像、年龄性别数据http://dataju.cn/Dataju/web/datasetInstanceDetail/68

Labeled Faces in the Wild 人脸数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/50

Extended Yale Face Database B 人脸数据http://dataju.cn/Dataju/web/datasetInstanceDetail/131

Bao Face 人脸数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/87

DC-IGN 论文人脸数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/119

300 Face in Wild 图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/120

BioID Face 人脸数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/122

CMU Frontal Face Images http://dataju.cn/Dataju/web/datasetInstanceDetail/123

FDDB_Face Detection Data Set and Benchmarkhttp://dataju.cn/Dataju/web/datasetInstanceDetail/130

NIST Mugshot Identification Databasehttp://dataju.cn/Dataju/web/datasetInstanceDetail/140

Faces in the Wild 人脸数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/170

CelebA 名人人脸图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/175

VGG Face 人脸图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/189

Caltech 10k Web Faces 人脸图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/125

姿势动作图像

HMDB_a large human motion databasehttp://dataju.cn/Dataju/web/datasetInstanceDetail/126

Human Actions and Scenes Dataset http://dataju.cn/Dataju/web/datasetInstanceDetail/177

Buffy Stickmen V3 人体轮廓识别图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/178

Human Pose Evaluator 人体轮廓识别图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/179

Buffy pose 人类姿势图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/181

VGG Human Pose Estimation 姿势图像标注数据http://dataju.cn/Dataju/web/datasetInstanceDetail/197

指纹识别图像

NIST FIGS 指纹识别数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/281

NIST Supplemental Fingerprint Card Data (SFCD) 指纹识别数据http://dataju.cn/Dataju/web/datasetInstanceDetail/280

NIST Plain and Rolled Images from Paired Fingerprint Cardshttp://dataju.cn/Dataju/web/datasetInstanceDetail/279

in 500 pixels per inch 指纹识别数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/77

NIST Plain and Rolled Images from Paired Fingerprint Cardshttp://dataju.cn/Dataju/web/datasetInstanceDetail/289

1000 pixels per inch 指纹识别数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/132

其他图像数据

Visual Question Answering V1.0 图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/84

Visual Question Answering V2.0 图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/241

6视频数据

综合视频

DAVIS_Densely Annotated Video Segmentation 数据http://dataju.cn/Dataju/web/datasetInstanceDetail/147

YouTube-8M 视频数据集【数据太大仅有介绍】http://dataju.cn/Dataju/web/datasetInstanceDetail/133

YouTube 网站视频备份【数据太大仅有介绍】http://dataju.cn/Dataju/web/datasetInstanceDetail/134

人类动作视频

Microsoft Research Action 人类动作视频数据http://dataju.cn/Dataju/web/datasetInstanceDetail/144

UCF50 Action Recognition 动作识别数据http://dataju.cn/Dataju/web/datasetInstanceDetail/135

UCF101 Action Recognition 动作识别数据http://dataju.cn/Dataju/web/datasetInstanceDetail/136

UT-Interaction 人类动作视频数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/137

UCF iPhone 运动中传感器数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/148

UCF YouTube 人类动作视频数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/125

UCF Sport 人类动作视频数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/126

UCF-ARG 人类动作视频数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/141

HMDB 人类动作视频 http://dataju.cn/Dataju/web/datasetInstanceDetail/157

HOLLYWOOD2 人类行为动作视频数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/146

Recognition of human actions 动作视频数据http://dataju.cn/Dataju/web/datasetInstanceDetail/244

Motion Capture 动作捕捉视频数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/245

SBU Kinect Interaction 肢体动作视频数据http://dataju.cn/Dataju/web/datasetInstanceDetail/246

目标检测视频

UCSD Pedestrian 行人视频数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/247

Caltech Pedestrian 行人视频数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/248

ETH 行人视频数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/223

INRIA 行人视频数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/159

TudBrussels 行人视频数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/151

Daimler 行人视频数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/150

ALOV++ 物体追踪视频数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/152

密集人群视频

Crowd Counting 高密度人群图像 http://dataju.cn/Dataju/web/datasetInstanceDetail/156

Crowd Segmentation 高密度人群视频数据http://dataju.cn/Dataju/web/datasetInstanceDetail/243

Tracking in High Density Crowds 高密度人群视频http://dataju.cn/Dataju/web/datasetInstanceDetail/200

其他视频

Fire Detection 视频数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/186

7音频数据

综合音频

Google Audioset 音频数据【数据太大仅有介绍】http://dataju.cn/Dataju/web/datasetInstanceDetail/164

语音识别

Sinhala TTS 英语语音识别 http://dataju.cn/Dataju/web/datasetInstanceDetail/251

TIMIT 美式英语语音识别数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/252

LibriSpeech ASR corpus 语音数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/194

Room Impulse Response and Noise 语音数据http://dataju.cn/Dataju/web/datasetInstanceDetail/191

ALFFA 非洲语音数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/96

THUYG-20 维吾尔语语音数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/96

AMI Corpus 语音识别 http://dataju.cn/Dataju/web/datasetInstanceDetail/96

8自然语言处理

RCV1 http://dataju.cn/Dataju/web/datasetInstanceDetail/93

英语 http://dataju.cn/Dataju/web/datasetInstanceDetail/90

新闻数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/78

20news 英语新闻数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/78

First Quora Release Question Pairs 问答数据http://dataju.cn/Dataju/web/datasetInstanceDetail/94

JRC Names http://dataju.cn/Dataju/web/datasetInstanceDetail/92

各国语言专有实体名称 http://dataju.cn/Dataju/web/datasetInstanceDetail/89

Multi-Domain Sentiment V2.0 http://dataju.cn/Dataju/web/datasetInstanceDetail/205

LETOR 信息检索数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/205

Yale Youtube Vedio Text http://dataju.cn/Dataju/web/datasetInstanceDetail/221

斯坦福问答数据【Kaggle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/221

美国假新闻数据【Kaggle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/212

NIPS会议文章信息数据(1987-2016)【Kaggle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/268

2016年美国总统选举辩论数据【Kaggle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/269

WikiLinks 跨文档指代语料 http://dataju.cn/Dataju/web/datasetInstanceDetail/277

European Parliament Proceedings Parallel Corpus 机器翻译数据http://dataju.cn/Dataju/web/datasetInstanceDetail/285

WikiText 英语语义词库数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/272

WMT 2011 News Crawl 机器翻译数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/288

Stanford Sentiment Treebank 词汇数据http://dataju.cn/Dataju/web/datasetInstanceDetail/334

英语语言模型单词预测竞赛数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/201

9社会数据

希拉里邮件门泄露邮件 http://dataju.cn/Dataju/web/datasetInstanceDetail/267

波士顿Airbnb 公开数据【Kaggle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/209

世界各国经济发展数据【Kaagle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/202

世界大学排名芝加哥犯罪数据(2001-2017)【Kaagle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/233

世界范围显著地震数据(1965-2016)【Kaagle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/231

美国婴儿姓名数据【Kaagle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/222

全世界鲨鱼袭击人类数据【Kaagle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/219

1908年以来空难数据【Kaagle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/218

2016年美国总统大选数据【Kaagle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/217

2013年美国社区统计数据【Kaagle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/273

2014年美国社区统计数据【Kaagle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/274

2015年美国社区统计数据【Kaagle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/215

欧洲足球运动员赛事表现数据【Kaagle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/211

美国环境污染数据【Kaagle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/224

美国H1-B签证申请数据Kaggle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/224

IMDB五千部电影数据【Kaggle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/224

2015年航班延误和取消数据【Kaggle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/226

凶杀案报告数据【Kaggle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/216

人力资源分析数据【Kaggle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/259

美国费城犯罪数据【Kaggle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/260

安然公司邮件数据【Kaggle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/262

历史棒球数据【Kaggle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/263

美联航 Twitter 用户评论数据【Kaggle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/264

波士顿 Airbnb 公开数据【Kaggle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/265

芝加哥市2001年以来犯罪记录数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/267

美国查塔努加市犯罪记录数据(2003年至今)http://dataju.cn/Dataju/web/datasetInstanceDetail/353

芝加哥街边咖啡厅季节中的人行道咖啡厅许可数据http://dataju.cn/Dataju/web/datasetInstanceDetail/358

芝加哥餐馆卫生检查结果数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/351

几个人类运动位置路线GPS数据集(骑行、跑步等)http://dataju.cn/Dataju/web/datasetInstanceDetail/352

10处理后的科研和竞赛数据

NIPS 2003 属性选择竞赛数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/370

台湾大学林智仁教授处理为 LibSVM 格式的分类建模数据http://dataju.cn/Dataju/web/datasetInstanceDetail/296

Large-scale 分类建模数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/297

几个UCI 中 large-scale 分类建模数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/298

Social Computing http://dataju.cn/Dataju/web/datasetInstanceDetail/299

Data Repository 社交网络数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/300

猫和狗分类识别竞赛数据【Kaggle竞赛】 http://dataju.cn/Dataju/web/datasetInstanceDetail/318

DSTL 卫星图像识别竞赛数据【Kaggle竞赛】http://dataju.cn/Dataju/web/datasetInstanceDetail/328

根据手机应用软件使用行为预测用户性别年龄竞赛数据【Kaggle竞赛】http://dataju.cn/Dataju/web/datasetInstanceDetail/332

人脸关键点标定竞赛数据【Kaggle竞赛】 http://dataju.cn/Dataju/web/datasetInstanceDetail/331

Kaggle竞赛数据合辑(部分竞赛数据) http://dataju.cn/Dataju/web/datasetInstanceDetail/368

相关推荐
zmd-zk1 小时前
kafka+zookeeper的搭建
大数据·分布式·zookeeper·中间件·kafka
激流丶1 小时前
【Kafka 实战】如何解决Kafka Topic数量过多带来的性能问题?
java·大数据·kafka·topic
测试界的酸菜鱼1 小时前
Python 大数据展示屏实例
大数据·开发语言·python
时差9531 小时前
【面试题】Hive 查询:如何查找用户连续三天登录的记录
大数据·数据库·hive·sql·面试·database
Mephisto.java1 小时前
【大数据学习 | kafka高级部分】kafka中的选举机制
大数据·学习·kafka
Mephisto.java1 小时前
【大数据学习 | kafka高级部分】kafka的优化参数整理
大数据·sql·oracle·kafka·json·database
道可云1 小时前
道可云人工智能&元宇宙每日资讯|2024国际虚拟现实创新大会将在青岛举办
大数据·人工智能·3d·机器人·ar·vr
成都古河云1 小时前
智慧场馆:安全、节能与智能化管理的未来
大数据·运维·人工智能·安全·智慧城市
软工菜鸡2 小时前
预训练语言模型BERT——PaddleNLP中的预训练模型
大数据·人工智能·深度学习·算法·语言模型·自然语言处理·bert
武子康3 小时前
大数据-212 数据挖掘 机器学习理论 - 无监督学习算法 KMeans 基本原理 簇内误差平方和
大数据·人工智能·学习·算法·机器学习·数据挖掘