医学影像数据集汇总分享

一、前言
二、分类数据集
- [2.1NIH Chest X-ray胸部X射线图像数据集](#2.1NIH Chest X-ray胸部X射线图像数据集)
- 2.2CC-CCII肺部CT图像数据集
三、定位数据集
- [3.1NIH Chest X-ray胸部X射线图像数据集](#3.1NIH Chest X-ray胸部X射线图像数据集)
四、分割数据集
- 4.1CAMUS心脏超声图像数据集
- 4.2CC-CCII肺部CT图像数据集
- [4.3Shenzhen Hospital胸部X射线图像数据集](#4.3Shenzhen Hospital胸部X射线图像数据集)
- [4.4Montgomery County胸部X射线图像数据集](#4.4Montgomery County胸部X射线图像数据集)
- [4.5NLM Open-i Indiana Dataset胸部X射线图像数据集](#4.5NLM Open-i Indiana Dataset胸部X射线图像数据集)
- 4.6LOLA11肺部CT图像数据集
参考文档

一、前言

在深度学习领域，数据集的重要性不言而喻，因此本文对医学影像检测领域中公开的数据集进行了一个简要汇总，主要记录数据集的类型、数量等信息，并给出相应的下载地址。

本文主要借鉴了一个GitHub上开源的项目：医学影像数据集集锦，在其基础上进行了补充和完善。

本文主要根据检测任务的不同分别进行汇总，将数据集分为分类、定位、分割三种，内部根据数据量的大小进行逆序排序。

参数	参数值
来源	National Institutes of Health
数量	共约112,120张
文件格式	图片：png格式，标签：csv格式
像素大小	1024×1024
类别	共8类
下载地址	https://www.kaggle.com/datasets/nih-chest-xrays/data/data
文件大小	45G（分为多个文件夹）

数据集下载网页地址为：http://ncov-ai.big.ac.cn/download，界面如下：

参数	参数值
来源	中国胸部CT图像研究联盟(China Consortium of Chest CT Image Investigation)
数量	共约58766张
文件格式	图片：jpg、png格式，标签：文件压缩包名即为标签
像素大小	512×512
类别	共三类：COVID-19 pneumonia、common pneumonia、normal
下载地址	http://ncov-ai.big.ac.cn/download
文件大小	53T（分为多个压缩包）

参数	参数值
来源	National Institutes of Health
数量	共约880张
文件格式	图片：png格式，标签：csv格式
像素大小	1024×1024
类别	共1类
下载地址	https://www.kaggle.com/datasets/nih-chest-xrays/data/data
文件大小	图片分散，无法估计总大小

参数	参数值
来源	University Hospital of St Etienne (France)
数量	共500×40=20,000张，共有500名病人，每名病人的超声影像文件可提取出40张图片
文件格式	图片：nii.gz格式，标签：nii.gz格式
像素大小	549×389
类别	背景，心脏区域
下载地址	https://humanheart-project.creatis.insa-lyon.fr/database/#collection/6373703d73e9f0047faa1bc8
文件大小	3.6G

数据集下载网页地址为：http://ncov-ai.big.ac.cn/download，界面如下：

参数	参数值
来源	中国胸部CT图像研究联盟(China Consortium of Chest CT Image Investigation)
数量	带有mask标记的共750张，总数共有21470张
文件格式	图片：jpg格式，标签：png格式
像素大小	512×512
类别	0: Background (BG)1: Lung field (LF)2: Ground-glass opacity (GGO)3: Consolidation (CO)
下载地址	https://download.cncb.ac.cn/covid-ct/ct_lesion_seg.zip
文件大小	844M

参数	参数值
来源	Shenzhen No.3 Hospital in Shenzhen, Guangdong providence, China
数量	带有mask标记的共336张，总数共有662张
文件格式	图片：png格式，标签：png格式
像素大小	像素大小不一致，3000×2900、2500×2500
类别	0: 背景，255: 病变区域，病变类型体现在文件名
下载地址	https://data.lhncbc.nlm.nih.gov/public/Tuberculosis-Chest-X-ray-Datasets/Shenzhen-Hospital-CXR-Set/Annotations/index.html
文件大小	约为3.5G

参数	参数值
来源	Department of Health and Human Services of Montgomery County, MD, USA
数量	共138张，每张有两个肺部区域分割标签
文件格式	图片：png格式，标签：png格式
像素大小	4000×4900
类别	0: 背景，255: 肺部区域，是否异常体现在文件名
下载地址	https://data.lhncbc.nlm.nih.gov/public/Tuberculosis-Chest-X-ray-Datasets/Montgomery-County-CXR-Set/MontgomerySet/index.html
文件大小	约为500M

数据集下载网页地址为：https://openi.nlm.nih.gov/faq#collection，界面如下：

参数	参数值
来源	National Library of Medicine(NLM) Indiana University
数量	带有mask标签的共55张，正向拍摄图片共3864张，正向拍摄图片共3689张
文件格式	图片：png格式，标签：tif格式
像素大小	2300×2800
类别	0: 背景，255: 肺部区域
下载地址	https://openi.nlm.nih.gov/imgs/collections/NLMCXR_png.tgz
文件大小	233M+1.3G