医学影像数据集汇总分享

医学影像数据集汇总分享

一、前言

在深度学习领域,数据集的重要性不言而喻,因此本文对医学影像检测领域中公开的数据集进行了一个简要汇总,主要记录数据集的类型、数量等信息,并给出相应的下载地址。

本文主要借鉴了一个GitHub上开源的项目:医学影像数据集集锦,在其基础上进行了补充和完善。

本文主要根据检测任务的不同分别进行汇总,将数据集分为分类、定位、分割三种,内部根据数据量的大小进行逆序排序。

二、分类数据集

2.1NIH Chest X-ray胸部X射线图像数据集

数据集下载网页地址为:https://www.kaggle.com/datasets/nih-chest-xrays/data/data,界面如下:

参数 参数值
来源 National Institutes of Health
数量 共约112,120张
文件格式 图片:png格式,标签:csv格式
像素大小 1024×1024
类别 共8类
下载地址 https://www.kaggle.com/datasets/nih-chest-xrays/data/data
文件大小 45G(分为多个文件夹)

2.2CC-CCII肺部CT图像数据集

数据集下载网页地址为:http://ncov-ai.big.ac.cn/download,界面如下:

参数 参数值
来源 中国胸部CT图像研究联盟(China Consortium of Chest CT Image Investigation)
数量 共约58766张
文件格式 图片:jpg、png格式,标签:文件压缩包名即为标签
像素大小 512×512
类别 共三类:COVID-19 pneumonia、common pneumonia、normal
下载地址 http://ncov-ai.big.ac.cn/download
文件大小 53T(分为多个压缩包)

三、定位数据集

3.1NIH Chest X-ray胸部X射线图像数据集

数据集下载网页地址为:https://www.kaggle.com/datasets/nih-chest-xrays/data/data,界面如下:

参数 参数值
来源 National Institutes of Health
数量 共约880张
文件格式 图片:png格式,标签:csv格式
像素大小 1024×1024
类别 共1类
下载地址 https://www.kaggle.com/datasets/nih-chest-xrays/data/data
文件大小 图片分散,无法估计总大小

四、分割数据集

4.1CAMUS心脏超声图像数据集

数据集下载网页地址为:https://www.creatis.insa-lyon.fr/Challenge/camus/databases.html,界面如下:

参数 参数值
来源 University Hospital of St Etienne (France)
数量 共500×40=20,000张,共有500名病人,每名病人的超声影像文件可提取出40张图片
文件格式 图片:nii.gz格式,标签:nii.gz格式
像素大小 549×389
类别 背景,心脏区域
下载地址 https://humanheart-project.creatis.insa-lyon.fr/database/#collection/6373703d73e9f0047faa1bc8
文件大小 3.6G

4.2CC-CCII肺部CT图像数据集

数据集下载网页地址为:http://ncov-ai.big.ac.cn/download,界面如下:

参数 参数值
来源 中国胸部CT图像研究联盟(China Consortium of Chest CT Image Investigation)
数量 带有mask标记的共750张,总数共有21470张
文件格式 图片:jpg格式,标签:png格式
像素大小 512×512
类别 0: Background (BG)1: Lung field (LF)2: Ground-glass opacity (GGO)3: Consolidation (CO)
下载地址 https://download.cncb.ac.cn/covid-ct/ct_lesion_seg.zip
文件大小 844M

4.3Shenzhen Hospital胸部X射线图像数据集

数据集下载网页地址为:https://lhncbc.nlm.nih.gov/LHC-downloads/dataset.html,界面如下:

参数 参数值
来源 Shenzhen No.3 Hospital in Shenzhen, Guangdong providence, China
数量 带有mask标记的共336张,总数共有662张
文件格式 图片:png格式,标签:png格式
像素大小 像素大小不一致,3000×2900、2500×2500
类别 0: 背景,255: 病变区域,病变类型体现在文件名
下载地址 https://data.lhncbc.nlm.nih.gov/public/Tuberculosis-Chest-X-ray-Datasets/Shenzhen-Hospital-CXR-Set/Annotations/index.html
文件大小 约为3.5G

4.4Montgomery County胸部X射线图像数据集

数据集下载网页地址为:https://lhncbc.nlm.nih.gov/LHC-downloads/dataset.html,界面如下:

参数 参数值
来源 Department of Health and Human Services of Montgomery County, MD, USA
数量 共138张,每张有两个肺部区域分割标签
文件格式 图片:png格式,标签:png格式
像素大小 4000×4900
类别 0: 背景,255: 肺部区域,是否异常体现在文件名
下载地址 https://data.lhncbc.nlm.nih.gov/public/Tuberculosis-Chest-X-ray-Datasets/Montgomery-County-CXR-Set/MontgomerySet/index.html
文件大小 约为500M

4.5NLM Open-i Indiana Dataset胸部X射线图像数据集

数据集下载网页地址为:https://openi.nlm.nih.gov/faq#collection,界面如下:

参数 参数值
来源 National Library of Medicine(NLM) Indiana University
数量 带有mask标签的共55张,正向拍摄图片共3864张,正向拍摄图片共3689张
文件格式 图片:png格式,标签:tif格式
像素大小 2300×2800
类别 0: 背景,255: 肺部区域
下载地址 https://openi.nlm.nih.gov/imgs/collections/NLMCXR_png.tgz
文件大小 233M+1.3G

4.6LOLA11肺部CT图像数据集

数据集下载网页地址为:https://lola11.grand-challenge.org/Details/\](https://lola11.grand-challenge.org/Details/),界面如下:

参数 参数值
来源 LOLA11
数量 共约24,000张,但没有标签
文件格式 图片:mha格式,标签:Nan
像素大小 512×512
类别 Nan
下载地址 https://zenodo.org/records/4708800
文件大小 7.7G

参考文档

医学影像数据集集锦
NLM Lister Hill National Center for Biomedical Communications
胸部\肺部ct数据集
百度灵医智惠医疗AI影像能力再上新台阶
COVID-19 image data collection
Human Heart Project
Contrastive Pretraining for Echocardiography Segmentation with Limited Data
Medical Segmentation Decathlon

相关推荐
scdifsn10 分钟前
动手学深度学习11.6. 动量法-笔记&练习(PyTorch)
pytorch·笔记·深度学习
羊小猪~~16 分钟前
深度学习基础--LSTM学习笔记(李沐《动手学习深度学习》)
人工智能·rnn·深度学习·学习·机器学习·gru·lstm
青松@FasterAI34 分钟前
Word2Vec如何优化从中间层到输出层的计算?
人工智能·深度学习·自然语言处理·nlp面题
paradoxjun41 分钟前
落地级分类模型训练框架搭建(1):resnet18/50和mobilenetv2在CIFAR10上测试结果
人工智能·深度学习·算法·计算机视觉·分类
神经星星1 小时前
登Nature子刊!北大团队用AI预测新冠/艾滋病/流感病毒进化方向,精度提升67%
人工智能·深度学习·机器学习
Scabbards_2 小时前
用于牙科的多任务视频增强
人工智能·深度学习·算法·机器学习
Golinie2 小时前
2025年最新深度学习环境搭建:Win11+ cuDNN + CUDA + Pytorch +深度学习环境配置保姆级教程
人工智能·pytorch·深度学习
周杰伦_Jay2 小时前
Ollama能本地部署Llama 3等大模型的原因解析(ollama核心架构、技术特性、实际应用)
数据结构·人工智能·深度学习·架构·transformer·llama
kris00093 小时前
人工智能之深度学习_[5]-神经网络优化&学习率衰减优化&正则化方法
人工智能·深度学习·神经网络
笔写落去4 小时前
深度学习python基础(第三节) 函数、列表
人工智能·python·深度学习·机器学习