📝个人主页🌹:Eternity._
🌹🌹期待您的关注 🌹🌹
❀自动化细胞核分割与特征分析
- 引言
- [1. 效果展示](#1. 效果展示)
- [2. HoverNet概述](#2. HoverNet概述)
- [3. HoverNet原理分析](#3. HoverNet原理分析)
- [4. HoverNet评估结果](#4. HoverNet评估结果)
- [5. 复现过程](#5. 复现过程)
- [6. 细胞核特征应用说明](#6. 细胞核特征应用说明)
- [7. 参考文献](#7. 参考文献)
- [8. 总结](#8. 总结)
- 备注
引言
细胞核的分割与分类在医学研究和临床诊断中扮演着至关重要的角色。精确的细胞核分割技术能够显著提升医生对细胞核形态学特征的识别与分析能力,进而在疾病诊断、癌症筛查以及药物开发方面提供有力支持。HoverNet作为一种前沿的深度学习网络模型,具备同时进行细胞核分割与分类的强大功能。除了这两项基本任务,进一步提取细胞核的关键特征,诸如面积、半径、形状等,能够深入探究细胞核的生物学特性,这对于肿瘤学研究、病理诊断等多个医学领域都具有重要的实用价值。
本文将依托Pytorch框架,实现HoverNet模型对细胞核的分割与分类,并在此基础上自主完成细胞核特征的提取工作,旨在为医学领域的相关研究提供有力工具。此外,该技术还可应用于计算病理学的相关研究,增强相关文章的可解释性。
本文能够实现从细胞核 分割和分类到提取细胞核相关特征全自动化 。以及最后分析 了提取到的细胞核特征可以有哪些应用(主要是进行了举例说明)。
1. 效果展示
2. HoverNet概述
HoVer-Net是一种精心构思的多分支深度学习架构,它专为应对多组织显微图像中细胞核实例分割与精确分类这一复杂挑战而打造。该网络凭借其独特的策略,成功攻克了细胞核在密集区域难以清晰辨识的难题,并实现了对各类细胞核类型的精细划分。此外,HoVer-Net还巧妙地融入了一个专门的上采样分支,这一设计旨在进一步细化每个成功分割出的细胞核实例的分类。该分支充分利用了高级语义信息,并结合精心规划的分类机制,能够精确识别每个细胞核的类别,为医学研究提供了极具价值的细胞级信息。
本文所涉及的所有资源的获取方式:这里
3. HoverNet原理分析
整体网络框架
上图中展示了整体的网络框架。HoverNet使用了一个深度神经网络来提取图像中的重要特征。这个网络是基于一个叫做"预激活残差网络"(Preact-ResNet50)的模型,但为了保留更多的细节信息,对这个模型做了一些调整,比如减少了图像缩小的次数。然后,网络通过三个不同的分支来处理图像:
- 核像素分支(NP分支):判断每个像素是否属于核(细胞核)还是背景。
- HoVer分支:计算核像素到其中心的水平和垂直距离。这有助于将紧挨在一起的核分开。
- 核分类分支(NC分支):根据前两个分支的信息,进一步确定每个核的类型。
这样设计整体网络结构能够提高模型性能和效率主要是:
-
上采样分支的架构设计
每个上采样分支都是通过一系列的上采样操作和"密集连接单元"来构建的。你可以把"密集连接单元"想象成一组很小且廉价的计算模块,堆叠多个这样的模块能够使模型获得更大的视野范围(即感受野),并且所需的计算参数更少。这种方式相比直接使用大卷积核的单一操作,更高效地传播梯度,帮助模型更好地训练,如图中Upsample模块。
-
跳跃连接与特征融合
在模型中,通过跳跃连接(类似于在建筑中搭桥梁)将编码器(负责特征提取的部分)中的信息传递到上采样部分。这里,模型使用了"加法"而不是"拼接"的方式来融合这些信息。这种方法特别有助于图像分割任务,因为它能更精确地描绘出物体的边界。
-
有效卷积与边界预测
在上采样过程中,使用了"有效卷积"来确保边界的预测结果不会出现问题。由于这种卷积操作,输出图像的尺寸会比输入图像小一些。
-
共享编码器
与其为每个任务(比如分割和分类)创建单独的网络,不如使用一个共享的编码器(特征提取部分),这样可以同时训练分割和分类任务的模型。这不仅减少了训练时间,还能利用不同任务间的共享信息,提升整体性能。
-
根据标签调整模型
模型可以根据是否有核的分类标签来调整其工作方式。如果没有分类标签,模型只会执行分割任务;如果有分类标签,则会同时进行分割和分类。
这个方法确保不仅能准确分割出每个核,还能正确分类它们的类型。在这里HoVer分支是这篇文章能够取得非常好的重要原因之一。
实例分割原理
HoVer分支分支使用水平和垂直距离来帮助分开紧挨在一起的细胞核,其背后的原理是利用了这些距离信息来识别和分离相邻的核。如下图:
具体来说,HoVer分支会计算每个核像素到其质心(核的中心点)的水平和垂直距离。这些距离信息有助于在以下几个方面起作用:
识别边界:当两个或多个核紧挨在一起时,常常会导致它们的边界变得模糊,难以区分。通过计算每个像素到质心的水平和垂直距离,可以更清晰地确定哪些像素更接近哪个质心。这有助于识别核的实际边界。
分离相邻核:对于相邻的核,HoVer分支生成的距离图会在这些核的交界处表现出显著的变化。因为每个核的质心不同,越靠近核质心的像素,其水平和垂直距离会变得更小,而靠近核边界的像素,这些距离值会变得不一致或剧烈变化。因此,利用这些距离信息可以有效地分离出紧挨在一起的核。
避免错误合并:传统的分割方法可能会错误地将相邻的核合并成一个整体,而HoVer分支通过分析这些距离,确保每个核都能被正确地分离和识别,而不会被错误地合并。
4. HoverNet评估结果
不同数据集得到的分割和分类结果。
不同数据集不同模型评估指标对比。
5. 复现过程
- 源码获取:
可以通过这个链接从github上下载:https://github.com/vqdang/hover_net。但是,从这里下载的链接并没有提供模型的预训练权重,需要自己寻找。所以建议可以直接下载我提供的附件。附件如图:
-
环境配置:
创建环境bashconda env create -f environment.yml
利用conda这一开源的、强大的包与环境管理工具,可以方便地设置、运行及更新软件包及其依赖项。为了创建一个新的Python环境,可以执行conda env create命令,并借助-f选项指定一个名为environment.yml的配置文件。这个文件详细列出了新环境所需的所有软件包及其特定版本,从而确保环境的一致性和可重复性。从下图可以看到虽然创建以基本的HoverNet环境,但是没有pytorch。
所以需要自行在创建的环境中安装一个基于cuda的pytorch。
-
激活环境
bashconda activate hovernet
-
安装pytorch
bashpip install torch==1.6.0+cu118 torchvision==0.15.1+cu118 torchaudio==1.6.1+cu118 -f https://download.pytorch.org/whl/torch_stable.html
这里pytorch的安装可以参考官网,根据自己的显卡版本安装。
- 代码库结构:
下面是这个项目代码库的主要目录和文件的详细解释:
代码库结构在附件中的这个文件夹下:ExtractCellularFeatureFrompng
dataloader :包含数据加载器和数据增强流程的代码。数据加载器负责从存储介质中读取数据并将其组织成适合模型训练和推理的格式。
models :包含模型定义、主要运行步骤和超参数设置。这是定义神经网络结构、选择损失函数、优化器等核心组件的地方。
dataset :主要用户存放输入图像和输出的文件(包括分割后的图片,细胞轮廓等)。
run_utils :定义训练/验证循环和回调函数。训练循环是模型学习数据的过程,而回调函数可以在训练过程中的特定时刻执行额外的操作,如保存模型、打印日志等。
run_tile.sh :用于进行分割组织病理学图像中的肿瘤区域的patch。
run_wis.sh :用于进行分割整个组织病理学图像的细胞。
cell_seg_feature.py :提取分割好的细胞核特征脚本。
ExtractCellularFeatureFromPng.sh:从分割分类到提取特征完整的脚本。
- 提取的细胞核特征种类:
特征种类 | 相关描述 |
---|---|
面积,area | 细胞占据的二维空间大小,是评估细胞大小的基本参数。 |
边界粗糙度,bbox area | 描述细胞边缘的不规则程度,可以通过计算边缘上相邻点之间距离的标准差来估算。 |
凸包面积,convex area | 能包含细胞所有点的最小凸多边形的面积,用于评估细胞的"外凸"程度。 |
离心率,eccentricity | 描述细胞形状相对于圆形的拉长程度,通常定义为细胞主轴与短轴之比。 |
等效直径,equivalent diameter | 具有与细胞相同面积的圆的直径,是另一种衡量细胞大小的参数。 |
欧拉数,euler number | 拓扑学中的一个概念,对于二维形状,它等于连通区域的数量减去孔洞的数量。在细胞形态学中,可以用来描述细胞内部结构的复杂性。 |
圆形度,extent | 也称为圆度或形状因子,是细胞面积与其周长平方之比的四倍π的倒数。它接近1时表示细胞接近圆形。 |
费雷特,filler area | 在多个方向上测量的细胞最大和最小宽度,提供了细胞形状在不同方向上的信息。 |
惯性矩,inertia tensor eigvals x | 描述细胞形状关于其质心旋转的难易程度,包括主轴惯性矩和次轴惯性矩,可用于进一步分析细胞的取向和形状稳定性。x方向 |
惯性矩,inertia tensor eigvals y | 描述细胞形状关于其质心旋转的难易程度,包括主轴惯性矩和次轴惯性矩,可用于进一步分析细胞的取向和形状稳定性。y方向 |
长轴长度,major axis length | 细胞形状中最长的直径。 |
短轴长度,Minor Axis Length | 细胞形状中最短的直径。 |
位置,orientation | 与区域具有相同二阶矩的椭圆的长轴与x轴之间的角度 |
周长,perimeter | 围绕细胞边缘的长度,反映了细胞的尺寸和边界的复杂性。 |
固实度,Solidity | 细胞面积与其凸包面积之比,反映了细胞边界的凹凸程度。 |
在细胞生物学和医学成像领域,细胞形态的分析对于理解细胞的生理状态、病理变化以及细胞间的相互作用至关重要。为了精确描述和量化 细胞形态,科学家们开发了多种形状描述符(也称为形态学参数)。这些描述符可以捕获细胞形态的关键特征,如大小、形状、边缘复杂度等。以下是15个常用的定量测量的形状描述符的概述,它们被广泛用于评估细胞形态。
提取细胞核特征过程:
python
def CalCellFeature(input_path,output_path):
json_path = glob.glob(input_path + "/*.json")
for json_file_path in json_path:
cell_feature_data = []
cell_type_list = []
type_prob_list = []
cell_centroid_list = []
print("running:",json_file_path)
G_name = os.path.basename(json_file_path)[:-5]
with open(json_file_path, "r") as file:
json_data = json.load(file)
for key, value in json_data["nuc"].items():
contour_data = value["contour"]
cell_type = value["type"]
type_prob = value["type_prob"]
cell_centroid = value["centroid"]
cell_type_list.append(cell_type)
type_prob_list.append(type_prob)
cell_centroid_list.append(cell_centroid)
# 计算细胞轮廓图像的尺寸
contour_width = max(point[0] for point in contour_data) + 1
contour_height = max(point[1] for point in contour_data) + 1
# 创建与细胞轮廓contour相同形状的二值图像
contour_image = np.zeros((contour_height, contour_width), dtype=np.uint8)
for point in contour_data:
contour_image[point[1], point[0]] = 1
# 使用measure.regionprops函数计算区域属性
regions = measure.regionprops(contour_image)
# 遍历每个区域
........
-
代码执行过程:
进入到ExtractCellularFeatureFrompng文件夹后,执行:
bashsh ExtractCellularFeatureFrompng.sh
Linux环境下,在Windows中不支持shell,当然也可以自行查看如何在Windows中使用shell。但是这个代码最好在有GPU的环境中运行。
- 结果文件:
图中的input_png是输入图片,可以更改为自己的数据;1:是HoverNet分割产生的结果文件,包括分割图和细胞轮廓。2:是细胞核特征提取产生的结果文件。里面包含了上述表格中的15个特征。产生的分割图和特征如下:
6. 细胞核特征应用说明
- 首先分析了提取到的面积(area)特征:它是细胞占据的二维空间大小,是评估细胞大小的基本参数。将不同细胞的种类进行分组后得到的比较图如下:
由图可知,肿瘤细胞在面积上,或者说大小上与其他类型的细胞存在明显差异,(也即是肿瘤细胞更大)。这能够说明虽然单纯的肿瘤细胞面积大小并不能直接确定肿瘤的恶性程度,但通常来说,恶性程度较高的肿瘤细胞往往具有更大的面积和更强的侵袭性。
同时了解肿瘤细胞的形态和大小特征有助于医生制定更合适的治疗方案。如果肿瘤细胞面积较大且恶性程度高,可能需要采用更积极的治疗措施(如手术切除、化疗、放疗等)。
- 其次分析了提取到的凸包面积在不同类型细胞中的差异:能包含细胞所有点的最小凸多边形的面积,用于评估细胞的"外凸"程度。
由图可知肿瘤细胞的凸包面积 比其他类型的细胞要大,这说明:肿瘤细胞的增殖活性增强 ,肿瘤细胞通常具有比正常细胞更快的增殖速度。凸面积的增大可能反映了肿瘤细胞在增殖过程中所占据的更大空间,这是其快速增殖的一个直接表现。细胞扩张快,随着肿瘤细胞的分裂和增殖,它们会不断扩张并占据更多的组织空间,从而导致凸面积的增大。
- 接着分析了提取到的等效直径equivalent diameter在不同类型细胞中的差异:具有与细胞相同面积的圆的直径,是另一种衡量细胞大小的参数。
很明显肿瘤细胞的该值也是比较大的,等效直径的增大 可能是肿瘤细胞异型性的一种表现,反映了它们在生长过程中形态上的显著变化。其中异型性是指它们与正常细胞在形态和结构上的差异程度。
- 最后分析了肿瘤细胞和淋巴细胞的数量差异:
在该柱状图中,淋巴细胞 的数量明显多于肿瘤细胞,这说明:淋巴细胞是免疫系统的重要组成部分,负责识别和清除外来病原体及异常细胞。当体内存在肿瘤细胞时,免疫系统会启动免疫应答,激活淋巴细胞以攻击和清除这些异常细胞。因此,淋巴细胞数量增多可能表明机体的免疫反应正在积极应对肿瘤细胞。
注:上述图像1,2,3来自我们运行后产生的test1.csv文件中的数据,图像4来自test2.csv产生的数据。所有图像的画法均来自该网站:https://hiplot.com.cn/cloud-tool/drawing-tool/list
7. 参考文献
- 1.Graham S, Vu Q D, Raza S E A, et al. Hover-net: Simultaneous segmentation and classification of nuclei in multi-tissue histology images[J]. Medical image analysis, 2019, 58: 101563.
- 2.Lu W, Toss M, Dawood M, et al. SlideGraph+: Whole slide image level graphs to predict HER2 status in breast cancer[J]. Medical Image Analysis, 2022, 80: 102486.
8. 总结
HoverNet不仅在分割精度上实现了显著提升,还通过融合多任务学习策略有效降低了计算成本,展现了其在各类细胞图像数据集上的卓越性能,尤其是在复杂背景中的细胞核识别与分类任务上,其鲁棒性和准确性尤为突出。
该网络的多任务架构实现了分割与分类的并行处理,这一创新极大地简化了操作流程,加速了全面分析结果的获取。在临床诊断和病理分析的实际应用中,这种高效的处理机制能够大幅缩减分析时间,显著提升医疗工作的效率。
在细胞特征提取层面,HoverNet通过对分割后的细胞核进行几何特征(如面积、半径、形状因子等)的提取,提供了更为详尽的细胞核信息。这些信息在肿瘤检测、细胞形态学分析等领域具有广泛应用价值,同时也为深入的生物学研究奠定了坚实基础。例如,利用细胞核的面积和形状特征,可以精确区分不同类型的癌细胞,辅助医生做出更为精确的诊断。
通过展示这些特征提取及相关应用的结果,可以生成丰富的图片资料,不仅充实了研究内容,还为后续的机器学习模型训练或统计分析提供了更为全面的数据支持。这种方法将复杂的图像处理过程转化为直观易懂的数值数据,降低了研究门槛,促进了细胞形态与疾病关系探索的深入发展。
备注
附件下载完成后,首先看ExtractCellularFeature.md,其次找到ExtractCellularFeatureFromPng.sh这个文件,该文档集成度非常高,只要环境配置没有问题,可以直接实现分割分类和细胞核特征提取。要了解详细过程请参考readme.md。
编程未来,从这里启航!解锁无限创意,让每一行代码都成为你通往成功的阶梯,帮助更多人欣赏与学习!
更多内容详见:这里