摘要:随着宠物皮肤病日益严重,尤其是"湿性皮炎"、"脓疱病"、"脂溢性皮炎"、"皮肤肿瘤"和"酵母菌感染"等疾病对宠物健康的影响,早期诊断显得尤为重要。本文提出了一种基于Swin-Transformer的宠物皮肤病诊断系统,旨在利用医学影像数据(如皮肤图像)对宠物的皮肤健康状态进行分类,从而实现对不同类型皮肤病的精准识别。
作者:Bob(原创)
研究背景
随着宠物数量的增加及其生活环境的变化,宠物皮肤病的发病率逐年上升,成为全球范围内影响宠物健康的重要问题。宠物皮肤病种类繁多,其中包括湿性皮炎、脓疱病、脂溢性皮炎、皮肤肿瘤和酵母菌感染等常见疾病。这些疾病不仅影响宠物的皮肤健康,还可能导致长期的疼痛、脱毛、甚至更严重的全身性并发症。因此,及时的诊断和治疗对于保障宠物的健康至关重要。
传统的宠物皮肤病诊断方法通常依赖于兽医的经验和肉眼检查,但这些方法存在主观性强、诊断速度慢等问题,容易导致误诊和漏诊,影响治疗效果。同时,由于皮肤病症状的多样性,传统的影像分析手段也往往需要人工处理,导致效率低下。随着医学影像学和人工智能技术的不断发展,基于图像分析的自动化诊断方法逐渐成为一种有效的解决方案。
Swin Transformer,作为一种新型的视觉变换模型,凭借其强大的自注意力机制和位移窗口技术,能够高效地处理和分析大规模图像数据。与传统的卷积神经网络(CNN)相比,Swin Transformer在图像分类和目标检测等任务中表现出更强的性能,尤其在细节捕捉和计算效率上具有优势。这使得Swin Transformer成为处理宠物皮肤病影像的理想工具,能够提供更加精确和快速的自动化诊断。
在此背景下,本文提出了一种基于Swin Transformer的宠物皮肤病诊断系统,该系统旨在利用宠物皮肤影像(如皮肤照片和皮肤镜图像)对常见的皮肤病进行自动化分类。通过深度学习技术,该系统能够精准识别湿性皮炎、脓疱病、脂溢性皮炎、皮肤肿瘤和酵母菌感染等疾病,为兽医提供高效、精准的诊断支持。此研究不仅提高了宠物皮肤病的诊断效率,还为兽医提供了强有力的辅助工具,有助于减少误诊率,推动宠物健康管理的发展。
算法概述
1.Swin Transformer
Swin Transformer由微软公司的研究人员推出,是一种有效结合了 CNN 和 Transformer模型优势的新型架构。它旨在以类似 CNN 的分层方式处理图像,同时利用变换器固有的自我关注机制。这种混合方法使 Swin 变换器能够有效处理各种规模的视觉信息,从而使其在广泛的视觉任务中具有高度的通用性和强大的功能。
Swin Transformer 的核心创新在于其分层结构和基于移位窗口的自我注意力机制。与标准视觉转换器(ViT)在整个图像中应用自我注意力不同,Swin Transformer将图像划分为不重叠的小窗口,在这些窗口内计算自我注意力,从而减少了计算复杂性。此外,Swin Transformer引入了窗口移位技术,使得在连续的Transformer块之间,图像区域能在不同层之间相互影响,从而更好地整合局部与全局上下文信息。

图1 Swin Transformer多层级表示和ViT对比
如图1所示,Swin Transformer从小的patch开始,通过在深层次逐步合并相邻patch的方式构建了一个层级化的表示。通过这些层级特征图,Swin Transformer可以像FPN和U-Net那样进行多尺度密集预测。通过对图像分区(用红色标出)进行非重叠窗口的局部自注意力计算实现了线性的计算复杂度。每个窗口的patch的个数是固定的,因此计算复杂度和图像的大小成线性关系。
相比于之前只能产生单一分辨率特征图和平方复杂度的Transformer模型,Swin Transformer适合作为各种视觉任务的通用主干网络(backbone)。

图2:Swin Transformer网络架构
该架构详细展示了 Swin-Transformer 模型如何通过逐层处理和 Patch Merging 实现高效的图像特征提取。每个阶段的 Swin Transformer Block 通过不同的自注意力机制(如 W-MSA 和 SW-MSA)逐步提升图像理解的深度。通过多层次的处理和特征合并,该模型在处理大规模图像数据时表现出色,特别适合于图像分类和目标检测等任务。
Swin Transformer解决了以往基于 CNN 和 Transformer的模型的几个局限性。首先,它的分层设计可以高效处理多种分辨率的图像,有助于完成需要同时了解精细细节和整体结构的任务,如物体检测和语义分割。其次,通过将自我关注机制定位到窗口并采用移位窗口,Swin Transformer 大幅降低了计算要求,使其更易于扩展到大型图像和数据集。最后,它的架构通过将局部特征无缝集成到更广泛的上下文中,实现了更好的特征学习,从而提高了各种视觉任务的性能。
系统设计
本系统旨在实现宠物皮肤病的自动化分析与分类,采用"数据输入 + 模型推理 + 结果展示"的一体化工作流程。系统架构包括图像输入模块、图像预处理模块、数据集准备模块、Swin-Transformer训练模块、推理与检测模块、用户交互界面模块、检测结果展示模块以及实验结果与性能评估模块。通过图形用户界面(GUI),前端界面支持用户便捷地导入宠物皮肤病相关影像数据并进行交互操作,而后端则通过Swin-Transformer模型进行实时的皮肤病影像分析与分类。Swin-Transformer模型在宠物皮肤病分类任务中表现出色,具有较高的准确性和效率,能够精准区分"湿性皮炎"、"脓疱病"、"脂溢性皮炎"、"皮肤肿瘤"和"酵母菌感染"等不同的皮肤病状态。因此,本系统在宠物皮肤病早期诊断和治疗领域具有广泛的应用潜力。

图3 诊断系统整体流程图
通过对宠物皮肤病影像数据集的训练和优化,基于Swin Transformer的模型能够在实时分类中展现出高效性与准确性。特别是在宠物皮肤病早期诊断的应用中,模型能够精确地区分"湿性皮炎"、"脓疱病"、"脂溢性皮炎"、"皮肤肿瘤"和"酵母菌感染"五种常见皮肤病状态。该系统在实时皮肤病影像诊断和临床分析中具有广泛的应用前景,为早期干预、个性化治疗以及临床决策提供了强有力的支持。
数据集构建
1.数据来源
本系统使用的皮肤病影像数据主要来源于Google图片搜索,涵盖"湿性皮炎"、"脓疱病"、"脂溢性皮炎"、"皮肤肿瘤"和"酵母菌感染"等常见宠物皮肤病的影像资料。通过整理和筛选这些图像数据,本系统构建了一个多样化的宠物皮肤病影像数据集,包含不同皮肤病状态的影像特征,提供了高质量的训练数据,推动了深度学习和人工智能在宠物皮肤病诊断中的应用。

表2 数据集基本信息
该数据集包括"湿性皮炎"、"脓疱病"、"脂溢性皮炎"、"皮肤肿瘤"和"酵母菌感染"五种不同的宠物皮肤病影像状态。数据集不仅涵盖了多种皮肤病健康状态,且具有较高的影像质量,适用于系统的宠物皮肤病分类任务,为宠物皮肤病的自动化诊断提供了高质量的训练数据。该数据集旨在推动深度学习和人工智能技术在医学影像分析领域中的应用,特别是在宠物皮肤病检测中,提供强有力的数据支持,旨在提高皮肤病诊断的准确性和效率。

图4 数据集图片
本研究在对原始宠物皮肤病影像数据进行清洗与筛选后,构建了一个包含"湿性皮炎"、"脓疱病"、"脂溢性皮炎"、"皮肤肿瘤"和"酵母菌感染"五种宠物皮肤病状态的皮肤病影像数据集。该数据集的类别分布均衡,全面涵盖了不同皮肤健康状态,能够真实反映宠物皮肤病状态下的影像特征。数据集中每类状态的影像均经过标准化处理与质量控制,确保了样本的代表性与清晰度。该数据集为后续基于深度学习模型进行宠物皮肤病健康状态识别与分类提供了坚实的数据支撑,为医学影像分析领域的智能化与自动化研究奠定了基础。
2.分类方法
本系统所使用的宠物皮肤病影像数据的分类信息由专业人员完成。每个皮肤病影像都被分配到一个明确的皮肤健康状态,如"湿性皮炎"、"脓疱病"、"脂溢性皮炎"、"皮肤肿瘤"和"酵母菌感染"。为确保分类的准确性和可靠性,分类过程由专业人员独立完成,并通过交叉验证的方式进行审核,从而有效降低个体差异带来的偏差,确保数据分类的一致性和权威性。该分类方法确保了数据集的高质量,并为后续基于深度学习模型的宠物皮肤病健康状态分类模型训练提供了坚实的数据支持。
(1)分类数据集格式
该格式主要用于图像分类任务,常见于Swin Transformer等深度学习模型的训练。其方法是将每张图像归类为一个明确的类别。该格式能够确保数据与模型在训练与推理过程中的高效匹配,从而提高分类精度和推理效率。Swin Transformer通过其分层结构和移位窗口自注意力机制,能够更好地处理图像中的局部与全局上下文信息,进一步提升了分类性能。这种格式简化了数据准备过程,并为基于Swin Transformer的图像分类模型训练提供了高效且标准化的数据输入。

图5 分类数据集格式
(2)数据集划分
标注后的数据集不仅包括图像文件,还包含对应的分类信息。经过上述所有步骤处理和验证后的图像数据被划分成训练集和测试集,形成最终的数据集,用于算法训练学习模型。

图6 数据集划分:测试集和训练集
以下是数据集的具体含义及每个数据集的作用:

表3 数据集概述
模型训练
Swin Transformer 是一种常用于图像分类任务的深度学习模型。其训练过程主要包括以下几个步骤:配置文件与超参数的设置、训练过程的执行以及训练结果的可视化分析。Swin Transformer通过其分层结构和移位窗口自注意力机制,能够有效处理图像中的局部与全局上下文信息,进一步提升分类精度和效率。在训练过程中,Swin Transformer能够通过高效的计算方式应对大规模数据集,并且在多个图像分类任务中展现出了优异的性能。

图7 模型训练流程图
1.配置文件与超参数设置
以下是关于Swin Transformer模型训练过程中的配置文件和超参数设置,并通过配置文件以及相关参数进行训练设置。

表4 Swin Transformer模型训练超参数设置
2.模型性能评估
在 Swin Transformer模型的训练过程中,模型性能评估是衡量其在图像分类任务中表现的重要环节,能够全面反映模型在分类精度和泛化能力方面的表现。科学而准确的评估不仅有助于揭示模型的优势与不足,还能为后续的改进与优化提供可靠依据。
(1)训练与验证准确率和损失曲线

图8 Swin Transformer训练与验证准确率和损失曲线
该图展示了模型在训练和验证过程中的准确率与损失变化。训练准确率在初期迅速提升并趋于稳定,验证准确率虽整体上升但略有波动,说明模型在训练集上拟合良好,但在验证集上存在一定的过拟合趋势。训练损失在前期急剧下降后趋于平稳,而验证损失下降较慢并保持在较低水平,表明模型具有较好的学习能力但泛化性能仍需优化。
(2)混淆矩阵热力图

图9 Swin Transformer混淆矩阵热力图
该图是一个混淆矩阵的热图,显示了模型在分类任务中的表现。每个单元格表示模型预测标签与实际标签的匹配情况,数字越接近1,说明模型的预测越准确。从图中可以看到,所有类别(如Hot spot、Impetigo、Seborrhea、Skin tumor、Yeast infection)都准确地分类,没有发生任何错误分类。每个类别的对角线上的值为1,表示模型完美地预测了每个类别,验证了模型的高准确率。
(3)各类认知障碍的分类性能评估:准确率、精确率、召回率与F1分数图

图10 各类认知障碍的分类性能评估:准确率、精确率、召回率与F1分数图
这张图展示了模型在不同评估指标上的表现,包括准确率、精确度、召回率和F1分数。所有指标均为1.00,表明模型在每个类别上的表现均达到了完美水平。准确率为1.00,说明模型在所有类别上的总体分类准确性极高;精确度为1.00,表明预测为某一类别的样本几乎全部正确;召回率同样为1.00,意味着模型没有漏掉任何一个类别的样本;F1分数为1.00,显示了模型在精确度与召回率之间取得了完美的平衡。综上所述,模型在本次任务中的分类性能非常出色,具有极高的准确性和可靠性。
(4)训练日志(Training Log)
训练日志记录了Swin Transformer模型在训练过程中的详细信息,包括训练轮次、每轮的损失值、验证准确率以及训练时间等,这些信息帮助评估模型的训练效果和性能。

图11 Swin Transformer训练日志

图12 模型训练日志概要
功能展示
本系统基于深度学习的Swin Transformer模型,旨在实现宠物皮肤病的自动诊断与分类。系统集成了Swin Transformer模型,用于对宠物皮肤病影像进行特征提取、分类及诊断结果展示。通过对比不同模型的性能表现,本系统为宠物皮肤病的智能化、标准化诊断研究提供了技术支撑。以下为主要功能界面的展示:
- 系统主界面展示
系统主界面集成了宠物皮肤病影像上传、模型选择、实时分析及诊断结果展示等功能。用户可在界面中直观选择不同的深度学习模型(如Swin Transformer),上传宠物皮肤病影像后,系统将自动进行特征提取与分类分析,并生成对应的诊断结果。界面支持对模型预测结果的可视化展示,方便宠物医生和科研人员对比不同模型在宠物皮肤病早期诊断中的性能表现。系统支持诊断湿性皮炎、脓疱病、脂溢性皮炎、皮肤肿瘤、酵母菌感染等多种常见皮肤病。

图13 系统主界面
- 图片检测功能
本系统基于Swin Transformer模型,支持对宠物皮肤病影像进行快速诊断。用户可以上传宠物皮肤病影像样本,系统会自动进行分析,识别皮肤健康状态(如湿性皮炎、脓疱病、脂溢性皮炎、皮肤肿瘤、酵母菌感染等),并给出诊断结果、分类标签和置信度评分。诊断结果通过清晰的文本和图表直观呈现,帮助宠物医生和科研人员快速评估不同模型(如Swin Transformer)在宠物皮肤病早期诊断中的性能表现,从而为进一步的治疗决策提供支持。

图14 宠物皮肤病:酵母菌感染

图15 宠物皮肤病:脓包病

图16 宠物皮肤病:皮肤肿瘤

图17 宠物皮肤病:湿性皮炎

图18 宠物皮肤病:脂溢性皮炎
- 保存结果

图19 结果保存
- 生成医疗影像诊断报告

图20 成功生成医疗影像诊断报告

图21 诊断报告
界面设计
本系统的图形用户界面采用PyQt5框架开发,致力于打造直观、高效且流畅的交互体验。通过精心设计的界面布局和模块化架构,系统功能得以清晰呈现,并确保各项操作的高效执行,全面提升用户使用体验。

图20 PyQt5主控面板界面
该界面展示了基于PyQt5框架精心设计的诊断系统,界面布局简洁、直观且高度集成。通过巧妙的模块化设计,系统涵盖了多项功能模块,确保用户能够高效、流畅地进行操作与交互,充分体现了系统在医学领域中的智能化与人性化设计。