UniMMAD：通过MoE驱动的特征解压实现统一的多模态和多类别异常检测

论文总结

研究背景 现有异常检测模型多针对单一模态 / 单类任务定制，模型碎片化、内存开销大；多类重构方法共用解码路径，易受域差异干扰，误报率高。
核心目标 提出统一框架 UniMMAD ，单套参数同时支持多模态、多类别、多场景无监督异常检测。
核心创新

提出通用→特定范式：编码器将多模态输入压缩为通用特征，再解码为模态 / 类别专属特征，缓解捷径学习与域干扰。
设计特征压缩模块 (FCM)：抑制潜在异常、强化跨模态交互，提纯通用特征。
构建跨模态混合专家 C-MoE ：基于输入模态与类别动态路由专家，实现任务隔离；嵌套MoE-in-MoE结构，参数量减少约 75%。
搭配分组动态过滤、预计算卷积核，大幅提升推理速度。

损失函数 采用解压缩一致性损失约束特征对齐，结合 MoE 负载均衡损失，保证专家均衡激活、路由稳定。
实验结果

在 9 个主流数据集（工业、合成、医疗，共 12 种模态、66 个类别）上取得 SOTA，综合性能超越专用模型与通用大模型。
推理效率优异，帧率远高于同类多模态方法；增量学习表现良好，新旧任务性能衰减低于 8%。

核心优势 单模型适配全场景、参数高效、推理快速、具备持续学习能力，落地部署友好。

摘要

现有异常检测方法通常将模态和类别视为独立因素。尽管这一范式丰富了AD研究分支的发展并产生了许多专门模型，但也导致了解决方案的碎片化和过高的内存开销。此外，基于重建的多类方法通常依赖共享译码路径，这在处理跨域的大变异时难以应对，导致正常边界失真、域干扰和高误报率。为解决这些局限性，我们提出了UniMMAD，一个多模态和多类别异常检测的统一框架。UniMMAD 的核心是基于专家混合（MoE）驱动的功能解压机制，能够针对特定领域进行自适应和解缠重建。这一过程遵循"通用→具体"范式。在编码阶段，将不同组合的多模态输入压缩成紧凑、通用的特征。编码器集成了特征压缩模块，以抑制潜在异常，鼓励跨模态交互，避免捷径学习。在解码阶段，一般特征通过稀疏门控交叉 MoE 解压为模态特异和类别特异形式，该 MoE 根据输入模态和类别动态选择专家通路。为进一步提高效率，我们设计了分组动态滤波机制和MoE中MoE结构，在保持稀疏激活和快速推断的同时，MoE参数使用率降低约75%。UniMMAD 在 9 个异常检测数据集上实现了最先进的性能，涵盖 3 个领域、12 个模态和 66 个类别。

引言

图1。任务设定。（a）现有方法 $3--5$ 依赖于针对固定模态量身定制的专门模型。（b）我们的UniMMAD将多模态和多类别异常检测统一在一个框架内。（c）视觉示例，异常区域、模态和类别名称分别用红色、白色和黄色框标示。

无监督异常检测（AD）旨在不依赖异常样本检测异常，在制造检查 $1$ 和医学诊断 $2$ 等实际应用中至关重要。在现实场景中，异常以多种形式出现，通常需要多种传感方式才能可靠检测。例如，三维模态可以帮助识别几何缺陷，并降低RGB图像中的光敏风险 $3$ 。现有方法 $3， 5， 8$ 主要关注固定模态输入。它们专注于处理一种模态组合，如图1a所示。然而，在实际场景中，通常会涉及多个不同的传感器进行产品质量检测。如图1c所示，红外相机用于检测"Light"产品中的内部部件损伤，而RGB和3D传感器则是识别"泡沫"产品中颜色和几何缺陷的关键。为每种模态组合定制特定模型并非最佳解决方案，通常会导致模型部署困难和内存开销。尽管现有的多类方法 $6， 9$ 可以扩展以缓解类共享模型设计中的碎片化问题，但它们难以适应复杂的模态组合和多样场景，因为共享解码器无法很好地解开异质模态分布。最近，统一的视觉模型 $10--12$ 已经证明，单一架构和参数集可以处理多种任务。受这些启发，我们旨在开发一个跨多场景的统一无监督异常检测框架，支持多模态输入，并预测多个语义类别，如图1b和图2a所示。实现这一目标面临两个关键挑战：1）大域异质性。不同模态和类别之间的复杂相互作用，导致外观、照明、尺度、背景和异常语义等方面存在巨大差异，使得一致的表征学习和异常辨别变得困难。2）效率和持续学习的实际限制。一个实用的统一AD模型必须确保高精度、快速推理、稀疏计算，并能适应新的类或模态，避免灾难性的遗忘。现有的多类AD模型 $6， 7$ 在不同类别之间共享重建路径。尽管参数效率高，这种共享路径会加剧域干扰，导致正常模式重建差和高误报。如图2b所示，这些方法可能扭曲决策边界，并将正常区域误判为异常。为应对这些挑战，我们提出了UniMMAD，一个针对多样场景的统一异常检测框架。其核心是一个基于专家混合（MoE）的特征解压机制，旨在解决由异构输入引起的纠缠。统一AD需要共享模型来处理跨模态和类别的大规模域转换，这常导致单一解码器出现扭曲的重建和误报。MoE自然缓解了这一问题，通过实现稀疏的输入条件激活专家，使专家能够专注于特定领域，同时共享全局参数。这使得将一般潜在特征分解为多样化的领域特定输出。UniMMAD 使用统一编码器将任意多模态输入压缩为紧凑特征，并使用动态 MoE 解码器将其自适应解压为任务特定重构，干扰最小。如图2b所示，我们首先引入了一个新范式"一般→特定"范式，将一般多模态特征解压为域特定的单模态特征。这一范式鼓励学习一种强大的通用多模态编码器，能够灵活适应不同的模态组合，并有效融合跨模态信息。与传统的重建目标 $6$ 重建输入本身不同，我们的非对称"通用→特定"范式减少了捷径重建。其次，我们在编码器中嵌入特征压缩模块，生成紧凑且纯净的潜在表示。这能压缩整体特征并抑制异常模式的传播。第三，在解码阶段，我们设计交叉专家混合（C-MoE），以减少减压期间的域干扰。受MoE在异质数据上的成功启发 $13$ ，C-MoE采用交叉条件专家选择机制，考虑一般特征和领域特异先验，动态选择最优减压路径。这允许任务隔离和自适应专家扩展。最后，我们通过分组动态滤波和分层的MoE-in-MoE结构增强了C-MoE。在稀疏的 MoE 中嵌套密集的专家组并支持并行执行，可以在保持 MoE 稀疏激活优势的同时，约 75% 的参数开销降低。

图2。（a） UniMMAD涵盖的领域、模式和类别概述。（b） UniMMAD 的架构及主流多类方法 $6， 7$ 。右侧显示了正态区域的重建特征分布。原始特征（三角形 ▼）与重建特征（圆圈 ●）之间的距离越远，假阳性风险越高。

我们的主要贡献可以总结如下：

• 据我们所知，我们是首个提出高效、统一异常检测框架的机构，该框架使用单一参数处理多模态和多类别数据。

• 我们提出一种"通用→特定"范式，用于学习通用的多模编码器和特征压缩模块，以实现有效的跨模态表示。

• 我们设计了C-MoE，有效减少了由区域间隙引起的干扰，同时提升了MoE的参数效率。

• UniMMAD共享所有参数，动态激活领域专属专家，涵盖多种场景，超越最先进方法，具备强大的持续学习能力和高推理效率。

方法

整体架构见图3。在本节中，我们首先介绍"一般范式→具体范式"的主要思想。接下来，我们介绍了用于压缩多模态特征的通用多模态编码器，以及用于将这些特征解压为领域特定特征的交叉专家混合编码器（C-MoE）。最后，我们概述了训练和推理过程

通用→具体

为处理多样化的模态组合和领域差异，我们提出了"通用→特定"范式。其核心思想是将多模态特征解压为多个单模态特征：f gen →是 {um}m M=1，其中 f gen 是多模态特征，um 是第 m 个单模态特征，M 是模态数量。模型通过预测fgen与每个um之间的残差来学习正常样本的分解。预训练的先验生成器提供领域特定的先验，指导和监督解压过程，帮助模型捕捉一般特征和特定模态特征。在推断过程中，这种减压在异常情况下失败，产生的偏差作为异常检测的指示。

通用多模编码器

如图3所示，通用多模编码器包括输入嵌入层、残差块和特征压缩模块（FCM）。输入嵌入层将所有输入填充到统一的信道维数C，支持任意模态组合：RCin×H×W → RC×H×W 。使用三个残差块逐步提取多模态特征，结合模态间先验平均来细化特征。为了防止异常线索污染多模态特征，FCM采用了层级瓶颈。内层多尺度瓶颈使用平行1卷积×1、3×3和×5卷积，以保持正常模式，同时抑制尺度敏感异常。外部瓶颈在更高语义层级进行更细微的压缩，以进一步消除残留的异常激活。最后，残差块将压缩后的特征恢复为多尺度输出fgen 1、f gen 2和f gen 3，从而得到纯化的一般特征。

专家交叉混合

C-MoE将一般特征fgen l解压为域特定特征pml，由域先验uml引导，m_l编码多尺度领域知识，l代表特征映射的索引。C-MoE采用交叉状态路由策略，避免依赖交叉注意力，避免出现捷径问题 $6$ 和高计算开销。它根据先验选择隐性专家，提升疾病意识，减少不同疗法和类别间的干扰。该机制成为后续布线和专家设计模块的基础。状态路由器。如图4所示，一般特征投影为键和值，先验为查询。卷积层后再进行全局平均池化，得到全局统计量 gm l ，封装了域特异的上下文特征，有效抑制异常泄漏，从而防止捷径学习。门控函数G产生top-K专家指数I和logits，进一步通过softmax归一化以获得交叉条件得分。为了鼓励专业的平衡使用，我们引入退火处理负载均衡损失函数：

其中 e、E 和 L 分别表示历元指数、历元总数和特征映射数。变异系数CV（·）量化了门输出分布的均匀性。该方案鼓励广泛专家早期激活，后期稳定路由。

图3。UniMMAD概述。它通过通用多模态编码器和特征压缩模块（FCM）处理各种模态组合。FCM由分层的瓶颈-K结构和残差块（ResBlock）组成，瓶颈-K使用K卷积×K卷积捕获尺度信息，1 × 1卷积调整维度。先验生成器提供领域特异的先验，指导C-MoE将一般特征解压为域特定特征。

专家设计与布线。C-MoE采用两类专家：（1）固定专家用于捕获共享知识并减少冗余，（2）通过top-K门控选出的路由专家，提供任务特定能力。为了降低内存成本并避免专家处于不活跃状态，我们构建了一个 MoE 中 MoE 结构。每个路由专家（MoE-Leader）是共享基专家W∈RNexp×O×I×Ks×Ks的加权组合，其中Nexp表示碱基专家数量，O和I分别代表输出和输入通道，Ks为核大小。每个MoE-Leader存储只权重S∈RNexp×O用于选择基础专家。给定路由指标I，最终卷积核计算为：

推理加速与多尺度聚合。为了加速C-MoE推断，我们引入了两种优化方法。（1）预先计算的核。在推断中，MoE-in-MoE缓存预加权卷积核Wˆ，从而消除了即时生成的核。（2）分组动态过滤。这些值会被复制为Kroute激活的路由专家和一个固定专家，并从 $B = （Kroute+1）， Cval， \cdot \cdot \cdot$ 重塑为 $B = 1，（Kroute+1）\timesCval， \cdot \cdot \cdot \cdot$ ，其中Cval表示值的通道维度。设置组 = Kroute + 1 在单个组卷积中执行专家滤波，实现并行动态过滤，并通过消除串行处理减少内存流量和延迟。过滤后的输出会根据路由器生成的专家评分加权和汇总。为了应对不同空间范围的物体，C-MoE进一步聘请具有异质感受野和融合t的专家。

图4。C-MoE 的详细架构。它通过条件路由器根据领域特定先验选择专家索引，激活相应的路由专家和固定专家，并通过分组动态过滤解压一般特征。每个被路由的专家采用 MoE-in-MoE 结构以提升参数效率。

训练与推理

**训练。**我们采用加权抽样策略来平衡不同的训练任务，每个任务的抽样概率与每类样本数量成反比。我们引入了解压一致性损失LDeC，以强制解压单模态特征与其原始对应物之间的比对，定义如下：

其中⊙表示按元素乘法，Hl 和 Wl 表示第 l 个特征图的高度和宽度。对于坐标（h， w）处的第 m 个模态，在l层，异常映射Am l定义为域特异性先验um l与C-MoE中对应特征pm l之间的负余弦相似度。损耗包含了类似焦损 $29$ 的调制因子γ以更强调少数类，其中sg（·）表示停止梯度操作。总体目标通过L = LDeC+ LMoE实现端到端优化。

**推断。**该模型利用解压后的单模态特征与其原始对应特征之间的差异来定位异常，具体如下：

其中 Φ（·）将异常映射上采样为输入大小，并使用高斯核（σ = 4）进行平滑，如 $3$ 。图像级异常检测得分SAD是通过异常定位得分中前0.1%的平均值计算出来的。

实验

数据集与评估指标

我们在9个广泛使用的抗海默症数据集上进行了实验，其中Hyper-Kvasir $30$ 、视网膜OCT $31$ 和肝CT $32$ 整合进UniMed数据集。详细数据集信息汇总于附录（标签8）。我们在这些任务中遵循最新最先进方法的训练设置，并将所有训练样本合并为我们的训练集。我们采用图像层级和像素层级的指标来评估所有模型。对于图像级指标，我们报告接收机工作特征曲线下的面积（AUCI）、平均精度（API）和最大值mum F1评分（MF1I），遵循文献中的方法论 $33， 34$ 。像素级指标报告接收者工作特征曲线下的面积（AUCP）、每个区域重叠面积（AUPRO）和最大F1得分（MF1P）。MF1I和MF1P是评估异常检测和定位性能的关键指标 $35$ ，分别代表图像和像素层级的性能上限。

实施细节

遵循异常检测的常见做法 $14， 16$ ，我们采用WideResNet50 $36$ 作为先验生成器，以提取前三层作为域特定先验。所有图片均调整为256×256，以确保公平对比。我们在传统的多类环境中训练和测试专门方法，采用一致的骨干和实验设置，同时通过独立预测每种模态并汇总结果，评估跨所有数据集的通用方法。在C-MoE中，我们雇佣了8个共享基专家和32个MoE-Leader，而多尺度专家则使用1×1、3×3和5×5个核心。激活的顶K路由专家的K设置为2。减压一致性损失使用γ=2，紧接着焦距损失 $29$ 。更多实验细节、比较方法和数据集描述可见附录。

定量结果

图像级和像素级结果分别显示在标签1和标签2。尽管整个数据集仅训练一次，UniMMAD始终优于大多数专业化方法。它在MVTec-3D和BraTS上超越了强大的多模态基线，并在Eyecandies上提升了7.5%的像素级MF1P。在单模态任务中，通用模型良好地迁移到UniMed，但与现有多类方法相比仍表现不佳。此外，该方法与传统工业数据集MVTec-AD和VisA的主流多类方法在超多类设置下进行了比较 $9$ ，构建了工业场景的统一模型。如图3所示，该方法优于现有方法，尤其是在VisA复杂的多实例场景中，MF1P比INP-Forformer提升10.8% $9$ 。这些结果表明，UniMMAD 在多种 AD 任务中能够很好地泛化，同时在不需逐项定制的情况下保持高准确性。

定性结果

我们在图5中展示了一些定性比较。与专业方法相比，UniMMAD在正常区域的反应中能对缺陷区域产生更精准、更锐利的激活。例如细节丰富的"绳索"、边界模糊的"脑瘤"和低对比度的"光"。虽然通用模型可以生成集中激活图谱，但它们常常突出正常或良性区域，导致假阳性。附录中提供了更多定性讨论。

消融实验

我们采用逆向师生框架 $15$ 作为基线，因其清晰的架构和可靠的性能，使其成为扩展统一环境的坚实基础。然而，原始设计限于单模态输入。为了将该基线适应各种模态组合，我们使用预训练模型提取单模态特征，然后利用MMRD的无参数调制将其融合为多模态表示 $14$ 。这些修改使基线能够支持统一检测任务，并为评估UniMMAD中每种设计的有效性提供公平的基线。标签4以图像级和像素级指标详细展示消融结果。建筑学。首先，我们将OCBE模块 $15$ 替换为FCM，并对UniMed数据集取得了显著改进。这是因为FCM压缩了法线特征，并扩大了它们与异常的分离，使模型对细微缺陷更加敏感。接下来，我们采用"一般→具体"的范式。一个生成式编码器提取多模态特征，通过交叉注意力进行解压。该设计捕捉共享线索，同时还原了模态特定的细节。其在AUCI和AUCP上分别实现8.9%和10.9%的涨幅。最后，我们整合了拟议的C-MoE，并在工业、合成和医疗领域平均提升了8.1%的AUCI。总之，第4表无一例外地验证了每个组成部分的有效性。

**C-MoE。**C-MoE的核心设计是交叉条件机制和路由专家。用普通MoE替换交叉条件MoE会导致AUCI平均下降6.7%。移除路由专家隐性禁用了交叉条件机制，导致AUCI下降5.7%。此外，多尺度和固定专家都有助于进一步提升性能。我们可以看到，多尺度专家帮助捕捉大型组织异常和小肿瘤，UniMed的AUCI提升了4.6%。

**持续学习。**图6显示了UniMMAD的持续学习能力。首先，我们联合训练T1-T3任务，以获得基本的通用探测能力。然后，我们从T4逐步进行持续学习，仅微调来自MoE领导条件布线器的不到10%的参数，以及聚合卷积。为了保持早期任务的路由准确性，每个新任务的训练中会混合1%的先前数据。最后，UniMMAD在新任务上的表现与所有任务的联合培训相当，而以往任务的性能下降率低于8%。

**MoE中的任务隔离。**图7（a）显示，C-MoE将不同的专家分配到不同领域，从而减少了模态和类别间的干扰。C-MoE 还动态调整所选专家数量，以匹配数据集复杂度。例如，MulSen-AD在类别内表现出高度的变异性，而MVTec-3D则引入了更复杂的模态变异，因此需要更多专家。与固定重建路径相比，C-MoE提供了更高的灵活性和可扩展性。

MoE在MoE里。为评估参数效率，我们比较了不同专家配置下的MoE-in-MoE与纯MoE。MoE-in-MoE专家人数固定为32人。作为参数主要来源的基础专家数量是不定的。图7（b）显示MoE-in-MoE实现了性能与普通的MoE更具有可比性，但参数数量减少了75%。随着参数数量的增加，MoE-in-MoE的性能提升逐渐被完全吸收。统一型与专门型。与受参数干扰影响的基线不同，UniMMAD 通过自适应路由有效解开域冲突，保持了卓越的稳定性（见标签 5）。此外，统一训练还能提升数据稀缺的红外模态（MulSen-AD）和复杂的四模态BraT。效率。如标签6所示，所提模型将多场、多模态和多类数据与专门多模态方法相当的参数计数整合。基于内存库的方法如 M3DM 和 MulSen-TripleAD（MulSen.）推理较慢且内存开销较高，而 CFM 由于重型 Transformer 架构和点云处理，也存在效率低下的问题。相比之下，我们的全卷积MoE-in-MoE设计重复使用基底专家，推断速度更快，非常适合实际异常检测。

总结

我们介绍UniMMAD，一个为多模态和多类别异常检测设计的统一模型。它包含"通用→特定"范式、通用多模编码器和参数高效的C-MoE。对九个具有挑战性的基准测试的广泛实验表明，UniMMAD建立了一种全新的最先进技术，仅用一套参数就能超越专门的方法。此外，UniMMAD为统一多场景异常检测提供了坚实的基线，其高推理效率和持续学习能力凸显了其可扩展性和现实部署的实用性。