【顶刊TPAMI 2025】多头编码（MHE）之Part 6：极限分类无需预处理

[1 标签分解方法的消融研究](#1 标签分解方法的消融研究)
[2 标签分解对泛化的影响](#2 标签分解对泛化的影响)
[3 讨论](#3 讨论)
[4 结论](#4 结论)

论文：Multi-Head Encoding for Extreme Label Classification
作者：Daojun Liang, Haixia Zhang, Dongfeng Yuan and Minggao Zhang
单位：山东大学
代码：https://github.com/Anoise/MHE

论文地址：Online，ArXiv，GItHub

背景动机参见【顶刊TPAMI 2025】多头编码（MHE）之极限分类 Part 1

基础知识参见【顶刊TPAMI 2025】多头编码（MHE）之极限分类 Part 2

算法实现参见【顶刊TPAMI 2025】多头编码（MHE）之极限分类 Part 3

表示能力参见【顶刊TPAMI 2025】多头编码（MHE）之极限分类 Part 4

实验结果参见【顶刊TPAMI 2025】多头编码（MHE）之极限分类 Part 5

无需预处理见【顶刊TPAMI 2025】多头编码（MHE）之极限分类 Part 6

请各位同学给我点赞，激励我创作更好、更多、更优质的内容！^_^

关注微信公众号 ，获取更多资讯

1 标签分解方法的消融研究

为了进一步验证定理3中隐含的结论，即当模型泛化与数据过度拟合时，模型泛化变得与标签的语义无关，本文对模型泛化进行标签分解的消融研究。众所周知，预处理技术的核心是对极端标签进行语义聚类，将其划分为多个易于处理的局部标签。因此，本文将使用标签聚类（LC）的模型与使用标签随机重排和任意分解（LRD）的模型的性能进行比较。

图8：XLC中标签分解预处理(a)与未预处理(b)的比较。 F F F是从模型中提取的特征。 C i C_i Ci是 i i i-个簇， C i ′ C'_i Ci′是 i i i-个随机标签集。在每个阶段，都有一个将特征映射到特定集合或类别的分类器。

如图8所示，标签分解可以被概念化为多阶段分类过程，即，给定特征最初被分配给簇，随后识别该簇内的特定类别。如图8-a所示，预处理技术可以促进分类的初始阶段，例如区分运输的两个类别（狗可以被认为是填充类别）而动物由于其巨大的差异而被证明是容易的。然而，在第二阶段，基于粗特征对精细子类别进行分类变得困难，例如，从动物簇中区分蚂蚁、鸟类和蜜蜂变得更加困难（ C 2 C_2 C2 ）而不是从混合簇（ C 2 C_2 C2），如图8-b所示，其中没有使用预处理技术。这表明，在没有标签预处理的情况下，LRD 的初始阶段相对困难，而第二阶段则相对于 LC 简单。更多真实数据集的实验结果请参见附录F.4 。

2 标签分解对泛化的影响

此外，本文还比较了三种不同复杂度的模型，以评估它们在使用精心设计的 LC 和随机 LRD 方法进行配置时的泛化能力。如图9所示，当低复杂度模型对数据拟合不足时，LRD 和 LC 之间存在明显的性能差距：小模型（图9-a ）中约为 4％，中模型（图 9-a）中约为 2％（图9-b )。这是因为层次分类器在后续阶段的性能依赖于早期阶段的决策结果，特别是当低复杂度模型提取的特征表现出可区分性降低时。这解释了为什么在涉及低复杂度的情况下，LRD 模型落后于 LC 模型。然而，随着模型复杂性的增加，这种性能差距逐渐缩小。最终，当模型过度拟合数据时，如图9-c所示，LRD 和 LC 之间的差距消失。值得注意的是，尽管这里使用的高复杂度模型（ResNet-18）很小，但该模型的过度参数化在实践中很容易实现。此外，本文的实验，包括附录F.4中的实验，支持LC和LRD的泛化性能是一致的。

图 9 ：消融研究，调查标签分解模式对模型泛化的影响。 'LC'表示标签聚类，'LRD'表示标签随机重排然后任意分解。 SimpleConv-4（小）表示欠拟合，ResNet-10（中）表示欠拟合，ResNet-18（大）表示过拟合。

总之，本文发现当簇的数量保持不变并且其中样本的分布近似均匀时，LRD 不会损害超参数化模型的泛化能力。这有力地支持了定理3中隐含的主张。

3 讨论

在这里，本文通过阐明 MHE 与其他采用多个分类器的方法之间的区别来讨论 MHE 的创新性。

最近的几种方法[ 59 , 60 ]利用多个分类器来解决长尾分布问题。具体来说， [ 59 , 60 ]中的作者将数据集分成平衡的子集，并在每个子集上训练专家模型。然后，将多个专家模型（一个子集上的一个模型）聚合以获得最终模型，如图10a所示。长尾方法不适用于解决CCOP，因为聚合模型中分类器的参数没有减少。与上述不同形式的方法不同，如图10 （eg）所示，所提出的基于MHE的算法可以通过将难以解决的极端标签分解为多个易于解决的局部标签并组合局部标签来很好地解决CCOP通过简单的计算得到极端的标签。

有许多基于树的方法[ 2,11,12 ]使用多个分类器来执行 XLC 任务。这些方法通过分层分支来划分标签空间。例如，Hierarchical softmax [ 2 , 22 ]采用霍夫曼树对短分支的高频词进行编码，如图10a所示。然而，巨大的标签空间极大地增加了树的深度和大小，需要遍历低频样本的深层路径，使其不适合 XMLC 任务。受此推动，一些基于HLT的方法[ 11 , 12 ]被提出，但它们涉及节点分裂时的复杂优化，使得难以获得廉价且可扩展的树结构[ 26 ] 。相反，基于 MHE 的算法没有预处理步骤。因此，只要标签空间完全映射，分类器的长度可以任意划分。

图10：使用多个分类器的算法之间的比较。符号" ⨄ \biguplus ⨄"表示聚合运算，" ⨂ \bigotimes ⨂"表示克罗内克积运算。

一些多标签学习算法也采用多分类器来处理标签功率集过大的关键挑战。具体而言，如图10-c所示，二值相关算法将多标签学习问题分解为 ∣ Y ∣ |\bm{Y}| ∣Y∣个独立的二值分类问题。在图10-d中，分类器链算法将多标签学习问题转化为二元分类问题链，其中链中的后续二元分类器建立在前一个分类器的预测之上。但是，这些算法中分类器的数量等于标签的数量，不适合XLC任务。与这些算法不同的是，提出了基于mhe的算法，通过组合多头分类器来解决CCOP问题。因此，基于mhes的算法的计算复杂度大大降低，使其更加灵活，更适合XLC任务。

4 结论

在本文中，本文提出了一种多头编码（MHE）机制来应对 XLC 任务中存在的 CCOP 挑战。 MHE将极端标签分解为多个短局部标签的乘积，每个头在这些局部标签上进行训练和测试，从而几何上减少了计算量。针对XLC任务，例如XSLC、XMLC和模型预训练，设计了三种基于MHE的算法，包括多头乘积（MHP）、多头级联（MHC）和多头采样（MHS）。实验结果表明，三种基于MHE的算法在其应用的任务中均实现了SOTA性能，并且可以大大加快模型训练和推理的速度。此外，本文对MHE的表征能力进行了理论分析。事实证明，OHE 和 MHE 之间的性能差距相当小，并且不需要标签预处理技术。

本文认为XLC是传统分类任务的自然延伸，它使本文能够处理极端标签，并且更适合真实世界的样本和实际应用。反过来，为 XLC 设计的基于 MHE 的算法可以为许多传统任务带来更多新颖的解决方案。例如，本文可以将回归任务转化为XLC任务，并使用基于MHE的算法来解决它。在强化学习中，当将其视为 XLC 任务时，基于 MHE 的算法可以为极端状态空间提供准确的预测。