【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 1:背景动机

目录

  • [1 简单概括](#1 简单概括)

  • [2 几个重要发现](#2 几个重要发现)

  • [3 主要贡献](#3 主要贡献)

  • [4 背景知识](#4 背景知识)

  • [5 方法简介](#5 方法简介)

    论文:Multi-Head Encoding for Extreme Label Classification
    作者:Daojun Liang, Haixia Zhang, Dongfeng Yuan and Minggao Zhang
    单位:山东大学
    代码:https://github.com/Anoise/MHE

论文地址:OnlineArXivGItHub

背景动机参见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 1

基础知识参见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 2

算法实现参见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 3

表示能力参见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 4

实验结果参见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 5

无需预处理见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 6

1 简单概括

在现实世界中物体的类别数量,包括大预言模型的Token数量,通常是巨大的,每个实例可能包含多个标签。为了利用机器学习来区分这些大量的标签,极限标签分类(XLC)任务应运而生。然而,随着类别数量的增加,分类器中参数和非线性操作的数量也会增加。这就导致了分类器计算过载问题(CCOP)。为了解决这个问题,本文提出了一个多头编码(MHE)机制,它用多头分类器取代了传统的分类器。在训练过程中,MHE将极端标签分解成多个短局部标签的乘积,每个头部都在这些局部标签上进行训练。在测试过程中,可以直接从每个头部的局部预测中计算出预测标签。这在几何上减少了计算负荷。然后,根据不同XLC任务的特点,如单标签、多标签和模型预训练任务,提出了3种基于mhe的实现方法,即多头产品、多头级联和多头采样,以更有效地应对CCOP。此外,本文从理论上证明了MHE可以通过将低秩近似问题从Frobenius-norm推广到交叉熵来实现与香草分类器近似等效的性能。实验结果表明,该方法在显著简化XLC任务的训练和推理过程的同时,达到了最先进的性能。

ChatGPT-4O的Token数量是惊人的,Token数量的增多,是为了提升输出结果向人类知识对齐;

2 几个重要发现

  • 在单标签分类中,多头编码(MHE)等同于独热编码(OHE)。
  • 使用交叉熵(Cross-Entropy)训练低秩网络,以softmax作为损失函数,可以恢复与普通分类器相同的准确率,只要权重为秩 R ( [ W , B ] ) > 1 R([W,B])>1 R([W,B])>1即可。也就是,只要存在偏置的情况下,多头编码可完美回复分类精度。
  • 当标签与数据过拟合时,模型泛化与标签的语义无关。
  • 对于极限分类问题,标签预处理技术,如标签层级树(HLT)和标签聚类(LC),是不必要的,因为低秩近似仍然独立于标签定位。这不仅可以显著提高训练推理速度,而且可以实现多gpu并行加速。

3 主要贡献

  • 针对极限标签分类(XLC)任务中参数过重的问题,提出了一种MHE机制,并对其参数进行几何缩减,同时从理论上分析了其表示能力。
  • 将低秩逼近问题从Frobenius -范数度量推广到交叉熵(CE)度量,发现非线性运算可以大大降低分类器对其权重秩的依赖。
  • 设计了三种基于mhe的方法,从统一的角度应用不同的极限标签分类(XLC)任务,实验结果表明,这三种方法都达到了SOTA性能,并提供了强有力的基准。
  • MHE可以任意划分标签空间,使其灵活适用于任何XLC任务,包括图像分类、人脸识别、多标签极限分类和神经机器翻译(NMT)等。
  • MHC对标签空间没有限制,放弃了标签层级树(HLT)和标签聚类(LC)等技术,从而大大简化了模型在XMC任务上的训练和推理过程。

请各位同学给我点赞,激励我创作更好、更多、更优质的内容!^_^

关注微信公众号 ,获取更多资讯

4 背景知识

在现实世界中,存在着数以百万计的生物物种、无数的非生命物体和巨大的自然语言词汇。为了区分这些海量实例的类别,需要使用极限标签分类(XLC) [ 1,2 ] ,导致分类器中参数数量和非线性操作的急剧增加。这种现象被称为分类器计算过载问题(CCOP),由于棘手的计算和存储需求,使得使用单热编码(OHE)或多标签学习算法的现有机器学习方法变得难以实用。

目前,XLC 的主要任务包括极限单标签分类(XSLC)、极限多标签分类(XMLC)和模型预训练。对于XSLC,采用基于采样的[ 1,3,4 ]和基于softmax的[ 2,5,6 ]方法来训练神经语言模型,降低了计算输出的复杂度。对于XMLC,例如多标签文本分类,许多研究人员利用一对多[ 7,8,9,10 ] ,层次标签树(HLT ) [ 11,12,13,14,15 ] ,标签聚类( LC) [ 16 , 17 , 18 , 19 ]等,标签预处理技术分解极端将标签放入小且易于处理的标签空间中。对于模型预训练任务,例如人脸识别,预训练模型必须在包含数百万张人脸的数据集上进行训练。因此, [ 20 ]和[ 21 ]中的作者采用哈希森林或随机采样方法来近似原始 OHE。

5 方法简介

图 1 :深度神经网络由三部分组成:输入、主干和分类器。在多头编码中,在训练期间将标签分解到多头分类器的输出上,并在测试中组合输出以获得预测标签。

与上述方法不同的是,如图1所示,本文将原始分类器分解为多个头,并将极端标签概念化为高维空间中的点。在训练过程中,极端标签的坐标分量对应于每个头的局部标签。这个过程涉及将极端标签分解为多个局部标签的乘积,从而几何地减少极端标签的编码长度。测试时,每个头贡献一个坐标分量,形成高维空间中的一个点,可以将其投影到整数轴上以获得极值标签。由于极端标签可以根据局部标签的编码信息计算出来,因此本文将这种机制称为多头编码(MHE)。

基于它们的推理方法和应用场景,MHE可以应用于各种XLC任务,例如XSLC、XMLC和模型预训练。本文提出了 MHE 的三种算法实现,如图2所示。首先,为XSLC设计了多头积(MHP)算法。该算法直接采用乘积运算来组合分类头,计算速度快,性能值得称赞。其次,为XMLC设计了多头级联(MHC)算法。 MHC也采用乘积运算,但在头之间构建顺序级联以消除多标签表示中的歧义。最后,设计了多头采样(MHS)算法用于模型预训练。 MHS 不结合多头。相反,每次只训练与真实标签相对应的本地头。这三种算法在各种 XLC 任务中都取得了相当大的性能和速度优势。

三个基于mhe的XLC任务培训和测试流程。红色虚线框表示的部分是为了 方便理解,在实践中不需要。

背景动机参见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 1

基础知识参见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 2

算法实现参见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 3

表示能力参见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 4

实验结果参见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 5

无需预处理见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 6

相关推荐
学术 学术 Fun几秒前
✨ OpenAudio S1:影视级文本转语音与语音克隆Mac整合包
人工智能·语音识别
用户Taobaoapi201438 分钟前
母婴用品社媒种草效果量化:淘宝详情API+私域转化追踪案例
大数据·数据挖掘·数据分析
用户Taobaoapi201441 分钟前
Taobao agent USA丨美国淘宝代购1688代采集运系统搭建指南
数据挖掘·php
风铃喵游43 分钟前
让大模型调用MCP服务变得超级简单
前端·人工智能
旷世奇才李先生1 小时前
Pillow 安装使用教程
深度学习·microsoft·pillow
booooooty1 小时前
基于Spring AI Alibaba的多智能体RAG应用
java·人工智能·spring·多智能体·rag·spring ai·ai alibaba
PyAIExplorer1 小时前
基于 OpenCV 的图像 ROI 切割实现
人工智能·opencv·计算机视觉
风口猪炒股指标2 小时前
技术分析、超短线打板模式与情绪周期理论,在市场共识的形成、分歧、瓦解过程中缘起性空的理解
人工智能·博弈论·群体博弈·人生哲学·自我引导觉醒
ai_xiaogui2 小时前
一键部署AI工具!用AIStarter快速安装ComfyUI与Stable Diffusion
人工智能·stable diffusion·部署ai工具·ai应用市场教程·sd快速部署·comfyui一键安装
聚客AI3 小时前
Embedding进化论:从Word2Vec到OpenAI三代模型技术跃迁
人工智能·llm·掘金·日新计划