正则化机制提升部分标签学习中的消歧策略

正则化机制提升部分标签学习中的消歧策略

在部分标签学习(Partial Label Learning, PLL)中,基于平均的消歧策略 通过平等对待候选标签进行建模,但需要增强标签的互斥性(即确保真实标签的唯一性)。本文介绍两种优化机制:流形假设双凸正则化,以提升模型性能。


1. 基于流形假设的增强方法

1.1 核心思想

利用数据的局部相似性,通过约束邻近样本标签预测的平滑性,间接增强标签互斥性。

1.2 数学建模

  • 相似性矩阵

    定义样本间相似性矩阵 W ∈ R N × N W \in \mathbb{R}^{N \times N} W∈RN×N,其中元素为:
    W i j = exp ⁡ ( − ∥ x i − x j ∥ 2 2 σ 2 ) W_{ij} = \exp\left(-\frac{\|x_i - x_j\|^2}{2\sigma^2}\right) Wij=exp(−2σ2∥xi−xj∥2)

  • 图拉普拉斯矩阵
    L = D − W L = D - W L=D−W,其中 D D D 为对角矩阵, D i i = ∑ j W i j D_{ii} = \sum_j W_{ij} Dii=∑jWij。

  • 流形正则项
    R manifold ( θ ) = tr ( F ⊤ L F ) , F = [ f ( x 1 ; θ ) , ... , f ( x N ; θ ) ] ⊤ \mathcal{R}_{\text{manifold}}(\theta) = \text{tr}(F^\top L F), \quad F = [f(x_1; \theta), \dots, f(x_N; \theta)]^\top Rmanifold(θ)=tr(F⊤LF),F=[f(x1;θ),...,f(xN;θ)]⊤

  • 总目标函数
    min ⁡ θ 1 N ∑ i = 1 N 1 ∣ S i ∣ ∑ y ∈ S i ℓ ( f ( x i ; θ ) , y ) + λ ⋅ tr ( F ⊤ L F ) \min_\theta \frac{1}{N} \sum_{i=1}^N \frac{1}{|S_i|} \sum_{y \in S_i} \ell(f(x_i; \theta), y) + \lambda \cdot \text{tr}(F^\top L F) θminN1i=1∑N∣Si∣1y∈Si∑ℓ(f(xi;θ),y)+λ⋅tr(F⊤LF)

    其中,第一项为平均损失,第二项为流形正则项。

1.3 作用机制

  • 约束相邻样本的标签分布相似性。
  • 当真实标签唯一时,模型倾向于为每个样本分配单一高置信度标签。

2. 基于双凸正则化的增强方法

2.1 核心思想

通过交替优化模型参数 θ \theta θ 和标签权重 w w w,利用稀疏性约束直接增强标签互斥性。

2.2 数学建模

  • 标签权重变量

    权重向量 w i ∈ R K w_i \in \mathbb{R}^K wi∈RK 满足:
    ∑ y ∈ S i w i , y = 1 , w i , y ≥ 0 ( ∀ y ∈ S i ) \sum_{y \in S_i} w_{i,y} = 1, \quad w_{i,y} \geq 0 \ (\forall y \in S_i) y∈Si∑wi,y=1,wi,y≥0 (∀y∈Si)

  • 双凸目标函数
    min ⁡ θ , w 1 N ∑ i = 1 N ∑ y ∈ S i w i , y ℓ ( f ( x i ; θ ) , y ) + λ ∑ i = 1 N ∥ w i ∥ 1 \min_{\theta, w} \frac{1}{N} \sum_{i=1}^N \sum_{y \in S_i} w_{i,y} \ell(f(x_i; \theta), y) + \lambda \sum_{i=1}^N \|w_i\|_1 θ,wminN1i=1∑Ny∈Si∑wi,yℓ(f(xi;θ),y)+λi=1∑N∥wi∥1

    其中,第一项为加权损失,第二项为稀疏正则项。

  • 交替优化步骤

    1. 固定 w w w,优化 θ \theta θ
      θ t + 1 = arg ⁡ min ⁡ θ 1 N ∑ i = 1 N ∑ y ∈ S i w i , y ℓ ( f ( x i ; θ ) , y ) \theta_{t+1} = \arg\min_\theta \frac{1}{N} \sum_{i=1}^N \sum_{y \in S_i} w_{i,y} \ell(f(x_i; \theta), y) θt+1=argθminN1i=1∑Ny∈Si∑wi,yℓ(f(xi;θ),y)
    2. 固定 θ \theta θ,优化 w w w
      w i , y ( t + 1 ) = { 1 if y = arg ⁡ max ⁡ y ′ ∈ S i f y ′ ( x i ; θ t ) 0 otherwise w_{i,y}^{(t+1)} = \begin{cases} 1 & \text{if } y = \arg\max_{y' \in S_i} f_{y'}(x_i; \theta_t) \\ 0 & \text{otherwise} \end{cases} wi,y(t+1)={10if y=argmaxy′∈Sify′(xi;θt)otherwise

2.3 作用机制

  • 稀疏正则项使 w i w_i wi 趋向独热向量。
  • 显式识别真实标签,抑制其他候选标签。

3. 方法对比

方法 优点 缺点
流形假设 无需显式标签权重,适合复杂噪声场景 依赖特征质量,计算复杂度高
双凸正则化 显式增强互斥性,适合多候选标签场景 需多次迭代,优化过程复杂

4. 实例:PP-PLL 算法

4.1 初始化

设置初始权重 w i , y = 1 ∣ S i ∣ w_{i,y} = \frac{1}{|S_i|} wi,y=∣Si∣1。

4.2 迭代优化

  • 步骤 1 :固定 w w w,训练模型参数 θ \theta θ。
  • 步骤 2 :固定 θ \theta θ,更新 w i w_i wi 为置信度最高的标签。

4.3 输出

最终得到优化后的模型 θ \theta θ 和稀疏权重 w w w。


5. 核心公式总结

  1. 流形正则化目标函数
    min ⁡ θ 1 N ∑ i = 1 N 1 ∣ S i ∣ ∑ y ∈ S i ℓ ( f ( x i ; θ ) , y ) + λ ⋅ tr ( F ⊤ L F ) \min_\theta \frac{1}{N} \sum_{i=1}^N \frac{1}{|S_i|} \sum_{y \in S_i} \ell(f(x_i; \theta), y) + \lambda \cdot \text{tr}(F^\top L F) θminN1i=1∑N∣Si∣1y∈Si∑ℓ(f(xi;θ),y)+λ⋅tr(F⊤LF)

  2. 双凸正则化目标函数
    min ⁡ θ , w 1 N ∑ i = 1 N ∑ y ∈ S i w i , y ℓ ( f ( x i ; θ ) , y ) + λ ∑ i = 1 N ∥ w i ∥ 1 \min_{\theta, w} \frac{1}{N} \sum_{i=1}^N \sum_{y \in S_i} w_{i,y} \ell(f(x_i; \theta), y) + \lambda \sum_{i=1}^N \|w_i\|_1 θ,wminN1i=1∑Ny∈Si∑wi,yℓ(f(xi;θ),y)+λi=1∑N∥wi∥1


相关推荐
0思必得029 分钟前
[Web自动化] Selenium处理动态网页
前端·爬虫·python·selenium·自动化
-dzk-29 分钟前
【代码随想录】LC 59.螺旋矩阵 II
c++·线性代数·算法·矩阵·模拟
水如烟33 分钟前
孤能子视角:“组织行为学–组织文化“
人工智能
韩立学长36 分钟前
【开题答辩实录分享】以《基于Python的大学超市仓储信息管理系统的设计与实现》为例进行选题答辩实录分享
开发语言·python
大山同学37 分钟前
图片补全-Context Encoder
人工智能·机器学习·计算机视觉
qq_1927798738 分钟前
高级爬虫技巧:处理JavaScript渲染(Selenium)
jvm·数据库·python
风筝在晴天搁浅38 分钟前
hot100 78.子集
java·算法
Jasmine_llq42 分钟前
《P4587 [FJOI2016] 神秘数》
算法·倍增思想·稀疏表(st 表)·前缀和数组(解决静态区间和查询·st表核心实现高效预处理和查询·预处理优化(提前计算所需信息·快速io提升大规模数据读写效率
薛定谔的猫19821 小时前
十七、用 GPT2 中文对联模型实现经典上联自动对下联:
人工智能·深度学习·gpt2·大模型 训练 调优
超级大只老咪1 小时前
快速进制转换
笔记·算法