【论文阅读6】Center Loss:中心损失核心整理

🏗️ 论文《A Discriminative Feature Learning Approach for Deep Face Recognition》(通常被称为 Center Loss 论文)是人脸识别领域的经典之作。

目录

[🎯1. 核心动机:Softmax 够用吗?](#🎯1. 核心动机:Softmax 够用吗?)

[💡2. 神来之笔:Center Loss(中心损失)](#💡2. 神来之笔:Center Loss(中心损失))

[✨3. 联合训练:1 + 1 > 2](#✨3. 联合训练:1 + 1 > 2)

[📝4. 解决工程难题:如何更新"中心"?](#📝4. 解决工程难题:如何更新“中心”?)

[🚀 5. 总结](#🚀 5. 总结)


🎯1. 核心动机:Softmax 够用吗?

在普通物体分类(如猫狗分类)中,只要特征能被分开(Separable)就行了。但在人脸识别这种开集(Open-set)任务中,模型在测试时会遇到训练集里没有的新面孔 。

痛点 :传统的 Softmax Loss 只能让特征"分得开",但不能让同类特征"靠得紧" 。

结果:类内差异大,导致识别新面孔时效果不佳 。

目标 :我们需要的是类间分开、类内紧凑的"判别性特征"(Discriminative Features) 。


💡2. 神来之笔:Center Loss(中心损失)

为了让同类特征更紧凑,作者提出了 Center Loss

核心思想:为每一个类学习一个"中心点"(Center)。在训练过程中,模型不仅要分类正确,还要缩短每个样本特征与它所属类中心的距离 。公式如下:

简单来说,就是计算每个特征 到其类中心 的欧氏距离平方和 。


✨3. 联合训练:1 + 1 > 2

Center Loss 不能单独使用(否则所有特征都会变成0),必须与 Softmax Loss 结合 :

(Softmax):负责把不同类"推开" 。

(Center Loss):负责把同类"拉近" 。

:一个超参数,用来平衡这两者的力量 。


📝4. 解决工程难题:如何更新"中心"?

如果每次更新中心都要算全量数据,计算量太大 。作者给出了高效的方案:

基于 Mini-batch 更新:每轮迭代只计算当前 batch 里的中心位移 。

引入学习率 :防止个别错误标注的样本带偏中心点,让中心点的移动更平滑 。

【补充】学习率

如果你直接把类中心设为 batch 内特征的平均值,模型会变得非常不稳定。引入 是为了平滑地更新这些中心点。

1. 为什么要用 ?(直观理解)

想象你在操场上带一群学生跑操,你的目标是站到这群人的正中心

  • 如果不加 (即

    每一秒钟,只要有一个学生跑得稍微偏了一点,你就要立刻瞬间移动到新位置。如果某个 batch 里正好有几个"坏样本"(光照不好、遮挡严重的人脸),中心点 就会被带偏,产生剧烈抖动。

  • 如果加入 (如

    你每次只往新的中心位置迈一小步。这样,个别坏样本的影响就会被削弱,中心点的移动轨迹会变得非常平滑,代表的是该类别的长期统计特征,而不是短期波动。

2. 数学上的更新逻辑

在每一轮迭代中,类中心 c_j 的更新公式如下:

然后应用学习率 进行实际更新:

  • 分子 :当前 batch 中所有属于第 类样本与原中心点的距离和。

  • 分母:为了防止分母为 0(即当前 batch 没出现这一类),通常加个 1。

  • 的角色:控制更新的步长。

其中,公式中的:

梯度更新。对中心损失的公式求导!这个导数(梯度)代表了一个方向向量

  • 方向 :从类中心 指向当前特征 的反方向(在梯度下降中,我们减去梯度,所以是向 靠近)。

  • 大小:样本距离中心越远,梯度越大,产生的"拉力"也就越强。

3. 取值的影响

  • 太大:类中心更新过快,容易受噪声(离群点)干扰,导致模型训练震荡,难以收敛。

  • 太小:类中心更新太慢,跟不上特征提取器(CNN)的变化速度,导致类内紧凑性的约束生效太迟。

  • 典型值 :论文推荐的默认值通常是 0.5


🚀 5. 总结

  • 优点

    • 简单易实现:不需要像 Triplet Loss 那样进行复杂的样本对(Pairs)或三元组(Triplets)采样,训练更稳定、更快 。
    • 效率高:对计算资源的消耗增加极小 。
  • 一句话总结:Center Loss 就像一个"引力场",通过给每一类设定一个中心,强行压缩了类内空间,为人脸识别提供了更具鲁棒性的特征表示 。

相关推荐
人工智能培训5 小时前
基于知识图谱的故障推理方法与算法
人工智能·python·深度学习·机器学习·知识图谱·故障诊断
Rorsion7 小时前
循环神经网络(RNN)
人工智能·rnn·深度学习
大写的z先生8 小时前
【深度学习 | 论文精读】从“子空间拆解”到“社交图谱”:多模态情感分析:MISA
人工智能·深度学习
Dev7z8 小时前
基于深度学习的糖尿病眼底图像分类识别系统(含数据集)
人工智能·深度学习·分类
xingyuzhisuan8 小时前
大语言模型训练需要什么样的GPU配置?怎么租用最划算?
人工智能·深度学习·语言模型·自然语言处理·gpu算力
极光代码工作室8 小时前
基于深度学习的中文文本情感分析系统
人工智能·python·深度学习·神经网络·nlp
王哥儿聊AI9 小时前
微软开源神器MarkItDown:一键把PPT/PDF/Excel转成markdown,LLM直呼内行!
人工智能·深度学习·microsoft·机器学习·开源·powerpoint
郝学胜-神的一滴9 小时前
Pytorch张量核心运算精讲:从类型转换到数值操作全解析
开发语言·人工智能·pytorch·python·深度学习·程序人生·机器学习
机器学习之心9 小时前
基于GRU与Informer混合架构的时间序列预测,主要用于处理多变量时间序列的短期预测任务,已更新到Python机器学习/深度学习程序全家桶
python·深度学习·gru
badhope10 小时前
10个GitHub高星开源项目推荐
大数据·人工智能·深度学习·数据挖掘·github