【论文阅读6】Center Loss:中心损失核心整理

🏗️ 论文《A Discriminative Feature Learning Approach for Deep Face Recognition》(通常被称为 Center Loss 论文)是人脸识别领域的经典之作。

目录

[🎯1. 核心动机:Softmax 够用吗?](#🎯1. 核心动机:Softmax 够用吗?)

[💡2. 神来之笔:Center Loss(中心损失)](#💡2. 神来之笔:Center Loss(中心损失))

[✨3. 联合训练:1 + 1 > 2](#✨3. 联合训练:1 + 1 > 2)

[📝4. 解决工程难题:如何更新"中心"?](#📝4. 解决工程难题:如何更新“中心”?)

[🚀 5. 总结](#🚀 5. 总结)


🎯1. 核心动机:Softmax 够用吗?

在普通物体分类(如猫狗分类)中,只要特征能被分开(Separable)就行了。但在人脸识别这种开集(Open-set)任务中,模型在测试时会遇到训练集里没有的新面孔 。

痛点 :传统的 Softmax Loss 只能让特征"分得开",但不能让同类特征"靠得紧" 。

结果:类内差异大,导致识别新面孔时效果不佳 。

目标 :我们需要的是类间分开、类内紧凑的"判别性特征"(Discriminative Features) 。


💡2. 神来之笔:Center Loss(中心损失)

为了让同类特征更紧凑,作者提出了 Center Loss

核心思想:为每一个类学习一个"中心点"(Center)。在训练过程中,模型不仅要分类正确,还要缩短每个样本特征与它所属类中心的距离 。公式如下:

简单来说,就是计算每个特征 到其类中心 的欧氏距离平方和 。


✨3. 联合训练:1 + 1 > 2

Center Loss 不能单独使用(否则所有特征都会变成0),必须与 Softmax Loss 结合 :

(Softmax):负责把不同类"推开" 。

(Center Loss):负责把同类"拉近" 。

:一个超参数,用来平衡这两者的力量 。


📝4. 解决工程难题:如何更新"中心"?

如果每次更新中心都要算全量数据,计算量太大 。作者给出了高效的方案:

基于 Mini-batch 更新:每轮迭代只计算当前 batch 里的中心位移 。

引入学习率 :防止个别错误标注的样本带偏中心点,让中心点的移动更平滑 。

【补充】学习率

如果你直接把类中心设为 batch 内特征的平均值,模型会变得非常不稳定。引入 是为了平滑地更新这些中心点。

1. 为什么要用 ?(直观理解)

想象你在操场上带一群学生跑操,你的目标是站到这群人的正中心

  • 如果不加 (即

    每一秒钟,只要有一个学生跑得稍微偏了一点,你就要立刻瞬间移动到新位置。如果某个 batch 里正好有几个"坏样本"(光照不好、遮挡严重的人脸),中心点 就会被带偏,产生剧烈抖动。

  • 如果加入 (如

    你每次只往新的中心位置迈一小步。这样,个别坏样本的影响就会被削弱,中心点的移动轨迹会变得非常平滑,代表的是该类别的长期统计特征,而不是短期波动。

2. 数学上的更新逻辑

在每一轮迭代中,类中心 c_j 的更新公式如下:

然后应用学习率 进行实际更新:

  • 分子 :当前 batch 中所有属于第 类样本与原中心点的距离和。

  • 分母:为了防止分母为 0(即当前 batch 没出现这一类),通常加个 1。

  • 的角色:控制更新的步长。

其中,公式中的:

梯度更新。对中心损失的公式求导!这个导数(梯度)代表了一个方向向量

  • 方向 :从类中心 指向当前特征 的反方向(在梯度下降中,我们减去梯度,所以是向 靠近)。

  • 大小:样本距离中心越远,梯度越大,产生的"拉力"也就越强。

3. 取值的影响

  • 太大:类中心更新过快,容易受噪声(离群点)干扰,导致模型训练震荡,难以收敛。

  • 太小:类中心更新太慢,跟不上特征提取器(CNN)的变化速度,导致类内紧凑性的约束生效太迟。

  • 典型值 :论文推荐的默认值通常是 0.5


🚀 5. 总结

  • 优点

    • 简单易实现:不需要像 Triplet Loss 那样进行复杂的样本对(Pairs)或三元组(Triplets)采样,训练更稳定、更快 。
    • 效率高:对计算资源的消耗增加极小 。
  • 一句话总结:Center Loss 就像一个"引力场",通过给每一类设定一个中心,强行压缩了类内空间,为人脸识别提供了更具鲁棒性的特征表示 。

相关推荐
九.九9 小时前
ops-transformer:AI 处理器上的高性能 Transformer 算子库
人工智能·深度学习·transformer
春日见9 小时前
拉取与合并:如何让个人分支既包含你昨天的修改,也包含 develop 最新更新
大数据·人工智能·深度学习·elasticsearch·搜索引擎
偷吃的耗子10 小时前
【CNN算法理解】:三、AlexNet 训练模块(附代码)
深度学习·算法·cnn
Faker66363aaa11 小时前
【深度学习】YOLO11-BiFPN多肉植物检测分类模型,从0到1实现植物识别系统,附完整代码与教程_1
人工智能·深度学习·分类
大江东去浪淘尽千古风流人物14 小时前
【SLAM】Hydra-Foundations 层次化空间感知:机器人如何像人类一样理解3D环境
深度学习·算法·3d·机器人·概率论·slam
小刘的大模型笔记14 小时前
大模型微调参数设置 —— 从入门到精通的调参指南
人工智能·深度学习·机器学习
LaughingZhu14 小时前
Product Hunt 每日热榜 | 2026-02-10
人工智能·经验分享·深度学习·神经网络·产品运营
千里马也想飞15 小时前
公共管理新题解:信息化条件下文化治理类论文,如何用AI把“大空题目”做成“落地案例库”?(附三级提纲+指令包)
人工智能·深度学习·机器学习·论文笔记
软件算法开发15 小时前
基于鲸鱼优化的LSTM深度学习网络模型(WOA-LSTM)的一维时间序列预测算法matlab仿真
深度学习·lstm·鲸鱼优化·一维时间序列预测·woa-lstm
技术传感器15 小时前
大模型从0到精通:对齐之心 —— 人类如何教会AI“好“与“坏“ | RLHF深度解析
人工智能·深度学习·神经网络·架构