【论文比较】从 DeepSRC 到 BSSR:当“稀疏表示”遇上“深度学习”,算法是如何进化的?

目录

[🌟 前言](#🌟 前言)

第一局:共同的敌人与"秘密武器"

[第二局:DeepSRC 的绝招------"更强的发动机"](#第二局:DeepSRC 的绝招——“更强的发动机”)

[第三局:BSSR 的降维打击------"连底盘一起换"](#第三局:BSSR 的降维打击——“连底盘一起换”)

[🏆 总结:我们要向它们学什么?](#🏆 总结:我们要向它们学什么?)


🌟 前言

最近读完了《Beyond the Simplex: Hadamard-Infused Deep Sparse Representations for Enhanced Similarity Measures》(简称 BSSR)这篇优秀的论文。在阅读的过程中,我脑海里不由自主地想到了另一个经典的方法------DeepSRC(深度稀疏表示分类)。

这两篇文章都致力于解决同一个痛点:传统的稀疏表示(Sparse Representation)只能处理线性的数据关系,遇到复杂的非线性数据就"抓瞎"了。

它们都聪明地引入了"深度学习(DNN)"这个大杀器。那么,既然 DeepSRC 已经用上了深度学习,BSSR 究竟又牛在哪里?今天这篇博客,我们就用大白话来拆解这两者的异同,看看算法是如何一步步进化的!


第一局:共同的敌人与"秘密武器"

在聊差异之前,我们先看看它们为什么走到了一起。

以前的算法找数据之间的关系,就像是用直尺去量东西,只能看到直来直去的"线性关系"。但现实中的数据(比如扭曲的人脸、复杂的网络图)是弯曲的、折叠的。

共同的秘密武器:深度神经网络(DNN) DeepSRC 和 BSSR 都不约而同地给模型戴上了"非线性滤镜"------也就是引入深度网络。把那些原始的、杂乱无章的数据,先通过神经网络"提纯",映射到一个更高维、更容易区分的空间里,然后再去寻找它们之间的稀疏关系。

这就好比:以前我们在泥地里找两块相似的石头(传统方法);现在我们先把石头洗干净、打上高光(深度学习提纯),再来做对比。


第二局:DeepSRC 的绝招------"更强的发动机"

DeepSRC 的核心逻辑非常简单粗暴,且行之有效。

它的侧重点在于:"找特征"。 DeepSRC 把深度神经网络当成了一个极致强大的"特征提取器"。它的流程通常是:

  1. 用深度网络把图片的特征提取出来。

  2. 在这些高级特征上,套用传统的稀疏表示算法(比如 L1 范数求解)来完成分类或识别。

通俗理解: DeepSRC 就像是给一辆老旧的汽车换上了一台超强马力的发动机。跑得确实快多了,特征抓取极其精准。但是,它做稀疏优化的那套"传动系统和底盘",还是老一套。


第三局:BSSR 的降维打击------"连底盘一起换"

如果说 DeepSRC 解决了"特征不好找"的问题,那么 BSSR 则是死死盯住了传统稀疏表示里最恶心的一个数学问题------"单纯形约束(Simplex Constraint)"。

在构建靠谱的数据关系网时,为了保证数据整体放大或平移后,相似度不发生改变(尺度和平移不变性),数学上要求:分配给其他数据点的权重,必须大于等于0,且加起来必须等于1。

(数学表达式:

这个要求构成了一个有棱有角的几何体(单纯形)。计算机在这个带边界的形状里寻找最优解时,就像在迷宫里乱撞,极其缓慢且容易卡死。

BSSR 的神操作(Hadamard 参数化):

它没有沿用老套的解法,而是施展了一个数学魔法。它令权重 (即 的平方)。

  • 因为是平方,所以结果永远大于等于0

  • 既然平方和等于1,那这不就是一个单位球面吗!

通俗理解: BSSR 不仅用了深度网络(换了发动机),它还把极其难走的"带刺迷宫(单纯形)",硬生生变成了一个"光滑无比的玻璃球(单位球面)"!然后用球面上的微积分(黎曼梯度下降)在上面顺滑地滑行寻找答案。这是对底层优化逻辑的彻底重构!


🏆 总结:我们要向它们学什么?

把这两者放在一起对比,我们可以清晰地看到算法研究的两种不同发力点:

  1. 如 DeepSRC 一般"借力": 当传统算法遇到瓶颈,引入新的工具(如深度学习做特征提取),往往能大力出奇迹。

  2. 如 BSSR 一般"破局": 真正优雅的算法突破,往往来自于对最底层数学约束的重新审视。BSSR 教会了我们:当你觉得一个规则(约束)太难算时,不要死磕,试着换一种数学表达(比如把加和等于1变成平方和等于1),也许就能柳暗花明,把多边形变成光滑的球面!

如果以后在你的模型里,你也遇到了"权重非负且和为1"的恶心限制,别忘了大喊一声:"Hadamard 参数化!",然后把它丢到球面上跑梯度下降!


(结语) 读完这两篇 paper,感觉像看了一场精彩的接力赛。希望这篇大白话的拆解,能帮你搞懂这两个非线性稀疏表示的"得力悍将"。如果你觉得有帮助,欢迎点赞、收藏,我们评论区见!🚀

相关推荐
挂科边缘13 小时前
YOLOv12环境配置,手把手教你使用YOLOv12训练自己的数据集和推理(附YOLOv12网络结构图),全文最详细教程
人工智能·深度学习·yolo·目标检测·计算机视觉·yolov12
deep_drink13 小时前
【论文精读(三)】PointMLP:大道至简,无需卷积与注意力的纯MLP点云网络 (ICLR 2022)
人工智能·pytorch·python·深度学习·3d·point cloud
风流倜傥唐伯虎13 小时前
N卡深度学习环境配置
人工智能·深度学习·cuda
DeepModel15 小时前
第15章 多模态学习
深度学习·学习·机器学习
nudt_qxx15 小时前
讲透Transformer(三):Transformer 注意力机制详解与Qwen/DeepSeek近期改进
人工智能·深度学习·transformer
绒绒毛毛雨15 小时前
多目标强化学习-英伟达:GDPO
人工智能·深度学习·机器学习
技术宅学长17 小时前
什么是FFN层(Feed-Forward Network,前馈神经网络层)
人工智能·深度学习·神经网络
Together_CZ18 小时前
ViT-5: Vision Transformers for The Mid-2020s—— 面向2020年代中期的视觉Transformer
人工智能·深度学习·ai·transformer·vit·vit-5·面向2020年代中期的视觉
skywalk816319 小时前
LTX-2 是一个基于 Transformer 的视频生成模型,能够根据文本描述生成高质量视频
python·深度学习·transformer