Sparse Weight Averaging with Multiple Particles for Iterative Magnitude Pruning

ICLR2024| Sparse Weight Averaging with Multiple Particles for Iterative Magnitude Pruning

简介

深度神经网络通常高度参数化,并且可以在不牺牲模型性能的情况下对其大多数参数进行剪枝。彩票假说表明在初始化时存在一个稀疏自网络,可以对其进行训练,以实现与原始密集网络相同性能水平。这种匹配子网络可以通过带倒带的迭代幅度剪枝(IMP)得到,它包含以下三个步骤:1. 一定次数的迭代训练网络,2. 剪枝具有最小幅度的权重,3. 将权重倒回早期迭代,同时将剪枝后权重固定为0。该过程重复几轮,最终自网络可以实现整个网络性能的匹配彩票。尽管IMP简单,但它在寻找稀疏掩码方面提供了SOTA性能,尤其是在极端稀疏的情况下。

考虑到IMP的简单性,它的成功确实是违背直觉的。在这方面,. Pruning neural networks at initialization: Why are we missing the mark?揭示了彩票假说和线性模式连接性(Linear Mode Connectivity)之间的潜在联系,表明IMP的有效性取决于对随机优化的稳定性;IMP解决方案位于损失景观中统一吸引盆地中。Unmasking the lottery ticket hypothesis: What's encoded in a winning ticket's mask?深入研究了这一主题,发现具有不同稀疏性水平的连续IMP解也存在线性连通性。更准确地,他们得出结论是,如果连续轮次是不廉洁的,IMP就无法找到匹配的子网络,并进一步强调了简直率和倒带迭代对保持IMP解之间连通性的重要性。

受到IMP和线性模式连通性联系的启发,本文将理解扩展到损失景观的角度。分析深度神经网络损失景观是一种有效的工具,被广泛用于研究模式连通性,这促使本文找到位于损失景观平坦区域的解,以增强泛化能力。值得注意的是这两个领域都有一个共同目标,即识别以低损失值为特征的好子空间,这一目标与神经网络剪枝的最终目标一致--在给定的密集参数空间识别匹配的稀疏子空间。

本文方法

神经网络权重的线性连通性

考虑一个一维路径记为 P : [ 0 , 1 ] → R D P:[0,1]\rightarrow \mathbb{R}^{D} P:[0,1]→RD,用于连接两个神经网络权重 w ( 0 ) , w ( 1 ) w^{(0)},w^{(1)} w(0),w(1),开始和结束点分别是 P ( 0 ) = w ( 0 ) , P ( 1 ) = w ( 1 ) P(0)=w^{(0)},P(1)=w^{(1)} P(0)=w(0),P(1)=w(1)。在简化形式,如果条件 sup ⁡ λ ∈ [ 0 , 1 ] L ( P ( λ ) ) ≤ max ⁡ { L ( P ( 0 ) ) , L ( P ( 1 ) ) } + ϵ \sup_{\lambda\in [0,1]}\mathcal{L}(P(\lambda))\leq \max\{\mathcal{L}(P(0)),\mathcal{L}(P(1))\}+\epsilon supλ∈[0,1]L(P(λ))≤max{L(P(0)),L(P(1))}+ϵ满足,可以说 w ( 0 ) , w ( 1 ) w^{(0)},w^{(1)} w(0),w(1)间存在连通性。尽管深度学习最近进展揭示了通过随机优化获得的局部极小值存在非线性路径,对于现代深度神经网络建立线性连通性(即与线性连接器 P ( λ ) = ( 1 − λ ) w ( 0 ) + λ w ( 1 ) P(\lambda)=(1-\lambda)w^{(0)}+\lambda w^{(1)} P(λ)=(1−λ)w(0)+λw(1))仍然不是简单的。

IMP损失景观视角

. Pruning neural networks at initialization: Why are we missing the mark?证明了匹配彩票对神经网络对SGD噪声 ξ \xi ξ的稳定性有显著影响。甚至当两个网络由相同随机初始化 w 0 w_{0} w0训练,不同SGD噪声 ξ ( 1 ) , ξ ( 2 ) \xi^{(1)},\xi^{(2)} ξ(1),ξ(2)破坏了通过SGD获得的解之间的线性连通性。例如不存在以下之间的线性连接:
w T ( 1 ) ← SGD 0 ← T ( w 0 , ξ ( 1 ) , D ) , w T ( 2 ) ← SGD 0 ← T ( w 0 , ξ ( 2 ) , D ) w_{T}^{(1)}\leftarrow \text{SGD}{0\leftarrow T}(w{0},\xi^{(1)},\mathcal{D}),w_{T}^{(2)}\leftarrow \text{SGD}{0\leftarrow T}(w{0},\xi^{(2)},\mathcal{D}) wT(1)←SGD0←T(w0,ξ(1),D),wT(2)←SGD0←T(w0,ξ(2),D)

因此优化对SGD噪声不稳定。他们进一步根据经验证实,通过IMP获得的稀疏解是匹配的,当且仅当他们对SGD噪声稳定时,并将这种不稳定性诊断为原始IMP算法失败情况。确保稳定性一种简单方法是共享优化轨迹的早期阶段。也就是说存在线性联通:
w T ( 1 ) ← SGD T 0 → T ( w T 0 , ξ ( 1 ) , D ) , w T ( 2 ) ← SGD T 0 → T ( w T 0 , ξ ( 2 ) , D ) w_{T}^{(1)}\leftarrow \text{SGD}{T{0}\rightarrow T}(w_{T_{0}},\xi^{(1)},\mathcal{D}),w_{T}^{(2)}\leftarrow \text{SGD}{T{0}\rightarrow T}(w_{T_{0}},\xi^{(2)},\mathcal{D}) wT(1)←SGDT0→T(wT0,ξ(1),D),wT(2)←SGDT0→T(wT0,ξ(2),D)

SGD从相同初始 w T 0 ← SGD 0 → T 0 ( w 0 , ξ , D ) w_{T_{0}}\leftarrow\text{SGD}{0\rightarrow T{0}}(w_{0},\xi,\mathcal{D}) wT0←SGD0→T0(w0,ξ,D)开始。Unmasking the lottery ticket hypothesis证明了具有不同稀疏度水平的两个连续IMP解之间线性连通性,并将其作为IMP成功的关键因素。

然而尽管每对解之间存在线性连通性,但低损失子空间是否由三个或更多个解的凸包形成的问题仍然不确定。如果使用IMP解构建低损失子空间变得可行,则可能构建一个更有效的解,并在中点处改进该子空间泛化能力

SWAMP算法

SWAMP与普通IMP区别主要有两个方面:首先创建匹配彩票的多个副本,并使用不同随机种子同时训练它们,而IMP采用单个粒子。其次,本文用随机加权平均(Stochastic Weight Averaging,SWA)代替SGD训练,这是一种通过定期采样学习轨迹来构建参数移动平均值的方法。SWA使得我们能够在整个训练过程中积累更多粒子。然后,在进行剪枝步骤之前,对所有粒子进行平均。

相关推荐
江木1233 天前
论文Learning Efficient Convolutional Networks through Network Slimming(剪枝相关)
算法·机器学习·剪枝
I_Am_Me_3 天前
【专题三:穷举vs暴搜vs深搜vs回溯vs剪枝】46. 全排列
算法·机器学习·剪枝
I_Am_Me_3 天前
【专题二 二叉树中的深搜】814. 二叉树剪枝
算法·剪枝
江木1237 天前
Yolov8 目标检测剪枝学习记录
yolo·目标检测·剪枝
robin_suli9 天前
穷举vs暴搜vs深搜vs回溯vs剪枝系列一>优美的排列
算法·剪枝·深度优先遍历·回溯
最好Tony10 天前
深度学习blog-剪枝和知识蒸馏
人工智能·深度学习·剪枝
robin_suli14 天前
穷举vs暴搜vs深搜vs回溯vs剪枝系列一>字母大小写全排列
算法·剪枝·深度优先遍历·回溯
XiaoLeisj20 天前
【优选算法 & 分治】深入理解分治算法:分治算法入门小专题详解
算法·leetcode·决策树·深度优先·哈希算法·剪枝·推荐算法
robin_suli20 天前
穷举vs暴搜vs深搜vs回溯vs剪枝系列一>
算法·剪枝·深度优先遍历·回溯
robin_suli24 天前
穷举vs暴搜vs深搜vs回溯vs剪枝系列一>括号生成
算法·剪枝·深度优先遍历·回溯