【Scholarly Notes】Adaptive Model Pruning for Federated Learning

Adaptive Model Pruning and Personalization for Federated Learning Over Wireless Networks
Adaptive Federated Pruning in Hierarchical Wireless Networks

这两篇文章都在探讨了在无线网络环境下,如何通过自适应模型剪枝(Adaptive Model Pruning)技术来优化联邦学习(FL)的性能。两篇文章都采用了剪枝技术和 Karush-Kuhn-Tucker (KKT) 条件进行资源优化。

Adaptive Model Pruning and Personalization for Federated Learning Over Wireless Networks

  1. background:通信与计算瓶颈;数据异构(Non-IID)

  2. 模型:两层网络(设备-服务器)

  3. contribution:(1)模型拆分(Model Splitting):把模型拆分为全局部分和个性化部分。全局部分通常是模型的前几层(特征提取器),负责学习通用的数据表示。这部分在设备和服务器之间同步。个性化部分通常是模型的最后几层(分类器),负责适配本地特定任务。这部分永远留在本地,不参与上传和聚合;(2)部分剪枝(Partial Pruning):基于权值的量级对全局部分进行剪枝,剔除数值较小的参数;(3)自适应优化:系统可以根据当前的信道质量(CSI)和设备的实时剩余算力,瞬间计算出最合适的剪枝程度。(4)论文对该框架的收敛性进行了严格的数学证明,给出了梯度范数上界的理论保证。

  4. 接近底层为personalized part,接近顶层为global part。这一点的设定和我想的不太一样,大部分时候深度学习中还是认为靠近输入的是global特征,靠近输出的作为personalized part。不过有些研究认为,不同设备的原始数据输入(比如不同相机的滤镜、不同地区的口音)差异巨大,所以应该让最开始的几层个性化,而中间的逻辑部分全局共享。

  5. 看一下仿真图

    (a)(b) 损失随通信轮数变化:剪枝比越大,收敛越慢、最终损失越高

    © 测试精度随剪枝比变化:单调下降,复杂数据更敏感;FedAlt 略优于 FedSim(FedAlt交替更新个性化部分与共享部分与 FedSim同时更新

    Proposed FL:同时做 partial personalization + global part pruning,并且联合优化剪枝比与带宽分配;

    Equal Resource Pruning:也做个性化+剪枝,但带宽平均分给所有设备(因此不最优);

    Partial Personalization in [16]:只个性化、不剪枝,因此需要上传完整 global part

    Partial Pruning in [25]:只剪枝、不个性化(剪枝主要在全连接层),并上传剪枝后的模型

    Proposed FL 的loss 更低、accuracy 更高,至少优于 Equal Resource Pruning 与 FL only with model pruning。同时,Proposed FL 的学习性能与仅做部分个性化的方案非常接近。这意味着:个性化带来对数据异质性的适配,而剪枝+带宽联合分配在不显著牺牲精度的前提下,改善了时延/通信负担。

    Proposed FL 接近个性化最优、显著优于剪枝类基线

    用 AlexNet 与 non-IID CIFAR10 进一步验证鲁棒性,并指出 Fig.5 中 Proposed FL 的性能接近仅个性化,且优于均分资源剪枝与仅剪枝。这说明联合优化策略并非仅对简单模型/数据分布有效,而是对更复杂网络与更强 non-IID 场景仍具稳定收益。

    在相同算力下,若分配到更多带宽,将选择更小剪枝比以保证更快收敛与更高精度;对于算力更强的设备,系统倾向于分配更多带宽并选择更小剪枝比,以同时满足时延约束并提升收敛速度。

(a) Loss 曲线:时延门限越严格,收敛越慢、稳态 loss 越高(提高剪枝比会在每轮引入更大误差,从而不利于收敛)

(b) Accuracy 曲线:时延门限越严格,测试精度上限越低

© 剪枝比选择:门限越小 ⇒ 被迫选择更大的剪枝比;并且呈现设备差异

  1. 我主要看一下文章的思路和方法,理论证明部分在此忽略。

Adaptive Federated Pruning in Hierarchical Wireless Networks

相关推荐
weixin_499771554 分钟前
C++中的组合模式
开发语言·c++·算法
iAkuya35 分钟前
(leetcode)力扣100 62N皇后问题 (普通回溯(使用set存储),位运算回溯)
算法·leetcode·职场和发展
近津薪荼35 分钟前
dfs专题5——(二叉搜索树中第 K 小的元素)
c++·学习·算法·深度优先
xiaoye-duck37 分钟前
吃透 C++ STL list:从基础使用到特性对比,解锁链表容器高效用法
c++·算法·stl
松☆40 分钟前
CANN与大模型推理:在边缘端高效运行7B参数语言模型的实践指南
人工智能·算法·语言模型
java干货1 小时前
为什么 “File 10“ 排在 “File 2“ 前面?解决文件名排序的终极算法:自然排序
开发语言·python·算法
皮皮哎哟1 小时前
数据结构:嵌入式常用排序与查找算法精讲
数据结构·算法·排序算法·二分查找·快速排序
程序员清洒1 小时前
CANN模型剪枝:从敏感度感知到硬件稀疏加速的全链路压缩实战
算法·机器学习·剪枝
vortex51 小时前
几种 dump hash 方式对比分析
算法·哈希算法
液态不合群2 小时前
推荐算法中的位置消偏,如何解决?
人工智能·机器学习·推荐算法