【Scholarly Notes】Adaptive Model Pruning for Federated Learning

Adaptive Model Pruning and Personalization for Federated Learning Over Wireless Networks
Adaptive Federated Pruning in Hierarchical Wireless Networks

这两篇文章都在探讨了在无线网络环境下,如何通过自适应模型剪枝(Adaptive Model Pruning)技术来优化联邦学习(FL)的性能。两篇文章都采用了剪枝技术和 Karush-Kuhn-Tucker (KKT) 条件进行资源优化。

Adaptive Model Pruning and Personalization for Federated Learning Over Wireless Networks

  1. background:通信与计算瓶颈;数据异构(Non-IID)

  2. 模型:两层网络(设备-服务器)

  3. contribution:(1)模型拆分(Model Splitting):把模型拆分为全局部分和个性化部分。全局部分通常是模型的前几层(特征提取器),负责学习通用的数据表示。这部分在设备和服务器之间同步。个性化部分通常是模型的最后几层(分类器),负责适配本地特定任务。这部分永远留在本地,不参与上传和聚合;(2)部分剪枝(Partial Pruning):基于权值的量级对全局部分进行剪枝,剔除数值较小的参数;(3)自适应优化:系统可以根据当前的信道质量(CSI)和设备的实时剩余算力,瞬间计算出最合适的剪枝程度。(4)论文对该框架的收敛性进行了严格的数学证明,给出了梯度范数上界的理论保证。

  4. 接近底层为personalized part,接近顶层为global part。这一点的设定和我想的不太一样,大部分时候深度学习中还是认为靠近输入的是global特征,靠近输出的作为personalized part。不过有些研究认为,不同设备的原始数据输入(比如不同相机的滤镜、不同地区的口音)差异巨大,所以应该让最开始的几层个性化,而中间的逻辑部分全局共享。

  5. 看一下仿真图

    (a)(b) 损失随通信轮数变化:剪枝比越大,收敛越慢、最终损失越高

    © 测试精度随剪枝比变化:单调下降,复杂数据更敏感;FedAlt 略优于 FedSim(FedAlt交替更新个性化部分与共享部分与 FedSim同时更新

    Proposed FL:同时做 partial personalization + global part pruning,并且联合优化剪枝比与带宽分配;

    Equal Resource Pruning:也做个性化+剪枝,但带宽平均分给所有设备(因此不最优);

    Partial Personalization in [16]:只个性化、不剪枝,因此需要上传完整 global part

    Partial Pruning in [25]:只剪枝、不个性化(剪枝主要在全连接层),并上传剪枝后的模型

    Proposed FL 的loss 更低、accuracy 更高,至少优于 Equal Resource Pruning 与 FL only with model pruning。同时,Proposed FL 的学习性能与仅做部分个性化的方案非常接近。这意味着:个性化带来对数据异质性的适配,而剪枝+带宽联合分配在不显著牺牲精度的前提下,改善了时延/通信负担。

    Proposed FL 接近个性化最优、显著优于剪枝类基线

    用 AlexNet 与 non-IID CIFAR10 进一步验证鲁棒性,并指出 Fig.5 中 Proposed FL 的性能接近仅个性化,且优于均分资源剪枝与仅剪枝。这说明联合优化策略并非仅对简单模型/数据分布有效,而是对更复杂网络与更强 non-IID 场景仍具稳定收益。

    在相同算力下,若分配到更多带宽,将选择更小剪枝比以保证更快收敛与更高精度;对于算力更强的设备,系统倾向于分配更多带宽并选择更小剪枝比,以同时满足时延约束并提升收敛速度。

(a) Loss 曲线:时延门限越严格,收敛越慢、稳态 loss 越高(提高剪枝比会在每轮引入更大误差,从而不利于收敛)

(b) Accuracy 曲线:时延门限越严格,测试精度上限越低

© 剪枝比选择:门限越小 ⇒ 被迫选择更大的剪枝比;并且呈现设备差异

  1. 我主要看一下文章的思路和方法,理论证明部分在此忽略。

Adaptive Federated Pruning in Hierarchical Wireless Networks

相关推荐
Remember_9935 小时前
【LeetCode精选算法】二分查找专题二
java·数据结构·算法·leetcode·哈希算法
We་ct5 小时前
LeetCode 42. 接雨水:双指针解法深度剖析与全方法汇总
前端·算法·leetcode·typescript
液态不合群5 小时前
如何提升 C# 应用中的性能
开发语言·算法·c#
诗远Yolanda5 小时前
EI国际会议-通信技术、电子学与信号处理(CTESP 2026)
图像处理·人工智能·算法·计算机视觉·机器人·信息与通信·信号处理
程序员-King.5 小时前
day165—递归—最长回文子序列(LeetCode-516)
算法·leetcode·深度优先·递归
BHXDML5 小时前
推导神经网络前向后向传播算法的优化迭代公式
神经网络·算法·机器学习
2401_841495646 小时前
【LeetCode刷题】删除链表的倒数第N个结点
数据结构·python·算法·leetcode·链表·遍历·双指针
叫我:松哥6 小时前
基于YOLO深度学习算法的人群密集监测与统计分析预警系统,实现人群密集度的实时监测、智能分析和预警功能,支持图片和视频流两种输入方式
人工智能·深度学习·算法·yolo·机器学习·数据分析·flask
你撅嘴真丑6 小时前
STL练习
开发语言·c++·算法