【论文阅读】FedBABU:TOWARD ENHANCED REPRESENTATION FOR FEDERATED IMAGE CLASSIFICATION

算法流程:

训练过程中冻结客户端的头部参数,只训练主体参数。训练完之后再在客户端本地跑几个epoch微调一下(文章推荐5个)。

由于该算法与FedPer思路过于相似,故读完后跑了个实验。

FedPer:训练过程中只聚合主体参数。与BABU不同的是,BABU直接把头部参数给冻结了,而Per头部依旧是参与训练的。实验结果如下:

  • 引出的疑惑是,Per的头部是全程参与训练的,而BABU的头部训练时是冻结的,只是最后tune了几个epochs,然而Per的性能竟然弱这么多,这是为什么?
  • 最后看到文章第四节实验部分有提到,若过度关注于模型的初始性能(没有本地finetune过的性能),则会导致个性化准确率的减少。同时,集中训练的模型更难个性化。Per的头部参与了过多的训练,这可能是其个性化性能较差的原因。当然本人还有另一种想法,就是Per同时训练头部和主体参数,头部因训练而造成参数的改变也会影响主体的训练效果。而BABU完全锁定了头部参数,专注于主体参数的训练,就是在训练时专注于特征提取能力的提升,这样会使得BABU的主体层性能高于Per,而个性化性能只需要finetune几下就能训练好了,差别不大,故最终BABU的性能高于Per。
  • 另外暂不清楚为何BABU性能弱于avg+finetune但论文中显示BABU明显优于avg+finetune
相关推荐
诸葛思颖1 天前
论文阅读笔记——NetLLM :当LLM遇上网络管理
论文阅读·笔记
CanCanCanedFish2 天前
Transformer论文阅读笔记:从注意力机制到革命性架构的启示
论文阅读·笔记·transformer
大模型最新论文速读2 天前
06-02 · LLM 最新论文速览
论文阅读·人工智能·深度学习·机器学习·自然语言处理
Rocky Ding*3 天前
深入浅出完整解析AIGC时代中GAN(Generative Adversarial Network)系列模型核心基础知识(下篇)
论文阅读·人工智能·深度学习·机器学习·aigc·gan·ai-native
chnyi6_ya4 天前
论文阅读笔记|Wan: Open and Advanced Large-Scale Video Generative Models
论文阅读·笔记
chnyi6_ya5 天前
论文阅读:CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer
论文阅读·深度学习·transformer
大模型最新论文速读5 天前
SkillOpt:把 skill 文档当成模型权重来训练
论文阅读·人工智能·深度学习·机器学习·自然语言处理
Cloud_Shy6185 天前
解读《Effective Python 3rd Edition》:从练气到老魔(第一章 Item 4 - 6)
android·数据库·论文阅读·python
Rocky Ding*6 天前
一文读懂HiDream-I1稀疏 DiT 图像生成基础模型
论文阅读·人工智能·深度学习·机器学习·ai作画·aigc·ai-native
锅挤6 天前
来一篇儿:《anish into Thin Air: Cross-prompt Universal Adversarial Attacks for SAM2》
论文阅读