【论文笔记 | 异步联邦】PORT：How Asynchronous can Federated Learning Be?

1. 论文信息

How Asynchronous can Federated Learning Be?2022 IEEE/ACM 30th International Symposium on Quality of Service (IWQoS). IEEE, 2022，不属于ccf认定

2. introduction

2.1. 背景：

现有的异步FL文献中设计的启发式方法都只反映设计空间中的点解决方案，并且在一些情况下未能激励他们的设计选择。大多数现有的工作使用 the number of gradients, updates, or communication rounds before convergence 作为性能指标，这无法反映收敛到目标精度所需的实际时钟时间

设计空间是所有可能的系统配置和参数选择的集合，包括但不限于：

客户端的最小数量要求
陈旧性界限
聚合算法的设计
客户端选择策略
本地训练设置
通信效率
模型更新的同步性
超参数调整

点解决方案是指只针对一个特定点（即特定的参数集合或配置）的解决方案

这是因为 每次更新或通信所花费的时间可能会大不相同。因此，不能清楚在冲突的设计决策之间的最佳权衡是什么，以及在同步和异步机制之间的整个范围内的最佳点是什么

2.2. 挑战：

还没有人涉足，没有可以参照的先例；

实验设备计算能力的限制：同时训练的客户端数量存在非常严格的限制；

2.3. 解决的问题：

现有关于异步联邦学习的文献工作都是点解，提出的每个启发式算法只能代表多维设计空间中的一个操作点。现有作品中的设计选择和权衡，包括超参数设置，没有很好的动机，有效性主要是通过经验评估来说明的。
现有工作使用梯度、更新或收敛前的通信轮数作为性能指标，导致无法反映收敛到目标精度所需的实际时钟时间

2.4. 贡献点：

在PORT中，server 集成了一种推拉机制：允许快速客户端积极地报告模型更新，并在客户端更新的数量到达总设备数量的最小百分比时进行聚合。在达到 staleness bound 后，server 不需要等待过时客户端，它会通过紧急通知积极地拉取这些陈旧的客户端，收到此类紧急通知的客户必须在完成当前训练阶段后立即报告。
受现有自适应聚合机制的启发，为模型更新更陈旧、更分散的客户端分配更低的聚合权值。这种设计背后的直觉是，过时的客户端基于全局模型的早期版本，因此它们的模型更新质量较低，相关性较低。
PORT的设计基于对真实世界FL框架的一系列实验评估，与 state-of-the-art 相比，使用 wall-clock time ，而不是通信 round 数作为性能指标，使得结果可复现 。由于异步范例天生就是为了最小化挂钟时间而设计的，因此这是评估竞争设计的唯一合适方法。（实验以及理论验证）通过各种数据集和模型，表明PORT能够在文献中超越其所有竞争对手，并且比文献中最接近的最先进的竞争对手高出40%。从理论上证明了该机制具有收敛性保证