联合学习在传统机器学习方法中的应用

这篇文章最初发表在 NVIDIA 技术博客上。

在大数据和分布式计算时代,传统的机器学习方法面临着一个重大挑战:当数据分散在多个设备或竖井中时,如何协同训练模型。这就是联合学习发挥作用的地方,它提供了一个很有前途的解决方案,将模型训练与直接访问原始训练数据脱钩。

联合学习最初旨在实现去中心化数据上的协作深度学习,其关键优势之一是其通信效率。这种相同的范式可以应用于传统的 ML 方法,如线性回归、 SVM 、 k-means 聚类,以及基于树的方法,如随机森林和 boosting 。

开发传统 ML 方法的联合学习变体需要在几个层面上进行仔细考虑:

  • **算法级别:**您必须回答关键问题,例如客户端应该与服务器共享哪些信息,服务器应该如何聚合收集的信息,以及客户端应该如何处理从服务器接收的全局聚合模型更新。
  • **实施级别:**探索可用的 API 并利用它们来创建与算法公式一致的联邦管道是至关重要的。

值得注意的是联邦的分布式的与深度学习相比,传统方法的机器学习可能不那么独特。对于某些算法和实现,这些术语可以是等效的。

图 1 。对 基于联邦树的 XGBoost

在图 1 中,每个客户端构建一个唯一的增强树,该树由服务器聚合为树的集合,然后重新分发给客户端进行进一步的训练。

要开始使用显示此方法的特定示例,请考虑K-Means聚类示例。在这里,我们采用了Mini-Batch K-Means聚类中定义的方案,并将每一轮联合学习公式化如下:

  • **本地培训:**从全局中心开始,每个客户端都用自己的数据训练一个本地的 MiniBatchKMeans 模型。
  • **全局聚合:**服务器收集集群中心,统计来自所有客户端的信息,通过将每个客户端的结果视为小批量来聚合这些信息,并更新全局中心和每个中心的计数。

对于中心初始化,在第一轮中,每个客户端使用 k-means ++方法生成其初始中心。然后,服务器收集所有初始中心,并执行一轮 k 均值以生成初始全局中心。

从制定到实施

将联邦范式应用于传统的机器学习方法虽然说起来容易,但做起来却很困难。NVIDIA 新发布的白皮书 《联合传统机器学习算法》 提供了许多详细的示例,以展示如何制定和实现这些算法。

我们展示了如何使用流行的库,如scikit-learnXGBoost,将联邦线性模型、k-means聚类、非线性SVM、随机森林和XGBoost应用于协作学习。

总之,联合机器学习为在去中心化数据上协同训练模型提供了一种令人信服的方法。虽然通信成本可能不再是传统机器学习算法的主要约束,但要充分利用联合学习的好处,仍然需要仔细制定和实施。

要开始使用您自己的联合机器学习工作流,请参阅联合传统机器学习算法白皮书和 NVIDIA FLARE GitHub 回购。

阅读原文

相关推荐
量子位10 天前
黄仁勋子女成长路径曝光:一个学烘焙一个开酒吧,从基层做到英伟达高管
ai编程·nvidia
Ray Song18 天前
CUDA杂记--nvcc使用介绍
nvidia·cuda·nvcc
吾鳴19 天前
网信办约谈英伟达,H20芯片后门风波震动中国AI产业
人工智能·nvidia·芯片
mpr0xy1 个月前
编译支持cuda硬件加速的ffmpeg
ai·ffmpeg·nvidia·cuda
GitLqr1 个月前
一周AI | 国际:NVIDIA、OpenAI、MidJourney 等行业巨头的创新与布局
openai·nvidia·lovable
GitLqr1 个月前
一周AI | 国内:黄仁勋访华,宇树上市辅导,12306 MCP,Kimi K2 赶超 DeepSeek ...
nvidia·deepseek·mcp
云上小朱1 个月前
软件安装-在ubuntu24安装nvidia driver和cuda toolkit
nvidia
羊八井1 个月前
使用 Earth2Studio 和 AI 模型进行全球天气预测:太阳辐照
pytorch·python·nvidia
神也佑我橙橙1 个月前
Ubuntu 22.04 安装英伟达驱动
linux·ubuntu·nvidia
cnbestec2 个月前
UR机器人解锁关节扭矩控制:利用英伟达Isaac Lab框架,推动装配自动化的Sim2Real迁移
机器人·nvidia·协作机器人·优傲机器人·关节扭矩控制·ur机器人