联邦学习+IoT：隐私保护下的分布式AI训练

数据是AI的石油，但隐私法规让数据流动变得困难。联邦学习的解法是：数据不动，模型动。让千万台IoT设备在本地训练，只上传模型参数更新。

为什么IoT需要联邦学习？

复制代码

传统云端训练:
设备A ──数据──→ 云端 ←──数据── 设备B
                  ↓
              集中训练
              
问题: 数据隐私风险、传输带宽大、合规困难（GDPR/个人信息保护法）

联邦学习:
设备A: 本地训练 ──模型更新──→ 云端聚合
设备B: 本地训练 ──模型更新──→ 云端聚合
设备C: 本地训练 ──模型更新──→ 云端聚合
                  ↓
          全局模型 ←──下发── 各设备

联邦学习 vs 传统训练

维度	云端集中训练	联邦学习
数据位置	上传到云	留在设备本地
隐私保护	低	高
带宽需求	高(传输原始数据)	低(只传梯度)
训练速度	快	较慢(需多轮通信)
模型质量	最优	接近最优
合规难度	高	低
适合场景	数据可集中	数据敏感/分散

核心算法：FedAvg

python 复制代码

import torch
import torch.nn as nn
from typing import List, Dict
import copy

class FedAvgServer:
    """联邦平均算法 - 服务端"""
    
    def __init__(self, global_model: nn.Module):
        self.global_model = global_model
        self.round = 0
    
    def aggregate(self, client_updates: List[Dict], client_weights: List[float]):
        """
        聚合客户端模型更新
        client_updates: 各客户端的模型状态字典
        client_weights: 各客户端的数据量权重
        """
        # 加权平均
        global_dict = self.global_model.state_dict()
        
        for key in global_dict.keys():
            global_dict[key] = torch.zeros_like(global_dict[key], dtype=torch.float32)
            
            for client_dict, weight in zip(client_updates, client_weights):
                global_dict[key] += client_dict[key].float() * weight
        
        self.global_model.load_state_dict(global_dict)
        self.round += 1
        
        return copy.deepcopy(self.global_model.state_dict())
    
    def select_clients(self, available_clients: List[str], num_select: int) -> List[str]:
        """随机选择参与训练的客户端"""
        import random
        return random.sample(available_clients, min(num_select, len(available_clients)))


class FedAvgClient:
    """联邦平均算法 - 客户端(IoT设备)"""
    
    def __init__(self, client_id: str, model: nn.Module, local_data, 
                 learning_rate: float = 0.01):
        self.client_id = client_id
        self.model = model
        self.local_data = local_data
        self.optimizer = torch.optim.SGD(model.parameters(), lr=learning_rate)
        self.criterion = nn.CrossEntropyLoss()
    
    def local_train(self, global_state: Dict, epochs: int = 5) -> Dict:
        """
        本地训练
        global_state: 服务端下发的全局模型参数
        epochs: 本地训练轮数
        """
        # 加载全局模型
        self.model.load_state_dict(global_state)
        self.model.train()
        
        # 本地训练
        for epoch in range(epochs):
            total_loss = 0
            for batch_x, batch_y in self.local_data:
                self.optimizer.zero_grad()
                output = self.model(batch_x)
                loss = self.criterion(output, batch_y)
                loss.backward()
                self.optimizer.step()
                total_loss += loss.item()
            
            avg_loss = total_loss / len(self.local_data)
            if epoch % 2 == 0:
                print(f"  Client {self.client_id} - Epoch {epoch}: loss={avg_loss:.4f}")
        
        return self.model.state_dict()
    
    def get_data_size(self) -> int:
        """获取本地数据量（用于加权聚合）"""
        return len(self.local_data.dataset)


class FederatedLearningOrchestrator:
    """联邦学习编排器"""
    
    def __init__(self, server: FedAvgServer, clients: List[FedAvgClient],
                 num_rounds: int = 10, clients_per_round: int = 3):
        self.server = server
        self.clients = clients
        self.num_rounds = num_rounds
        self.clients_per_round = clients_per_round
    
    def run(self):
        """执行联邦训练"""
        print(f"开始联邦学习: {self.num_rounds} 轮, 每轮 {self.clients_per_round} 个客户端")
        
        for round_num in range(self.num_rounds):
            print(f"\n=== 第 {round_num + 1}/{self.num_rounds} 轮 ===")
            
            # 1. 选择本轮参与的客户端
            selected = self.server.select_clients(
                [c.client_id for c in self.clients],
                self.clients_per_round
            )
            selected_clients = [c for c in self.clients if c.client_id in selected]
            
            print(f"选中客户端: {[c.client_id for c in selected_clients]}")
            
            # 2. 下发全局模型，各客户端本地训练
            global_state = self.server.global_model.state_dict()
            client_updates = []
            client_weights = []
            
            for client in selected_clients:
                print(f"客户端 {client.client_id} 开始本地训练...")
                update = client.local_train(global_state, epochs=5)
                client_updates.append(update)
                client_weights.append(client.get_data_size())
            
            # 3. 加权聚合
            total_weight = sum(client_weights)
            normalized_weights = [w / total_weight for w in client_weights]
            
            new_global_state = self.server.aggregate(client_updates, normalized_weights)
            
            # 4. 评估全局模型
            accuracy = self.evaluate_global_model()
            print(f"轮次 {round_num + 1} 完成, 全局模型准确率: {accuracy:.2%}")
    
    def evaluate_global_model(self) -> float:
        """评估全局模型"""
        # 这里简化处理，实际应该用测试集
        self.server.global_model.eval()
        # ... 评估逻辑
        return 0.85  # 示例值


# IoT设备端实现
class IoTDeviceClient(FedAvgClient):
    """IoT设备端联邦学习客户端"""
    
    def __init__(self, device_id: str, model: nn.Module, sensor_data_path: str):
        # 加载本地传感器数据
        local_data = self.load_sensor_data(sensor_data_path)
        super().__init__(device_id, model, local_data)
    
    def load_sensor_data(self, path: str):
        """加载本地传感器历史数据"""
        import pandas as pd
        from torch.utils.data import DataLoader, TensorDataset
        
        df = pd.read_csv(path)
        
        # 假设最后一列是标签
        features = torch.tensor(df.iloc[:, :-1].values, dtype=torch.float32)
        labels = torch.tensor(df.iloc[:, -1].values, dtype=torch.long)
        
        dataset = TensorDataset(features, labels)
        return DataLoader(dataset, batch_size=32, shuffle=True)
    
    def compress_update(self, state_dict: Dict, compression_ratio: float = 0.1) -> Dict:
        """梯度压缩 - 减少通信开销"""
        compressed = {}
        for key, tensor in state_dict.items():
            # Top-K稀疏化
            flat = tensor.flatten()
            k = max(1, int(len(flat) * compression_ratio))
            _, indices = torch.topk(torch.abs(flat), k)
            
            sparse = torch.zeros_like(flat)
            sparse[indices] = flat[indices]
            compressed[key] = sparse.reshape(tensor.shape)
        
        return compressed

差分隐私增强

python 复制代码

import torch

class DPFederatedClient:
    """带差分隐私的联邦学习客户端"""
    
    def __init__(self, epsilon: float = 1.0, delta: float = 1e-5, 
                 max_grad_norm: float = 1.0):
        self.epsilon = epsilon  # 隐私预算
        self.delta = delta
        self.max_grad_norm = max_grad_norm
    
    def add_noise(self, state_dict: Dict) -> Dict:
        """添加差分隐私噪声"""
        noisy_dict = {}
        
        for key, tensor in state_dict.items():
            # 1. 梯度裁剪
            norm = torch.norm(tensor)
            if norm > self.max_grad_norm:
                tensor = tensor * (self.max_grad_norm / norm)
            
            # 2. 添加高斯噪声
            sensitivity = 2 * self.max_grad_norm  # L2敏感度
            sigma = sensitivity * torch.sqrt(torch.tensor(2.0 * torch.log(torch.tensor(1.25 / self.delta)))) / self.epsilon
            noise = torch.randn_like(tensor) * sigma
            
            noisy_dict[key] = tensor + noise
        
        return noisy_dict

通信优化

优化策略	压缩率	精度损失	适用场景
Top-K稀疏化	90-99%	小	通用
量化(INT8)	75%	极小	资源受限
梯度累积	50-80%	无	通信受限
模型蒸馏	90%+	中	大模型
异步更新	-	小	设备不稳定

下期预告

下一篇将探讨 时序数据库+AI：物联网海量数据的存储与实时分析，敬请期待！