CANN多设备协同推理：从单机到集群的扩展之道

随着 AI 模型规模的不断增大和推理请求量的持续增长，单台设备的计算能力往往无法满足实际应用的需求。多设备协同推理通过将推理任务分配到多个计算设备上并行处理，能够显著提升整体性能、降低推理延迟、提高系统吞吐量。CANN 提供的多设备协同能力，结合设备管理、负载均衡、数据并行等技术，为构建大规模推理集群提供了强有力的支撑。

相关链接：CANN 组织:https://atomgit.com/cann

parser 仓库:https://atomgit.com/cann/parser

一、多设备协同的核心价值：从单机到集群的性能扩展

多设备协同推理的本质是将推理任务分解并分配到多个计算设备上并行执行，从而充分利用集群的计算能力。相比于单机推理，多设备协同具有以下核心优势：

线性扩展性能：通过增加设备数量，可以实现接近线性的性能提升
降低推理延迟：对于单个请求，可以通过模型并行减少推理时间
提高系统吞吐量：通过数据并行处理更多并发请求
增强系统可靠性：单个设备故障不会导致整个系统瘫痪

多设备协同推理主要采用两种并行策略：

数据并行：在多个设备上使用相同的模型处理不同的数据，适用于高吞吐量场景
模型并行：将模型拆分到多个设备上处理同一份数据，适用于大模型场景

为了更直观地理解多设备协同的性能优势，我们来看一个简单的对比：

架构方式	设备数量	吞吐量	平均延迟	可靠性
单机推理	1	100 QPS	10ms	低
数据并行(4设备)	4	380 QPS	10ms	中
模型并行(4设备)	4	100 QPS	3ms	中
混合并行(4设备)	4	350 QPS	4ms	高

从上表可以看出，多设备协同能够在保持或降低延迟的同时，显著提升吞吐量，同时提高系统的可靠性。

二、设备管理：多设备协同的基础

设备管理是多设备协同推理的基础，负责发现、分配和监控计算设备。一个完善的设备管理系统需要考虑以下几个关键因素：

设备发现：自动发现和枚举可用的计算设备
资源监控：实时监控每个设备的资源使用情况
负载均衡：合理分配任务到不同设备
故障处理：检测和处理设备故障

2.1 设备管理器的实现

以下是实现设备管理器的代码：

python 复制代码

import acl
import numpy as np
import time
import threading
from typing import Dict, List, Optional

class DeviceManager:
    """设备管理器"""
    def __init__(self):
        self.devices: Dict[int, Dict] = {}
        self.device_status: Dict[int, Dict] = {}
        self.lock = threading.Lock()

        # 初始化ACL
        acl.init()

        # 发现设备
        self._discover_devices()

        # 启动监控线程
        self.running = True
        self.monitor_thread = threading.Thread(target=self._monitor_devices)
        self.monitor_thread.daemon = True
        self.monitor_thread.start()

    def _discover_devices(self):
        """发现可用设备"""
        device_count, _ = acl.rt.get_device_count()

        print(f"发现 {device_count} 个设备")

        for device_id in range(device_count):
            # 设置设备
            acl.rt.set_device(device_id)

            # 获取设备信息
            free_mem, total_mem = acl.rt.get_mem_info(device_id)

            self.devices[device_id] = {
                'id': device_id,
                'total_memory': total_mem,
                'free_memory': free_mem,
                'status': 'available'
            }

            self.device_status[device_id] = {
                'total_requests': 0,
                'active_requests': 0,
                'failed_requests': 0,
                'last_heartbeat': time.time()
            }

            print(f"  设备 {device_id}: 总内存={total_mem//1024//1024}MB, "
                  f"可用内存={free_mem//1024//1024}MB")

    def _monitor_devices(self):
        """监控设备状态"""
        while self.running:
            time.sleep(5)

            with self.lock:
                for device_id, device_info in self.devices.items():
                    # 检查设备是否在线
                    if time.time() - self.device_status[device_id]['last_heartbeat'] > 30:
                        device_info['status'] = 'offline'
                        print(f"设备 {device_id} 离线")
                    else:
                        # 更新内存信息
                        try:
                            acl.rt.set_device(device_id)
                            free_mem, _ = acl.rt.get_mem_info(device_id)
                            device_info['free_memory'] = free_mem
                            device_info['status'] = 'available'
                        except:
                            device_info['status'] = 'error'

    def get_device_info(self, device_id: int) -> Optional[Dict]:
        """获取设备信息"""
        return self.devices.get(device_id)

    def allocate_device(self, request_size: int = 0) -> Optional[int]:
        """分配设备"""
        with self.lock:
            # 选择负载最低的设备
            best_device = None
            min_load = float('inf')

            for device_id, device_info in self.devices.items():
                # 检查设备状态
                if device_info['status'] != 'available':
                    continue

                status = self.device_status[device_id]

                # 检查内存是否足够
                if request_size > 0 and device_info['free_memory'] < request_size:
                    continue

                # 选择活跃请求最少的设备
                if status['active_requests'] < min_load:
                    min_load = status['active_requests']
                    best_device = device_id

            if best_device is not None:
                self.device_status[best_device]['active_requests'] += 1
                self.device_status[best_device]['total_requests'] += 1
                self.device_status[best_device]['last_heartbeat'] = time.time()

            return best_device

    def release_device(self, device_id: int):
        """释放设备"""
        with self.lock:
            if device_id in self.device_status:
                self.device_status[device_id]['active_requests'] -= 1
                self.device_status[device_id]['last_heartbeat'] = time.time()

    def report_failure(self, device_id: int):
        """报告设备故障"""
        with self.lock:
            if device_id in self.device_status:
                self.device_status[device_id]['failed_requests'] += 1

    def get_cluster_status(self) -> Dict:
        """获取集群状态"""
        with self.lock:
            status = {}
            for device_id, device_info in self.devices.items():
                status[device_id] = {
                    'device': device_info,
                    'status': self.device_status[device_id]
                }
            return status

    def print_status(self):
        """打印集群状态"""
        status = self.get_cluster_status()

        print("\n集群状态:")
        print("-" * 80)
        print(f"{'设备ID':<10} {'状态':<15} {'总请求':<15} {'活跃请求':<15} "
              f"失败请求':<15} {'可用内存(MB)':<15}")
        print("-" * 80)

        for device_id, info in status.items():
            device = info['device']
            status_info = info['status']

            print(f"{device_id:<10} {device['status']:<15} "
                  f"{status_info['total_requests']:<15} "
                  f"{status_info['active_requests']:<15} "
                  f"{status_info['failed_requests']:<15} "
                  f"{device['free_memory']//1024//1024:<15}")

        print("-" * 80)

    def __del__(self):
        """清理资源"""
        self.running = False
        if hasattr(self, 'monitor_thread'):
            self.monitor_thread.join(timeout=1)
        acl.finalize()

三、数据并行：高吞吐量场景的首选

数据并行是在多个设备上使用相同的模型处理不同的数据，是实现高吞吐量的首选方案。数据并行的核心流程如下：

数据分发：将输入数据分发到不同的设备
并行推理：每个设备独立执行推理
结果收集：收集所有设备的推理结果

3.1 数据并行的实现

以下是实现数据并行的代码：

python 复制代码

from concurrent.futures import ThreadPoolExecutor, as_completed

class DataParallelEngine:
    """数据并行推理引擎"""
    def __init__(self, model_path: str, device_manager: DeviceManager):
        self.device_manager = device_manager

        # 为每个设备加载模型
        self.device_models = {}
        self.device_streams = {}

        print("加载数据并行模型...")
        for device_id in device_manager.devices:
            # 设置设备
            acl.rt.set_device(device_id)

            # 加载模型
            model_id, _ = acl.mdl.load_from_file(model_path)
            self.device_models[device_id] = model_id

            # 创建Stream
            stream, _ = acl.rt.create_stream()
            self.device_streams[device_id] = stream

            print(f"  设备 {device_id}: 模型加载完成")

        print(f"数据并行引擎初始化完成，加载了 {len(self.device_models)} 个模型")

    def _infer_on_device(self, input_data: np.ndarray, device_id: int) -> np.ndarray:
        """在指定设备上执行推理"""
        model_id = self.device_models[device_id]
        stream = self.device_streams[device_id]

        # 设置设备
        acl.rt.set_device(device_id)

        # 验证输入形状
        if input_data.ndim == 3:
            input_data = np.expand_dims(input_data, axis=0)

        # 分配内存
        data_size = input_data.nbytes
        device_ptr, _ = acl.rt.malloc(data_size, 0)

        # 异步传输数据
        acl.rt.memcpy_async(
            device_ptr, data_size,
            input_data.ctypes.data, data_size,
            acl.rt.MEMCPY_HOST_TO_DEVICE,
            stream
        )

        # 创建数据集
        input_dataset = acl.mdl.create_dataset()
        buffer = acl.create_data_buffer(device_ptr, data_size)
        acl.mdl.add_dataset_buffer(input_dataset, buffer)
        output_dataset = acl.mdl.create_dataset()

        # 执行推理
        acl.mdl.execute_async(
            model_id,
            input_dataset,
            output_dataset,
            stream
        )

        # 同步等待完成
        acl.rt.synchronize_stream(stream)

        # 获取输出
        output_buffer = acl.mdl.get_dataset_buffer(output_dataset, 0)
        output_ptr = acl.get_data_buffer_addr(output_buffer)
        output_size = acl.get_data_buffer_size(output_buffer)

        output = np.zeros((1, 1000), dtype=np.float32)
        acl.rt.memcpy(
            output.ctypes.data, output_size,
            output_ptr, output_size,
            acl.rt.MEMCPY_DEVICE_TO_HOST
        )

        # 清理资源
        acl.rt.free(device_ptr)
        acl.destroy_data_buffer(buffer)
        acl.mdl.destroy_dataset(input_dataset)
        acl.mdl.destroy_dataset(output_dataset)

        return output[0]

    def parallel_infer(self, input_list: List[np.ndarray]) -> List[np.ndarray]:
        """并行推理"""
        # 分配设备
        device_assignments = []
        for i, input_data in enumerate(input_list):
            device_id = self.device_manager.allocate_device()
            if device_id is None:
                raise RuntimeError("没有可用设备")

            device_assignments.append((i, device_id, input_data))

        # 并行执行推理
        results = [None] * len(input_list)

        def process_task(task):
            idx, device_id, input_data = task
            try:
                result = self._infer_on_device(input_data, device_id)
                return idx, result, None
            except Exception as e:
                self.device_manager.report_failure(device_id)
                return idx, None, str(e)
            finally:
                self.device_manager.release_device(device_id)

        # 使用线程池并行执行
        with ThreadPoolExecutor(max_workers=len(self.device_models)) as executor:
            futures = {
                executor.submit(process_task, task): task
                for task in device_assignments
            }

            for future in as_completed(futures):
                idx, result, error = future.result()
                if error:
                    print(f"设备 {device_assignments[idx][1]} 推理失败: {error}")
                    results[idx] = None
                else:
                    results[idx] = result

        return results

    def batch_parallel_infer(self, input_list: List[np.ndarray]) -> List[np.ndarray]:
        """批量并行推理（优化版）"""
        # 计算每个设备的任务数
        device_count = len(self.device_models)
        batch_per_device = (len(input_list) + device_count - 1) // device_count

        # 分配任务到设备
        device_batches = {}
        for i, input_data in enumerate(input_list):
            device_id = i % device_count
            if device_id not in device_batches:
                device_batches[device_id] = []
            device_batches[device_id].append(input_data)

        # 并行执行批量推理
        def process_device_batch(device_id, batch):
            device_results = []
            for input_data in batch:
                try:
                    result = self._infer_on_device(input_data, device_id)
                    device_results.append(result)
                except Exception as e:
                    print(f"设备 {device_id} 推理失败: {e}")
                    device_results.append(None)
            return device_id, device_results

        results = [None] * len(input_list)

        with ThreadPoolExecutor(max_workers=device_count) as executor:
            futures = {
                executor.submit(process_device_batch, device_id, batch): (device_id, batch)
                for device_id, batch in device_batches.items()
            }

            for future in as_completed(futures):
                device_id, device_results = future.result()

                # 收集结果
                start_idx = list(device_batches.keys()).index(device_id) * batch_per_device
                for j, result in enumerate(device_results):
                    if start_idx + j < len(results):
                        results[start_idx + j] = result

        return results

四、模型并行：大模型场景的解决方案

模型并行是将模型拆分到多个设备上处理同一份数据，适用于大模型无法在单个设备上完整加载的场景。模型并行的核心挑战是如何合理拆分模型、最小化设备间的通信开销。

4.1 模型并行的实现

以下是实现模型并行的简化代码：

python 复制代码

class ModelParallelEngine:
    """模型并行推理引擎"""
    def __init__(self, model_path: str, device_manager: DeviceManager):
        self.device_manager = device_manager

        # 选择两个设备进行模型并行
        device_ids = list(device_manager.devices.keys())[:2]
        if len(device_ids) < 2:
            raise ValueError("至少需要2个设备进行模型并行")

        self.device_0 = device_ids[0]
        self.device_1 = device_ids[1]

        # 加载模型的第一部分到设备0
        acl.rt.set_device(self.device_0)
        self.model_id_0, _ = acl.mdl.load_from_file(f"{model_path}_part0.om")
        self.stream_0, _ = acl.rt.create_stream()

        # 加载模型的第二部分到设备1
        acl.rt.set_device(self.device_1)
        self.model_id_1, _ = acl.mdl.load_from_file(f"{model_path}_part1.om")
        self.stream_1, _ = acl.rt.create_stream()

        # 创建事件用于同步
        self.part0_done, _ = acl.rt.create_event()

        print(f"模型并行引擎初始化完成")
        print(f"  设备 {self.device_0}: 模型第0部分")
        print(f"  设备 {self.device_1}: 模型第1部分")

    def parallel_infer(self, input_data: np.ndarray) -> np.ndarray:
        """模型并行推理"""
        # 验证输入形状
        if input_data.ndim == 3:
            input_data = np.expand_dims(input_data, axis=0)

        # 阶段1: 在设备0上执行模型第一部分
        acl.rt.set_device(self.device_0)

        data_size = input_data.nbytes
        device_ptr_0, _ = acl.rt.malloc(data_size, 0)

        # 传输数据到设备0
        acl.rt.memcpy_async(
            device_ptr_0, data_size,
            input_data.ctypes.data, data_size,
            acl.rt.MEMCPY_HOST_TO_DEVICE,
            self.stream_0
        )

        # 创建输入输出数据集
        input_dataset_0 = acl.mdl.create_dataset()
        buffer_0 = acl.create_data_buffer(device_ptr_0, data_size)
        acl.mdl.add_dataset_buffer(input_dataset_0, buffer_0)
        output_dataset_0 = acl.mdl.create_dataset()

        # 执行模型第一部分
        acl.mdl.execute_async(
            self.model_id_0,
            input_dataset_0,
            output_dataset_0,
            self.stream_0
        )

        # 记录第一部分完成事件
        acl.rt.record_event(self.part0_done, self.stream_0)

        # 获取中间结果
        intermediate_buffer = acl.mdl.get_dataset_buffer(output_dataset_0, 0)
        intermediate_ptr = acl.get_data_buffer_addr(intermediate_buffer)
        intermediate_size = acl.get_data_buffer_size(intermediate_buffer)

        # 分配设备1的内存
        device_ptr_1, _ = acl.rt.malloc(intermediate_size, 0)

        # 阶段2: 将中间结果传输到设备1
        acl.rt.set_device(self.device_1)
        acl.rt.stream_wait_event(self.stream_1, self.part0_done)

        # 传输中间结果到设备1
        acl.rt.memcpy_async(
            device_ptr_1, intermediate_size,
            intermediate_ptr, intermediate_size,
            acl.rt.MEMCPY_DEVICE_TO_DEVICE,
            self.stream_1
        )

        # 创建输入输出数据集
        input_dataset_1 = acl.mdl.create_dataset()
        buffer_1 = acl.create_data_buffer(device_ptr_1, intermediate_size)
        acl.mdl.add_dataset_buffer(input_dataset_1, buffer_1)
        output_dataset_1 = acl.mdl.create_dataset()

        # 执行模型第二部分
        acl.mdl.execute_async(
            self.model_id_1,
            input_dataset_1,
            output_dataset_1,
            self.stream_1
        )

        # 同步等待完成
        acl.rt.synchronize_stream(self.stream_1)

        # 获取最终输出
        output_buffer = acl.mdl.get_dataset_buffer(output_dataset_1, 0)
        output_ptr = acl.get_data_buffer_addr(output_buffer)
        output_size = acl.get_data_buffer_size(output_buffer)

        output = np.zeros((1, 1000), dtype=np.float32)
        acl.rt.memcpy(
            output.ctypes.data, output_size,
            output_ptr, output_size,
            acl.rt.MEMCPY_DEVICE_TO_HOST
        )

        # 清理资源
        acl.rt.free(device_ptr_0)
        acl.rt.free(device_ptr_1)
        acl.destroy_data_buffer(buffer_0)
        acl.destroy_data_buffer(buffer_1)
        acl.mdl.destroy_dataset(input_dataset_0)
        acl.mdl.destroy_dataset(input_dataset_1)
        acl.mdl.destroy_dataset(output_dataset_0)
        acl.mdl.destroy_dataset(output_dataset_1)

        return output[0]

五、负载均衡：最大化集群利用率

负载均衡是多设备协同推理中的关键技术，负责将推理任务合理分配到不同设备，最大化集群的整体利用率。

5.1 负载均衡策略

以下是实现多种负载均衡策略的代码：

python 复制代码

import random

class LoadBalancer:
    """负载均衡器"""
    def __init__(self, device_manager: DeviceManager, strategy: str = 'least_loaded'):
        self.device_manager = device_manager
        self.strategy = strategy

        # 轮询索引
        self.round_robin_index = 0

    def allocate_device(self) -> Optional[int]:
        """分配设备"""
        if self.strategy == 'round_robin':
            return self._round_robin()
        elif self.strategy == 'least_loaded':
            return self._least_loaded()
        elif self.strategy == 'random':
            return self._random()
        elif self.strategy == 'affinity':
            return self._affinity()
        else:
            return self.device_manager.allocate_device()

    def _round_robin(self) -> Optional[int]:
        """轮询策略"""
        available_devices = [
            device_id for device_id, device_info in self.device_manager.devices.items()
            if device_info['status'] == 'available'
        ]

        if not available_devices:
            return None

        device_id = available_devices[self.round_robin_index % len(available_devices)]
        self.round_robin_index += 1

        self.device_manager.allocate_device()
        return device_id

    def _least_loaded(self) -> Optional[int]:
        """最少负载策略"""
        return self.device_manager.allocate_device()

    def _random(self) -> Optional[int]:
        """随机策略"""
        available_devices = [
            device_id for device_id, device_info in self.device_manager.devices.items()
            if device_info['status'] == 'available'
        ]

        if not available_devices:
            return None

        device_id = random.choice(available_devices)
        self.device_manager.allocate_device()
        return device_id

    def _affinity(self) -> Optional[int]:
        """亲和性策略"""
        # 简化实现，使用最少负载策略
        return self._least_loaded()

六、性能优化与实战应用

6.1 性能测试

以下是进行多设备协同性能测试的代码：

python 复制代码

def benchmark_multi_device():
    """多设备性能测试"""
    print("\n" + "=" * 60)
    print("多设备协同推理性能测试")
    print("=" * 60)

    # 测试不同设备数量的性能
    device_counts = [1, 2, 4, 8]
    num_requests = 1000

    print(f"\n测试配置:")
    print(f"  请求数量: {num_requests}")
    print(f"  设备数量范围: {device_counts}")

    # 模拟性能数据
    print(f"\n{'设备数量':<15} {'吞吐量(QPS)':<20} {'加速比':<20} {'效率(%)':<15}")
    print("-" * 70)

    baseline_qps = 100  # 单设备基准

    for num_devices in device_counts:
        # 模拟性能数据
        qps = baseline_qps * num_devices * 0.85  # 考虑通信开销
        speedup = qps / baseline_qps
        efficiency = (speedup / num_devices) * 100

        print(f"{num_devices:<15} {qps:<20.2f} {speedup:<20.2f}x {efficiency:<15.2f}")

    # 分析结果
    print("\n性能分析:")
    print("  1. 设备数量增加，吞吐量近似线性提升")
    print("  2. 存在通信和调度开销")
    print("  3. 效率随设备数量增加而下降")
    print("  4. 建议: 根据实际需求选择合适的设备数量")

    print("=" * 60)

benchmark_multi_device()

6.2 完整的多设备推理服务

以下是构建完整的多设备推理服务的代码：

python 复制代码

from flask import Flask, request, jsonify

class MultiDeviceInferenceService:
    """多设备推理服务"""
    def __init__(self, model_path: str, device_manager: DeviceManager):
        self.device_manager = device_manager

        # 初始化数据并行引擎
        self.data_parallel_engine = DataParallelEngine(model_path, device_manager)

        # 初始化负载均衡器
        self.load_balancer = LoadBalancer(device_manager, strategy='least_loaded')

        # 创建Flask应用
        self.app = Flask(__name__)
        self._register_routes()

        print("多设备推理服务初始化完成")

    def _register_routes(self):
        """注册API路由"""

        @self.app.route('/predict', methods=['POST'])
        def predict():
            """推理接口"""
            try:
                data = request.get_json()

                if 'input' not in data:
                    return jsonify({'error': 'Missing input'}), 400

                # 转换输入
                input_data = np.array(data['input'], dtype=np.float32)

                # 执行推理
                output = self.data_parallel_engine.parallel_infer([input_data])[0]

                return jsonify({
                    'success': True,
                    'output': output.tolist()
                })

            except Exception as e:
                return jsonify({'error': str(e)}), 500

        @self.app.route('/batch_predict', methods=['POST'])
        def batch_predict():
            """批量推理接口"""
            try:
                data = request.get_json()

                if 'inputs' not in data:
                    return jsonify({'error': 'Missing inputs'}), 400

                # 转换输入
                input_list = [np.array(inp, dtype=np.float32)
                             for inp in data['inputs']]

                # 批量推理
                outputs = self.data_parallel_engine.parallel_infer(input_list)

                return jsonify({
                    'success': True,
                    'outputs': [out.tolist() if out is not None else None for out in outputs],
                    'count': len(outputs)
                })

            except Exception as e:
                return jsonify({'error': str(e)}), 500

        @self.app.route('/cluster_status', methods=['GET'])
        def cluster_status():
            """集群状态"""
            status = self.device_manager.get_cluster_status()
            return jsonify(status)

    def run(self, host='0.0.0.0', port=5000):
        """运行服务"""
        print(f"启动多设备推理服务: http://{host}:{port}")
        self.app.run(host=host, port=port, threaded=True)

# 使用示例
def start_multi_device_service():
    """启动多设备推理服务"""
    print("启动多设备推理服务")
    print("=" * 60)

    # 创建设备管理器
    # device_manager = DeviceManager()

    # 创建服务（实际使用时需要真实的模型文件）
    # service = MultiDeviceInferenceService("model.om", device_manager)

    # 运行服务
    # service.run(host='0.0.0.0', port=5000)

    print("\nAPI接口:")
    print("  POST /predict          - 单次推理")
    print("  POST /batch_predict    - 批量推理")
    print("  GET  /cluster_status   - 集群状态")

    print("\n使用示例:")
    print('  curl -X POST http://localhost:5000/batch_predict \\')
    print('    -H "Content-Type: application/json" \\')
    print('    -d \'{"inputs": [[[0.1, 0.2, 0.3], ...]], ...]\'')

    print("=" * 60)

start_multi_device_service()

七、总结与展望

CANN 多设备协同推理技术通过设备管理、数据并行、模型并行、负载均衡等策略，能够显著提升推理性能和系统吞吐量。本文从多设备协同的核心价值出发，详细介绍了设备管理的实现、数据并行和模型并行的设计、负载均衡的策略，最终构建了一个完整的多设备推理服务。

关键要点总结：

多设备协同的价值：线性扩展性能、降低延迟、提高吞吐量、增强可靠性
设备管理：发现、分配、监控、处理设备故障
数据并行：在多个设备上使用相同模型处理不同数据，适用于高吞吐量场景
模型并行：将模型拆分到多个设备，适用于大模型场景
负载均衡：合理分配任务，最大化集群利用率

未来展望：

智能调度：基于机器学习的智能任务调度，进一步优化性能
弹性伸缩：根据负载动态调整设备数量
跨集群协同：实现跨集群的协同推理
自动容错：自动检测和处理设备故障，提高系统可靠性