【高清视频】AI服务器调试利器:PCIe功耗分析设备 Quarch PAM 深度解析

关于各类进口Nvidia, AMD以及国产GPU卡,AI加速卡的讨论不绝于耳,我们经常听说的某某卡的功耗都要上2000W了。大家有没有想过这些GPU卡如何监控和测量它的功耗,以及通过追踪这些PCIe sideband信号诊断一些问题呢?

我们今天的高清视频就带大家来看看业内主流公司都是如何来进行这类高功耗GPU卡进行功耗分析和各类sideband边带信号分析的?

【高清视频】AI服务器调试利器:PCIe功耗分析设备 Quarch PAM 深度解析

AI服务器调试利器:PCIe功耗分析设备 Quarch PAM 深度解析

------同时分析功耗与PCIe Sideband信号的工程级工具

在 AI服务器、GPU计算卡、NVMe SSD 和 PCIe Switch 等设备的验证过程中,工程师经常会遇到一些非常棘手的问题,例如:

  • • PCIe设备偶发 无法枚举

  • • GPU 训练过程中突然掉卡

  • • NVMe SSD 在高负载下 reset

  • • PCIe Switch 链路反复 retrain

  • • AI 推理服务器 随机卡死

很多时候这些问题并不是:

  • • PCIe 协议错误

  • • Firmware Bug

  • • Driver Bug

而是与 电源行为(Power Behavior) 密切相关。

例如:

  • • PCIe 12V rail 瞬间电压跌落

  • • GPU 电流 spike

  • • 外部供电 AUX power 不稳定

  • • REFCLK / PERST 与供电时序不匹配

传统工具(示波器 + 万用表)在这种场景下存在明显局限:

  • • 难以 长时间记录

  • • 无法 同步多个信号

  • • 难以 关联 PCIe 行为

因此在服务器验证领域,出现了一类专门的设备:

PCIe 功耗分析工具

其中最典型、最专业的一类设备就是:

英国 Quarch 公司的 PAM(Power Analysis Module)


一、什么是 Quarch PAM

PAM 是 Power Analysis Module 的缩写。

它是一种 专门针对 PCIe 插卡设备的功耗分析模块

其核心能力是:

在 PCIe 插卡与主机之间透明串接,实时监测:

  • • 电压

  • • 电流

  • • 功耗

  • • PCIe Sideband 信号

视频中也展示了该设备的基本用途:

PAM 可以串接在 PCIe 插卡链路中间,对设备的电源行为和边带信号进行实时监控。


二、PAM系统整体架构

典型 PAM 系统结构如下:

复制代码
Host Server
      │
      │ PCIe Slot
      │
┌───────────────  ────┐
│ Quarch PCIe Fixture │
│ (AIC测试治具)      │
└───────────────────┘
      │
      │ USB-C 控制
      │
┌───────────────────┐
│ PAM 管理模块       │
│ Power Analysis    │
└───────────────────┘
      │
      │ USB / Ethernet
      │
控制电脑
Power Studio

系统由三部分组成:

1 PAM 管理模块

负责:

  • • 数据采集

  • • 信号汇总

  • • 数据传输


2 PCIe 测试治具(Fixture)

用于插入:

  • • PCIe NIC

  • • NVMe AIC

  • • FPGA

  • • PCIe Switch

  • • GPU

视频中展示的是:

PCIe Gen5 x16 AIC Fixture


3 Power Studio 软件

用于:

  • • 控制设备

  • • 实时监控

  • • 数据记录

  • • Trace分析


三、PAM最大的技术优势:同时分析功耗与Sideband信号

这是 PAM 与传统电源分析工具最大的区别。

PAM 不仅可以监控:

电压 / 电流 / 功耗

还可以同时监控:

PCIe Sideband 信号

例如:

信号 作用
PERST# PCIe设备复位
REFCLKOK 参考时钟稳定
CLKREQ# 低功耗唤醒
WAKE# 设备唤醒

这些信号在 PCIe链路初始化 中极为关键。

视频中就展示了:

可以同时监控:

  • • 12V 电压

  • • 12V 电流

  • • 12V 功耗

  • • PERST

  • • REFCLKOK

这些信号在时间轴上同步显示。

这使工程师可以清晰看到:

复制代码
Power 上电
      ↓
REFCLK stable
      ↓
PERST deassert
      ↓
PCIe LTSSM start

这种 Power + Sideband 同步分析能力,是服务器验证中非常关键的能力。


四、PAM支持的PCIe设备类型

1 标准PCIe插卡(≤75W)

例如:

  • • PCIe NIC

  • • NVMe AIC SSD

  • • FPGA卡

  • • PCIe Switch卡

这些设备通常直接通过 PCIe slot 供电。

因此只需要:

PCIe AIC Fixture

即可完成测试。


2 高功耗GPU设备

现代 AI GPU 功耗已经非常惊人:

GPU 功耗
A100 400W
H100 700W
B100 >1000W

视频中提到:

一些 GPU 卡甚至可能达到:

700W、1000W、1500W

因此 GPU 通常需要:

额外外接供电

例如:

  • • 8-pin

  • • 16-pin

  • • 12VHPWR

PAM 提供:

AUX power fixture

可以监控:

  • • GPU slot power

  • • GPU external power

从而完整分析 GPU 的功耗行为。


五、Power Studio 软件介绍

Power Studio 是 Quarch PAM 的核心控制软件。

视频展示的版本为:

Power Studio v1.50

软件主要功能包括:

  • • 实时数据采集

  • • Trace记录

  • • 通道管理

  • • 波形分析

  • • 统计分析


六、毫秒级功耗采样

Power Studio 支持非常高精度采样。

视频示例:

复制代码
采样周期
1.024 ms

这意味着系统可以捕捉:

  • • GPU workload spike

  • • NVMe I/O burst

  • • PCIe reset

  • • power transient


七、Trace记录与长时间分析

Power Studio 可以持续记录:

复制代码
Voltage
Current
Power
Sideband

所有数据会写入电脑硬盘。

视频中也特别提醒:

默认情况下:

关闭软件时可能删除 trace。

因此建议:

修改设置为

复制代码
Auto Save Recording

否则长时间测试数据可能丢失。


八、强大的波形分析能力

Power Studio 的分析界面类似示波器。

支持:

1 时间轴缩放

可从分钟级放大到毫秒级。


2 游标测量

通过:

复制代码
Cursor A
Cursor B

可测量:

  • • Δtime

  • • Δvoltage

  • • Δcurrent

  • • Δpower

例如视频示例:

复制代码
Δtime = 5ms
Δvoltage = 2.5V
Δcurrent = 0.358A
Δpower = 2.5W

3 区间统计

软件可以统计:

复制代码
max
min
avg

例如:

复制代码
12V voltage
12V current
12V power

九、PAM在AI服务器验证中的典型应用

随着 AI服务器功耗越来越高,PAM 的价值越来越明显。


场景1:PCIe设备枚举失败

BIOS启动后:

复制代码
PCIe device missing

可能原因:

复制代码
Power ramp slow
PERST timing error
REFCLK unstable

PAM 可以同时观察:

复制代码
Power ramp
PERST
REFCLKOK

快速定位问题。


场景2:GPU训练掉卡

AI训练过程中:

复制代码
CUDA error
GPU disappeared

可能原因:

复制代码
GPU current spike
power transient
VRM instability

PAM 可记录 GPU 电流变化。


场景3:NVMe SSD高负载reset

典型情况:

复制代码
fio workload
SSD reset

可能原因:

复制代码
12V droop
power spike

场景4:PCIe Switch调试

视频中演示的就是:

复制代码
PCIe Switch card

通过 PAM 可以观察:

复制代码
Switch power profile
PCIe initialization

十、PAM 与 PCIe Protocol Analyzer 的互补关系

服务器调试通常需要两类工具:

工具 分析内容
PCIe Protocol Analyzer 协议层
Quarch PAM 功耗行为

两者结合可以做到:

复制代码
Protocol Event
        ↓
Power Behavior

例如:

复制代码
PCIe FLR
     ↓
GPU power drop

这种联合分析能力在服务器验证中非常关键。


十一、AI服务器时代的意义

随着 GPU 功耗不断上升:

GPU 功耗
A100 400W
H100 700W
B200 >1000W

服务器系统越来越复杂:

  • • 电源模块

  • • VRM

  • • PCIe供电

  • • 外部供电

任何一个环节异常,都可能导致系统不稳定。

因此:

Power Analysis 已成为服务器验证的重要环节。

而 Quarch PAM 正是这一领域最专业的解决方案之一。


十二、总结

Quarch PAM 是一款面向 PCIe 插卡设备的 专业功耗分析工具

其核心价值在于:

同时监控

复制代码
Voltage
Current
Power
PCIe Sideband signals

这种 功耗 + PCIe信号同步分析能力 在服务器验证中极为重要。

PAM 已广泛应用于:

  • • GPU服务器验证

  • • NVMe SSD测试

  • • PCIe Switch调试

  • • AI推理服务器调试

在 AI计算功耗不断增长的时代,PAM 正成为服务器工程师的重要调试利器。

相关推荐
yuanmazhiwu20 分钟前
计算机毕业设计:Python全国空气质量与气象监测平台 Flask框架 可视化 数据分析 机器学习 天气 深度学习 AI 空气质量分析(建议收藏)✅
人工智能·python·深度学习·数据挖掘·flask·汽车·课程设计
Fleshy数模22 分钟前
基于机器学习的实时手势识别系统实现
人工智能·机器学习
龙侠九重天22 分钟前
C# 机器学习数据处理
开发语言·人工智能·机器学习·ai·c#
China_Yanhy7 小时前
动手学大模型第一篇学习总结
人工智能
空间机器人8 小时前
自动驾驶 ADAS 器件选型:算力只是门票,系统才是生死线
人工智能·机器学习·自动驾驶
古译汉书8 小时前
【IoT死磕系列】Day 9:架构一台“自动驾驶物流车”,看8种协议如何协同作战
网络·arm开发·单片机·物联网·tcp/ip·架构·自动驾驶
C+++Python8 小时前
提示词、Agent、MCP、Skill 到底是什么?
人工智能
小松要进步8 小时前
机器学习1
人工智能·机器学习
泰恒8 小时前
openclaw近期怎么样了?
人工智能·深度学习·机器学习
KaneLogger8 小时前
从传统笔记到 LLM 驱动的结构化 Wiki
人工智能·程序员·架构