在华为 910B 服务器 (通常指搭载 昇腾 Ascend 910B AI 芯片 的 AI 服务器)上,若你想查看服务器终端信息 (如设备状态、NPU 信息、驱动版本、算力使用情况等),可通过以下命令和工具进行操作。这些操作通常在 Linux 系统终端(如 Ubuntu/CentOS) 中执行。
✅ 1. 确认是否安装 CANN(昇腾计算架构)
昇腾 910B 依赖华为 CANN(Compute Architecture for Neural Networks) 软件栈。首先确认是否已安装:
bash
npu-smi info
如果提示
command not found,说明 CANN 未安装或环境变量未配置。需先安装 CANN(参考华为官方文档)。
✅ 2. 查看 NPU(Ascend 910B)设备信息
使用 npu-smi 工具(类似 nvidia-smi):
bash
npu-smi info
输出示例:
root@suidao:/home/ubuntu# | npu-smi 25.0.rc1.1 Version: 25.0.rc1.1 |
+---------------------------+---------------+---------------------------------------------------+
| NPU Name | Health | Power(W) Temp(C) Huge pages-Usage(page)|
| Chip | Bus-Id | AICore(%) Memory-Usage(MB) HBM- Usage(MB) |
+===========================+===============+====================================================+
| 12 910B2C | Warning | 90.4 48 0 / 0 |
| 0 | 0000:00:09.0 | 0 0 / 0 3197 / 65536 |
+===========================+===============+====================================================+
| 15 910B2C | Warning | 90.3 44 0 / 0 |
| 0 | 0000:00:08.0 | 0 0 / 0 3200 / 65536 |
+===========================+===============+====================================================+
+---------------------------+---------------+----------------------------------------------------+
| NPU Chip | Process id | Process name | Process memory(MB) |
该命令可显示:
- NPU 芯片型号(910B)
- 健康状态(OK / Warning / Critical)
- 驱动版本(Driver Version)
- CANN 版本
- 温度、功耗、利用率
✅ 3. 查看某一张 NPU 卡的使用情况(例如 Card ID = 12)
bash
npu-smi info -t usages -i 12 # 查看 NPU 0 的使用情况
✅ 4. 查看 NPU 卡(逻辑卡 ID 为 0)的主板/板级信息的
bash
npu-smi info -t firmware


✅ 4. **查看健康状态详情(关键!)
bash
npu-smi info -t health -i 12
该命令会返回每块 NPU 的详细健康状态,包括:
是否存在 ECC 错误
温度/电压是否超限
PCIe 链路是否降速
固件是否异常等

✅ 5. 查看系统日志中的 NPU 信息
bash
dmesg | grep -i ascend
或
bash
dmesg | grep -i npu
可确认内核是否成功加载 Ascend 驱动。



从你提供的信息来看,Ascend(昇腾)驱动和软件栈很可能没有完全安装成功 ,或者存在初始化失败的问题。以下是关键证据和判断依据:
🔍 核心问题证据
1. dmesg 报错:UDA 初始化超时
log
[ 168.203490] [ascend] [uda] [ERROR] [uda_wait_all_phy_startup 1340] <npu-exporter:861:911:13> Wait timeout. (dev_num=0; uda_detected_dev_num=2)
- 含义 :系统检测到 2 个物理 NPU 设备 (
uda_detected_dev_num=2),但 0 个设备成功完成初始化 (dev_num=0)。 - 后果 :NPU 虽被识别,但无法正常工作,
npu-smi显示 Health = Warning,且无法用于计算。
2. 虚拟机环境(QEMU/VMware)
你的 dmesg 输出包含:
log
QEMU QEMU USB Tablet
VirtualPS/2 VMware VMMouse
→ 说明你运行在 虚拟机中。
⚠️ 昇腾 910B 官方不支持在普通虚拟机中直通使用。即使配置了 PCIe 直通(VFIO),也极易因中断、IOMMU、固件兼容性等问题导致设备初始化失败。
✅ 判断结论
| 项目 | 状态 | 说明 |
|---|---|---|
| 硬件识别 | ✅ 成功 | lspci 和 dmesg 显示 NPU 设备已加载 |
| 驱动加载 | ⚠️ 部分成功 | vnpu 模块注册成功,但 UDA 层初始化失败 |
| NPU 可用性 | ❌ 不可用 | 无法执行 MindSpore 或 Ascend C 程序 |
| 根本原因 | 虚拟机环境 + 驱动/固件不兼容 | 最可能原因 |
🛠 建议解决方案
✅ 首选方案:迁移到物理服务器(裸金属环境)
- 昇腾 910B 官方仅支持在物理机上部署。
- 虚拟机中的 PCIe 直通对 NPU 这类复杂设备支持极差,华为未提供 VMware/QEMU 虚拟化方案。
🔧 若必须在当前环境调试(临时方案):
-
确认 CANN 版本兼容性
- 你使用的是 CANN 25.0.rc1.1(RC 预发布版),可能存在 Bug。
- 建议降级到 CANN 7.0.RC1 或 7.0 正式版(需匹配 MindSpore 版本)。
-
检查驱动与固件版本匹配
bashnpu-smi info -t common # 查看驱动版本 npu-smi info -t product # 查看固件版本- 确保驱动、CANN、固件三者版本在华为兼容性列表中匹配。
-
尝试重启驱动
bashsudo rmmod ascend_npu hccn hisi_hpre sudo modprobe ascend_npu -
查看详细错误日志
bashcat /var/log/npu/slog/host-0/*.log | grep -i "error\|fail\|timeout"
📌 总结
不是"没安装",而是"安装了但初始化失败" 。
根本原因极大概率是:你在虚拟机中运行昇腾 910B,而该芯片不支持虚拟化环境。
✅ 强烈建议:将项目迁移到物理服务器(裸金属)环境重新部署 CANN + MindSpore。
如需进一步帮助(如检查 CANN 安装日志、版本兼容性表),请提供:
cat /var/log/npu/installer/*.logpip show mindsporecat /etc/os-release
🔗 参考文档
- 华为昇腾社区 - npu-smi 使用指南
- 《CANN 7.0 工具指南》