MI50运算卡使用llama.cpp的ROCm后端运行Qwen3-Coder-30B-A3B的速度测试

上一篇有写到如何为MI50编译ROCm版的llama.cpp,测试下吞吐速度:

使用到的模型是unsloth提供的Qwen3-Coder-30B-A3B-Instruct-UD-Q4_K_XL 量化版本。

测速如下:

bash 复制代码
ggml_cuda_init: GGML_CUDA_FORCE_MMQ:    no
ggml_cuda_init: GGML_CUDA_FORCE_CUBLAS: no
ggml_cuda_init: found 1 ROCm devices:
  Device 0: AMD Radeon Graphics, gfx906:sramecc-:xnack- (0x906), VMM: no, Wave Size: 64
| model                          |       size |     params | backend    | ngl |            test |                  t/s |
| ------------------------------ | ---------: | ---------: | ---------- | --: | --------------: | -------------------: |
| qwen3moe 30B.A3B Q4_K - Medium |  16.45 GiB |    30.53 B | ROCm       |  99 |           pp512 |        990.65 ± 3.12 |
| qwen3moe 30B.A3B Q4_K - Medium |  16.45 GiB |    30.53 B | ROCm       |  99 |           tg128 |         73.51 ± 0.06 |

可见在处理输入时非常快。

相关推荐
TImCheng060913 小时前
内容运营岗位适合考哪个AI证书,与算法认证侧重点分析
人工智能·算法·内容运营
Gofarlic_OMS13 小时前
Windchill的license合规使用报告自动化生成与审计追踪系统
大数据·运维·人工智能·云原生·自动化·云计算
爱上珍珠的贝壳13 小时前
ESP32-S3-CAM:豆包语音识别文字后控制小车(规划)
人工智能·音频·语音识别·esp32-s3·小车
甜辣uu13 小时前
基于深度学习的CT图像肺结节分割与检测系统
人工智能·深度学习
赵域Phoenix13 小时前
混沌系统是什么?
人工智能·算法·机器学习
ASKED_201913 小时前
Claude Code:架构、治理与工程实践
人工智能·架构
xcbrand13 小时前
文旅行业品牌策划公司找哪家
大数据·运维·人工智能·python
芯智工坊13 小时前
第19章 Mosquitto完整项目实战
网络·人工智能·mqtt·开源
moers13 小时前
从自建模型迁移到调API,省了480万,但踩了这些坑
人工智能
skilllite作者13 小时前
Spec + Task 作为「开发协议层」:Rust 大模型辅助的标准化、harness 化与可回滚
开发语言·人工智能·后端·安全·架构·rust·rust沙箱