MI50运算卡使用llama.cpp的ROCm后端运行Qwen3-Coder-30B-A3B的速度测试

上一篇有写到如何为MI50编译ROCm版的llama.cpp,测试下吞吐速度:

使用到的模型是unsloth提供的Qwen3-Coder-30B-A3B-Instruct-UD-Q4_K_XL 量化版本。

测速如下:

bash 复制代码
ggml_cuda_init: GGML_CUDA_FORCE_MMQ:    no
ggml_cuda_init: GGML_CUDA_FORCE_CUBLAS: no
ggml_cuda_init: found 1 ROCm devices:
  Device 0: AMD Radeon Graphics, gfx906:sramecc-:xnack- (0x906), VMM: no, Wave Size: 64
| model                          |       size |     params | backend    | ngl |            test |                  t/s |
| ------------------------------ | ---------: | ---------: | ---------- | --: | --------------: | -------------------: |
| qwen3moe 30B.A3B Q4_K - Medium |  16.45 GiB |    30.53 B | ROCm       |  99 |           pp512 |        990.65 ± 3.12 |
| qwen3moe 30B.A3B Q4_K - Medium |  16.45 GiB |    30.53 B | ROCm       |  99 |           tg128 |         73.51 ± 0.06 |

可见在处理输入时非常快。

相关推荐
PersistJiao17 小时前
Codex、Claude Code、gstack三者的关系
人工智能
一切皆是因缘际会17 小时前
AI数字分身的底层原理:破解意识、自我与人格复刻的核心难题
大数据·人工智能·ai·架构
翔云12345617 小时前
vLLM全解析:定义、用途与竞品对比
人工智能·ai·大模型
ASKED_201918 小时前
KDD Cup 2026 腾讯算法广告大赛赛题解读: UNI-REC (统一序列建模与特征交叉)
人工智能
fpcc18 小时前
AI和大模型——Fine-tuning
人工智能·深度学习
爱问的艾文18 小时前
八周带你手搓AI应用-Day4-赋予你的AI“记忆力”
人工智能
ACP广源盛1392462567318 小时前
IX8024与科学大模型的碰撞@ACP#筑牢科研 AI 算力高速枢纽分享
运维·服务器·网络·数据库·人工智能·嵌入式硬件·电脑
向量引擎18 小时前
向量引擎接入 GPT Image 2 和 deepseek v4:一个 api key 把热门模型串起来,开发者终于不用深夜修接口了
人工智能·gpt·计算机视觉·aigc·api·ai编程·key
努力努力再努力FFF18 小时前
医生对AI辅助诊断感兴趣,作为临床人员该怎么了解和学习?
人工智能·学习
AI医影跨模态组学19 小时前
如何将纵向MRI深度学习特征与局部晚期直肠癌新辅助放化疗后的免疫微环境建立关联,并解释其对pCR及预后的机制
人工智能·深度学习·论文·医学·医学影像·影像组学