MI50运算卡使用llama.cpp的ROCm后端运行Qwen3-Coder-30B-A3B的速度测试

上一篇有写到如何为MI50编译ROCm版的llama.cpp,测试下吞吐速度:

使用到的模型是unsloth提供的Qwen3-Coder-30B-A3B-Instruct-UD-Q4_K_XL 量化版本。

测速如下:

bash 复制代码
ggml_cuda_init: GGML_CUDA_FORCE_MMQ:    no
ggml_cuda_init: GGML_CUDA_FORCE_CUBLAS: no
ggml_cuda_init: found 1 ROCm devices:
  Device 0: AMD Radeon Graphics, gfx906:sramecc-:xnack- (0x906), VMM: no, Wave Size: 64
| model                          |       size |     params | backend    | ngl |            test |                  t/s |
| ------------------------------ | ---------: | ---------: | ---------- | --: | --------------: | -------------------: |
| qwen3moe 30B.A3B Q4_K - Medium |  16.45 GiB |    30.53 B | ROCm       |  99 |           pp512 |        990.65 ± 3.12 |
| qwen3moe 30B.A3B Q4_K - Medium |  16.45 GiB |    30.53 B | ROCm       |  99 |           tg128 |         73.51 ± 0.06 |

可见在处理输入时非常快。

相关推荐
Xpower 1721 小时前
OpenClaw实战:从零开发电商小程序(2)
人工智能·语言模型·小程序·gateway
PNP Robotics21 小时前
PNP机器人亮相第二届机器人灵巧手国际创新大会
人工智能·学习·机器人·开源
凤年徐21 小时前
保姆级教程:从零搭建AI系统权限控制系统
人工智能
( ˶˙⚇˙˶ )୨⚑︎21 小时前
深度学习与机器学习如何选择?
人工智能·深度学习·机器学习
apocalypsx21 小时前
含并行连接的网络GoogLeNet
网络·人工智能·深度学习
Shining059621 小时前
AI 编译器系列(六)《Stable Diffusion 在 InfiniTensor 推理框架中的适配与工程实践》
人工智能·算法·stable diffusion·大模型·图像生成·ai编译器·infinitensor
庞轩px21 小时前
2小时完成大模型推理网关:一次AI Coding实战记录
人工智能·大模型·笔试·ai编程·ai coding
Ellenjing21 小时前
架构演进与性能压榨:在金融 RAG 中引入条款森林 (FoC)
人工智能·aigc·知识图谱
薛定猫AI21 小时前
【深度解析】从玩具项目到全栈生产:Google AI Studio + Antigravity 的新范式
人工智能
万里鹏程转瞬至1 天前
InternVL(1~3.5版本)多模型大模型训练中的数据集构造总结
人工智能