MI50运算卡使用llama.cpp的ROCm后端运行Qwen3-Coder-30B-A3B的速度测试

上一篇有写到如何为MI50编译ROCm版的llama.cpp,测试下吞吐速度:

使用到的模型是unsloth提供的Qwen3-Coder-30B-A3B-Instruct-UD-Q4_K_XL 量化版本。

测速如下:

bash 复制代码
ggml_cuda_init: GGML_CUDA_FORCE_MMQ:    no
ggml_cuda_init: GGML_CUDA_FORCE_CUBLAS: no
ggml_cuda_init: found 1 ROCm devices:
  Device 0: AMD Radeon Graphics, gfx906:sramecc-:xnack- (0x906), VMM: no, Wave Size: 64
| model                          |       size |     params | backend    | ngl |            test |                  t/s |
| ------------------------------ | ---------: | ---------: | ---------- | --: | --------------: | -------------------: |
| qwen3moe 30B.A3B Q4_K - Medium |  16.45 GiB |    30.53 B | ROCm       |  99 |           pp512 |        990.65 ± 3.12 |
| qwen3moe 30B.A3B Q4_K - Medium |  16.45 GiB |    30.53 B | ROCm       |  99 |           tg128 |         73.51 ± 0.06 |

可见在处理输入时非常快。

相关推荐
云和恩墨2 分钟前
数据库运维的下一步:Bethune X以AI实现从可观测到可处置
人工智能·aiops·数据库监控·数据库运维·数据库巡检
飞睿科技5 分钟前
探讨雷达在智能家居与消费电子领域的应用
人工智能·嵌入式硬件·智能家居·雷达·毫米波雷达
沛沛老爹8 分钟前
Web转AI决策篇 Agent Skills vs MCP:选型决策矩阵与评估标准
java·前端·人工智能·架构·rag·web转型
Baihai_IDP13 分钟前
如何减少单智能体输出结果的不确定性?利用并行智能体的“集体智慧”
人工智能·面试·llm
老蒋每日coding13 分钟前
AI智能体设计模式系列(五)—— 工具使用模式
人工智能·设计模式
抠头专注python环境配置14 分钟前
2026终极诊断指南:解决Windows PyTorch GPU安装失败,从迷茫到确定
人工智能·pytorch·windows·深度学习·gpu·环境配置·cuda
GISer_Jing15 分钟前
Claude Skills
人工智能·prompt·aigc
丝斯201115 分钟前
AI学习笔记整理(49)——大模型应用开发框架:LangChain
人工智能·笔记·学习
云安全干货局16 分钟前
游戏服务器遭DDoS瘫痪?高防IP部署全流程+效果复盘
网络·人工智能·高防ip
组合缺一18 分钟前
带来 AI Agent 开发,OpenSolon v3.8.3 发布
java·人工智能·ai·langchain·llm·solon