MI50运算卡使用llama.cpp的ROCm后端运行Qwen3-Coder-30B-A3B的速度测试

上一篇有写到如何为MI50编译ROCm版的llama.cpp,测试下吞吐速度:

使用到的模型是unsloth提供的Qwen3-Coder-30B-A3B-Instruct-UD-Q4_K_XL 量化版本。

测速如下:

bash 复制代码
ggml_cuda_init: GGML_CUDA_FORCE_MMQ:    no
ggml_cuda_init: GGML_CUDA_FORCE_CUBLAS: no
ggml_cuda_init: found 1 ROCm devices:
  Device 0: AMD Radeon Graphics, gfx906:sramecc-:xnack- (0x906), VMM: no, Wave Size: 64
| model                          |       size |     params | backend    | ngl |            test |                  t/s |
| ------------------------------ | ---------: | ---------: | ---------- | --: | --------------: | -------------------: |
| qwen3moe 30B.A3B Q4_K - Medium |  16.45 GiB |    30.53 B | ROCm       |  99 |           pp512 |        990.65 ± 3.12 |
| qwen3moe 30B.A3B Q4_K - Medium |  16.45 GiB |    30.53 B | ROCm       |  99 |           tg128 |         73.51 ± 0.06 |

可见在处理输入时非常快。

相关推荐
herogus丶1 小时前
【LLM】LLaMA-Factory 训练模型入门指南
python·ai编程·llama
illuspas1 小时前
MI50运算卡使用llama.cpp的ROCm后端运行gpt-oss-20b的速度测试
人工智能·gpt·llama
谏书稀1 小时前
LLaMA Factory微调大模型
python·transformer·llama
算家计算1 小时前
DeepSeek大神正式加盟小米!AI竞赛的终局,远不止一次挖角
人工智能·资讯
EllenLiu2 小时前
模型推理优化与工程化落地 - Onnx Runtime 实战篇
人工智能
上官胡闹2 小时前
使用 vLLM 原生部署 PaddleOCR-VL:高性能、OpenAI 兼容的多模态 OCR 服务
人工智能
却道天凉_好个秋2 小时前
OpenCV(二十一):HSV与HSL
人工智能·opencv·计算机视觉
从后端到QT2 小时前
标量-向量-矩阵-基础知识
人工智能·机器学习·矩阵
新智元2 小时前
65 岁图灵巨头离职创业!LeCun 愤然与小扎决裂,Meta 巨震
人工智能·openai