MI50运算卡使用llama.cpp的ROCm后端运行gpt-oss-20b的速度测试

使用unsloth提供的 gpt-oss-20b-UD-Q4_K_XL 量化版本

llama.cpp:b6987

bash 复制代码
ggml_cuda_init: GGML_CUDA_FORCE_MMQ:    no
ggml_cuda_init: GGML_CUDA_FORCE_CUBLAS: no
ggml_cuda_init: found 1 ROCm devices:
  Device 0: AMD Radeon Graphics, gfx906:sramecc-:xnack- (0x906), VMM: no, Wave Size: 64
| model                          |       size |     params | backend    | ngl |            test |                  t/s |
| ------------------------------ | ---------: | ---------: | ---------- | --: | --------------: | -------------------: |
| gpt-oss 20B Q4_K - Medium      |  11.04 GiB |    20.91 B | ROCm       |  99 |           pp512 |       1109.90 ± 7.26 |
| gpt-oss 20B Q4_K - Medium      |  11.04 GiB |    20.91 B | ROCm       |  99 |           tg128 |        106.59 ± 0.03 |
相关推荐
herogus丶1 小时前
【LLM】LLaMA-Factory 训练模型入门指南
python·ai编程·llama
谏书稀1 小时前
LLaMA Factory微调大模型
python·transformer·llama
算家计算1 小时前
DeepSeek大神正式加盟小米!AI竞赛的终局,远不止一次挖角
人工智能·资讯
EllenLiu2 小时前
模型推理优化与工程化落地 - Onnx Runtime 实战篇
人工智能
上官胡闹2 小时前
使用 vLLM 原生部署 PaddleOCR-VL:高性能、OpenAI 兼容的多模态 OCR 服务
人工智能
却道天凉_好个秋2 小时前
OpenCV(二十一):HSV与HSL
人工智能·opencv·计算机视觉
从后端到QT2 小时前
标量-向量-矩阵-基础知识
人工智能·机器学习·矩阵
新智元2 小时前
65 岁图灵巨头离职创业!LeCun 愤然与小扎决裂,Meta 巨震
人工智能·openai
机器之心2 小时前
全球第二、国内第一!钉钉发布DeepResearch多智能体框架,已在真实企业部署
人工智能·openai