MI50运算卡使用llama.cpp的ROCm后端运行gpt-oss-20b的速度测试

使用unsloth提供的 gpt-oss-20b-UD-Q4_K_XL 量化版本

llama.cpp:b6987

bash 复制代码
ggml_cuda_init: GGML_CUDA_FORCE_MMQ:    no
ggml_cuda_init: GGML_CUDA_FORCE_CUBLAS: no
ggml_cuda_init: found 1 ROCm devices:
  Device 0: AMD Radeon Graphics, gfx906:sramecc-:xnack- (0x906), VMM: no, Wave Size: 64
| model                          |       size |     params | backend    | ngl |            test |                  t/s |
| ------------------------------ | ---------: | ---------: | ---------- | --: | --------------: | -------------------: |
| gpt-oss 20B Q4_K - Medium      |  11.04 GiB |    20.91 B | ROCm       |  99 |           pp512 |       1109.90 ± 7.26 |
| gpt-oss 20B Q4_K - Medium      |  11.04 GiB |    20.91 B | ROCm       |  99 |           tg128 |        106.59 ± 0.03 |
相关推荐
空白诗1 分钟前
CANN ops-nn 算子解读:AIGC 风格迁移中的 BatchNorm 与 InstanceNorm 实现
人工智能·ai
新芒1 分钟前
暖通行业两位数下滑,未来靠什么赢?
大数据·人工智能
weixin_446260859 分钟前
掌握 Claude Code Hooks:让 AI 变得更聪明!
人工智能
小白|11 分钟前
CANN性能调优实战:从Profiling到极致优化的完整方案
人工智能
哈__12 分钟前
CANN加速图神经网络GNN推理:消息传递与聚合优化
人工智能·深度学习·神经网络
渣渣苏12 分钟前
Langchain实战快速入门
人工智能·python·langchain
七月稻草人13 分钟前
CANN 生态下 ops-nn:AIGC 模型的神经网络计算基石
人工智能·神经网络·aigc·cann
User_芊芊君子14 分钟前
CANN_MetaDef图定义框架全解析为AI模型构建灵活高效的计算图表示
人工智能·深度学习·神经网络
I'mChloe15 分钟前
CANN GE 深度技术剖析:图优化管线、Stream 调度与离线模型生成机制
人工智能
凯子坚持 c16 分钟前
CANN 生态全景:`cann-toolkit` —— 一站式开发套件如何提升 AI 工程效率
人工智能