使用llama.cpp在gpu和cpu上运行deepseek-r1 7b的性能对比

使用deepseek-r1 7b模型的q5km量化版本进行测试, gpu上的token解码速度是cpu的近8倍.

测试环境: ubuntu22.04 x86+llama.cpp

cpu intel 10750h4.41 tokens / s

|------------------------|----------|--------|---------|---------|-------|--------------|
| model | size | params | backend | threads | test | t/s |
| qwen2 7B Q5_K - Medium | 5.07 GiB | 7.62 B | CPU | 6 | pp512 | 15.70 ± 0.40 |
| qwen2 7B Q5_K - Medium | 5.07 GiB | 7.62 B | CPU | 6 | tg128 | 4.41 ± 0.03 |

使用-t 12扩展到12线程,速度也没有明显变化.

gpu nvidia 1660, 生成速度36 tokens / s.

|------------------------|----------|--------|---------|-----|-------|---------------|
| model | size | params | backend | ngl | test | t/s |
| qwen2 7B Q5_K - Medium | 5.07 GiB | 7.62 B | CUDA | 30 | pp512 | 164.55 ± 0.03 |
| qwen2 7B Q5_K - Medium | 5.07 GiB | 7.62 B | CUDA | 30 | tg128 | 36.38 ± 0.02 |

相关推荐
hello_ejb32 小时前
聊聊Spring AI Alibaba的SentenceSplitter
人工智能·python·spring
摸鱼仙人~4 小时前
机器学习常用评价指标
人工智能·机器学习
一点.点5 小时前
WiseAD:基于视觉-语言模型的知识增强型端到端自动驾驶——论文阅读
人工智能·语言模型·自动驾驶
fanstuck6 小时前
从知识图谱到精准决策:基于MCP的招投标货物比对溯源系统实践
人工智能·知识图谱
dqsh066 小时前
树莓派5+Ubuntu24.04 LTS串口通信 保姆级教程
人工智能·python·物联网·ubuntu·机器人
打小就很皮...7 小时前
编写大模型Prompt提示词方法
人工智能·语言模型·prompt
Aliano2177 小时前
Prompt(提示词)工程师,“跟AI聊天”
人工智能·prompt
weixin_445238128 小时前
第R8周:RNN实现阿尔兹海默病诊断(pytorch)
人工智能·pytorch·rnn
KingDol_MIni8 小时前
ResNet残差神经网络的模型结构定义(pytorch实现)
人工智能·pytorch·神经网络
新加坡内哥谈技术9 小时前
亚马逊推出新型仓储机器人 Vulcan:具备“触觉”但不会取代人类工人
人工智能