使用llama.cpp在gpu和cpu上运行deepseek-r1 7b的性能对比

使用deepseek-r1 7b模型的q5km量化版本进行测试, gpu上的token解码速度是cpu的近8倍.

测试环境: ubuntu22.04 x86+llama.cpp

cpu intel 10750h4.41 tokens / s

|------------------------|----------|--------|---------|---------|-------|--------------|
| model | size | params | backend | threads | test | t/s |
| qwen2 7B Q5_K - Medium | 5.07 GiB | 7.62 B | CPU | 6 | pp512 | 15.70 ± 0.40 |
| qwen2 7B Q5_K - Medium | 5.07 GiB | 7.62 B | CPU | 6 | tg128 | 4.41 ± 0.03 |

使用-t 12扩展到12线程,速度也没有明显变化.

gpu nvidia 1660, 生成速度36 tokens / s.

|------------------------|----------|--------|---------|-----|-------|---------------|
| model | size | params | backend | ngl | test | t/s |
| qwen2 7B Q5_K - Medium | 5.07 GiB | 7.62 B | CUDA | 30 | pp512 | 164.55 ± 0.03 |
| qwen2 7B Q5_K - Medium | 5.07 GiB | 7.62 B | CUDA | 30 | tg128 | 36.38 ± 0.02 |

相关推荐
求职小程序华东同舟求职4 分钟前
龙旗科技社招校招入职测评25年北森笔试测评题库答题攻略
大数据·人工智能·科技
李元豪12 分钟前
【行云流水ai笔记】粗粒度控制:推荐CTRL、GeDi 细粒度/多属性控制:推荐TOLE、GPT-4RL
人工智能·笔记
机器学习之心16 分钟前
小波增强型KAN网络 + SHAP可解释性分析(Pytorch实现)
人工智能·pytorch·python·kan网络
聚客AI17 分钟前
📚LangChain与LlamaIndex深度整合:企业级树状数据RAG实战指南
人工智能·langchain·llm
程序员NEO29 分钟前
精控Spring AI日志
人工智能·后端
伪_装31 分钟前
上下文工程指南
人工智能·prompt·agent·n8n
普通程序员1 小时前
Gemini CLI 新手安装与使用指南
前端·人工智能·后端
视觉语言导航1 小时前
ICCV-2025 | 复杂场景的精准可控生成新突破!基于场景图的可控 3D 户外场景生成
人工智能·深度学习·具身智能
whaosoft-1431 小时前
51c自动驾驶~合集6
人工智能
tonngw1 小时前
Manus AI与多语言手写识别
人工智能