使用llama.cpp在gpu和cpu上运行deepseek-r1 7b的性能对比

使用deepseek-r1 7b模型的q5km量化版本进行测试, gpu上的token解码速度是cpu的近8倍.

测试环境: ubuntu22.04 x86+llama.cpp

cpu intel 10750h4.41 tokens / s

|------------------------|----------|--------|---------|---------|-------|--------------|
| model | size | params | backend | threads | test | t/s |
| qwen2 7B Q5_K - Medium | 5.07 GiB | 7.62 B | CPU | 6 | pp512 | 15.70 ± 0.40 |
| qwen2 7B Q5_K - Medium | 5.07 GiB | 7.62 B | CPU | 6 | tg128 | 4.41 ± 0.03 |

使用-t 12扩展到12线程,速度也没有明显变化.

gpu nvidia 1660, 生成速度36 tokens / s.

|------------------------|----------|--------|---------|-----|-------|---------------|
| model | size | params | backend | ngl | test | t/s |
| qwen2 7B Q5_K - Medium | 5.07 GiB | 7.62 B | CUDA | 30 | pp512 | 164.55 ± 0.03 |
| qwen2 7B Q5_K - Medium | 5.07 GiB | 7.62 B | CUDA | 30 | tg128 | 36.38 ± 0.02 |

相关推荐
caiyueloveclamp10 小时前
【功能介绍05】ChatPPT好不好用?如何用?用户操作手册来啦!——【AI辅写+分享篇】
人工智能·powerpoint·ai生成ppt·aippt·免费aippt
Aileen_0v010 小时前
【Gemini3.0的国内use教程】
android·人工智能·算法·开源·mariadb
xiaogutou112110 小时前
5款软件,让歌唱比赛海报设计更简单
人工智能
后端小张10 小时前
智眼法盾:基于Rokid AR眼镜的合同条款智能审查系统开发全解析
人工智能·目标检测·计算机视觉·ai·语言模型·ar·硬件架构
dalalajjl10 小时前
每个Python开发者都应该试试知道创宇AiPy!工作效率提升500%的秘密武器
大数据·人工智能
wheeldown10 小时前
【Rokid+CXR-M】基于Rokid CXR-M SDK的博物馆AR导览系统开发全解析
c++·人工智能·ar
爱看科技10 小时前
AI智能计算竞赛“战火重燃”,谷歌/高通/微美全息构建AI全栈算力开启巅峰角逐新篇
人工智能
IT_陈寒10 小时前
Redis性能翻倍的5个冷门技巧,90%开发者都不知道第3个!
前端·人工智能·后端
晨非辰10 小时前
C++ 波澜壮阔 40 年:从基础I/O到函数重载与引用的完整构建
运维·c++·人工智能·后端·python·深度学习·c++40周年
鼎道开发者联盟10 小时前
智能原生操作系统畅想:人智共生新时代的基石
人工智能·机器学习·自然语言处理