使用llama.cpp在gpu和cpu上运行deepseek-r1 7b的性能对比

使用deepseek-r1 7b模型的q5km量化版本进行测试, gpu上的token解码速度是cpu的近8倍.

测试环境: ubuntu22.04 x86+llama.cpp

cpu intel 10750h4.41 tokens / s

|------------------------|----------|--------|---------|---------|-------|--------------|
| model | size | params | backend | threads | test | t/s |
| qwen2 7B Q5_K - Medium | 5.07 GiB | 7.62 B | CPU | 6 | pp512 | 15.70 ± 0.40 |
| qwen2 7B Q5_K - Medium | 5.07 GiB | 7.62 B | CPU | 6 | tg128 | 4.41 ± 0.03 |

使用-t 12扩展到12线程,速度也没有明显变化.

gpu nvidia 1660, 生成速度36 tokens / s.

|------------------------|----------|--------|---------|-----|-------|---------------|
| model | size | params | backend | ngl | test | t/s |
| qwen2 7B Q5_K - Medium | 5.07 GiB | 7.62 B | CUDA | 30 | pp512 | 164.55 ± 0.03 |
| qwen2 7B Q5_K - Medium | 5.07 GiB | 7.62 B | CUDA | 30 | tg128 | 36.38 ± 0.02 |

相关推荐
网教盟人才服务平台11 小时前
第223期方班学术研讨厅成功举办
人工智能
lauo11 小时前
ibbot手机:从赛博攻防到Token经济的AI终端革命
人工智能·智能手机
私人珍藏库11 小时前
【Android】BotHub-多模型AI机器人聚合库-内置免费模型
android·人工智能·智能手机·app·工具·多功能
老马聊技术11 小时前
AI对话功能之SpringBoot整合Vue3
vue.js·人工智能·spring boot·后端
阿寻寻11 小时前
【人工智能学习260612-软件测试篇】小工具实现 [特殊字符] Prompt工程 + RAG思路 + API调用 + 自动化测试
人工智能·功能测试·学习·prompt
甲维斯11 小时前
测一波Kimi K2.7,消耗一周配额!
前端·人工智能·游戏开发
石山代码11 小时前
给照片装上 AI 引擎:ACDSee 2025 安装详细步骤
人工智能
chase_my_dream11 小时前
A-LOAM中scanRegistration.cpp详细讲解
c++·人工智能·自动驾驶
ai_xiaogui11 小时前
AI Starter全面开源在即!PanelAI测试版即将上线,客户端+后端全开源,本地AI一键部署神器
人工智能·panelai测试版上线·本地ai一键部署系统·客户端后端开源·ai starter全面开源·跨平台ai模型管理工具·ai starter开源
邵宇然11 小时前
Pin、Unpin 与 Tokio 异步运行时:自引用结构在异步环境中的内存安全保证
人工智能