使用llama.cpp在gpu和cpu上运行deepseek-r1 7b的性能对比

使用deepseek-r1 7b模型的q5km量化版本进行测试, gpu上的token解码速度是cpu的近8倍.

测试环境: ubuntu22.04 x86+llama.cpp

cpu intel 10750h4.41 tokens / s

|------------------------|----------|--------|---------|---------|-------|--------------|
| model | size | params | backend | threads | test | t/s |
| qwen2 7B Q5_K - Medium | 5.07 GiB | 7.62 B | CPU | 6 | pp512 | 15.70 ± 0.40 |
| qwen2 7B Q5_K - Medium | 5.07 GiB | 7.62 B | CPU | 6 | tg128 | 4.41 ± 0.03 |

使用-t 12扩展到12线程,速度也没有明显变化.

gpu nvidia 1660, 生成速度36 tokens / s.

|------------------------|----------|--------|---------|-----|-------|---------------|
| model | size | params | backend | ngl | test | t/s |
| qwen2 7B Q5_K - Medium | 5.07 GiB | 7.62 B | CUDA | 30 | pp512 | 164.55 ± 0.03 |
| qwen2 7B Q5_K - Medium | 5.07 GiB | 7.62 B | CUDA | 30 | tg128 | 36.38 ± 0.02 |

相关推荐
科技林总1 分钟前
逻辑回归:给不确定性划界的分类大师
人工智能
Shining_Jiang4 分钟前
打卡第44天:无人机数据集分类
人工智能·分类·数据挖掘
成都犀牛11 分钟前
LlamaIndex 学习笔记
人工智能·python·深度学习·神经网络·学习
Grey Zeng32 分钟前
《深度学习:基础与概念》第一章 学习笔记与思考
人工智能·深度学习·ai·读书笔记
亚图跨际41 分钟前
基于云计算的振动弦分析:谐波可视化与波动方程参数理解-AI云计算数值分析和代码验证
人工智能·云计算
亚图跨际44 分钟前
弹性梁:绘图、分析与可视化-AI云计算数值分析和代码验证
人工智能·云计算
bytebeats1 小时前
MCP 服务器与 FastAPI 的集成
人工智能·mcp
bubiyoushang8881 小时前
MATLAB实现图像纹理特征提取
人工智能·算法·matlab
万能程序员-传康Kk1 小时前
Monte Carlo衍生品定价(金融工程)
人工智能·金融
苏苏susuus1 小时前
深度学习:PyTorch张量基本运算、形状改变、索引操作、升维降维、维度转置、张量拼接
人工智能·pytorch·深度学习