本地ollama大模型速度慢的优化

我直接给你最致命、最有效的结论

你现在这个速度(38秒 130 tokens)= 完全没用到GPU,全靠CPU硬跑!

4060 8GB 正常应该是 30~50 tokens/秒 ,你现在只有 3~4 tokens/秒,差了10倍!


一、为什么这么卡?

你用的是:

复制代码
qwen2.5:latest

这个是 FP16 原版模型 = 13GB+

你的 4060 只有 8GB 显存装不下 → 全部丢给CPU → 巨卡


二、1 分钟立刻提速 10 倍(直接复制命令)

1. 换 4bit 量化模型(必须)

bash 复制代码
ollama pull qwen2.5:7b-q4_K_M

2. 强制 Ollama 用满 GPU

Windows PowerShell 执行:

powershell 复制代码
$env:OLLAMA_NUM_GPU=999
$env:OLLAMA_GPU_LAYERS=35
$env:OLLAMA_KEEP_ALIVE=-1

3. 重启服务

powershell 复制代码
pkill ollama
ollama serve

4. 测试速度

bash 复制代码
ollama run qwen2.5:7b-q4_K_M "你好"

正常结果:

  • 响应:1秒内
  • 速度:30~45 tokens/秒

三、你 API 调用必须改的模型名

不要用:

复制代码
qwen2.5:latest

要用:

复制代码
qwen2.5:7b-q4_K_M

四、我给你最终最优配置(4060 8GB 专用)

python 复制代码
from langchain_ollama import ChatOllama

llm = ChatOllama(
    model="qwen2.5:7b-q4_K_M",   # 必改
    num_ctx=2048,                 # 必小
    num_gpu=35,                   # 必开
    temperature=0.7
)

五、改完后预期速度

你现在:
38秒 = 130 tokens

改完后:
3~4秒 = 130 tokens
直接快 10 倍!


相关推荐
weelinking1 小时前
【产品】12_接入数据库——让数据永久保存
jvm·数据库·python·react.js·数据挖掘·前端框架·产品经理
程序大视界2 小时前
【Python系列课程】Python正则表达式(下):环视、命名分组与日志实战
开发语言·python·正则表达式
TickDB2 小时前
美股行情 API 接入避坑:REST 快照、WebSocket 推送、盘前盘后数据的边界
人工智能·python·websocket·行情数据 api
枫叶v.2 小时前
Agent 分层存储架构设计:从记忆方法到中间件选型
开发语言·python
水兵没月3 小时前
逆向实战小记——某ToB商城网站分析学习
python·网络爬虫
程序员小远3 小时前
Python自动化测试框架及工具详解
自动化测试·软件测试·python·测试工具·职场和发展·测试用例·接口测试
sleven fung4 小时前
MinerU与BabelDOC与KTransformers与OpenAI API库
开发语言·python·ai·langchain
小毛驴8504 小时前
spring-boot-maven-plugin,maven-compiler-plugin 功能对比
java·python·maven
萤萤七悬4 小时前
【Python笔记】AI帮实现CLI工具-使用argparse.ArgumentParser接收命令参数
开发语言·笔记·python
郑洁文5 小时前
基于Python的Web命令执行漏洞自动化检测系统
前端·python·网络安全·自动化