【2026】记录在windows编译llama.cpp步骤,AMD CPU本地部署千问3.5本地大模型,内存占用低

前言

我的电脑是AMD的+32G内存,没有GPU ,偏要玩一玩千问3.5本地大语言模型 ,github上下载的llama安装包,无法使用,只有自己编译试试了。注意我是编译CPU版本的,你有GPU这篇别看了。

以下是我的CPU型号:

1. 下载CMAKE

官网下载地址

或者下载我上传的,注意这是64位

链接:https://pan.quark.cn/s/57d6d1f65309

提取码:cYQk

2. 下载VS2022

VS2022官网下载地址

或者下载我上传的

链接:https://pan.quark.cn/s/57d6d1f65309

提取码:cYQk

勾上这个安装就行

安装后重启电脑

3. 下载大语言模型Qwen3.5-0.8(可选)

我垃圾电脑CPU选择0.8B量化小模型试试,你可以选择别的大一点的模型,也可以选择0.8B的其他量化版本
Qwen3.5-0.8B官网下载地址

或者下载我上传的

链接:https://pan.quark.cn/s/57d6d1f65309

提取码:cYQk

4. 拉取llama代码&编译

打开开始菜单,找到vs2022的专用powershell,单击打开

执行如下命令,注意我是编译CPU版本的,你有GPU这篇别看了

bash 复制代码
git clone git clone https://github.com/ggml-org/llama.cpp.git --depth=1
cd llama.cpp
mkdir build
cd build
cmake .. -G "Visual Studio 17 2022" -A x64 -DLLAMA_CURL=OFF
cmake --build . --config Release

编译完后进入目录

bash 复制代码
cd bin
cd Relase
ls

执行

bash 复制代码
llama-cli --help

可以看到打印就算是安装成功了

跑Qwen3.5-0.8B试试

bash 复制代码
 .\llama-cli.exe -m 你的路径\Qwen3.5-0.8B-Q4_K_M.gguf  -c 4096

-c 4096代表4k上下文,千问3.5-0.8B最大是支持256k,改成

bash 复制代码
 .\llama-cli.exe -m D:\model\Qwen3.5-0.8B-Q4_K_M.gguf  -c 262144

实测跑起来了速度还行,37 token / s

内存使用情况,还不错内存只用了12G左右,CPU用了70%。

相关推荐
qq_3692243312 天前
Windows全系通用!ntdll.dll文件丢失、报错、闪退问题的完整排查与修复教程
windows·dll·dll修复·dll丢失·dll错误
阿米亚波13 天前
【Windows】QEMU 启动 openEuler aarch64/arm64 架构系统 + 离线软件源
linux·windows·经验分享·笔记·架构·arm
caimouse13 天前
Reactos 第 10 章 网络操作 — 10.3.1 NIC驱动
网络·windows
初圣魔门首席弟子13 天前
Node.js 详细介绍(知识库版)
windows·qt·node.js·知识库
CHENG-JustDoIt13 天前
AI工具 | 爆火开源项目Odysseus AI 工作台:从项目介绍、部署情况及其使用等多方位分析指南(含详细步骤)
大数据·人工智能·windows·python·ai·开源·github
kingbal13 天前
Windows:flutter环境搭建
windows·flutter
未若君雅裁13 天前
Python 数据容器详解,list、tuple、str、set、dict 到底怎么选
windows·python·list
CodeKwang13 天前
Windows 环境 OCCT 8.0 编译构建及与 Qt6 项目集成
windows·qt·opencascade
我是伪码农13 天前
小兔鲜1-25
linux·服务器·windows
vx-Biye_Design13 天前
springboot安阳地区研学旅游服务小程序-计算机毕业设计源码12785
java·vue.js·windows·spring boot·tomcat·maven·mybatis