前言
不用敲代码不用打指令不用Linux不用虚拟机,就在Windows上,轻薄本的AMD核显也能跑端侧deepseek-R1。
先上效果图:(端侧deepseek-R1 8b用Java写冒泡排序)
本文面向Windows平台 win10/win11,只讲A卡的如何运行ollama,不教ollama基本用法
案例是7840HS的780M核显 代号是gfx1103,其他A卡步骤大同小异
如果你显卡跟我一样就无脑照抄即可,如果是其他A卡那就带着脑子抄
操作步骤
- 需要这个安装特别版的ollama,不要从ollama官网下载
github.com/likelovewan...
以0.5.9为例 github.com/likelovewan... 下载OllamaSetup.exe,双击安装,然后右下角托盘右键退出
2.覆盖文件
下载ollama-windows-amd64.7z
,解压
桌面ollama图标右键 -> 属性,打开文件所在位置,跳转到主程序目录,用压缩包里的ollama.exe替换原本的ollama主程序
把压缩包里的libs\ollama目录里的所有内容放到C:\Users[用户名]\AppData\Local\Programs\Ollama\lib\ollama,覆盖原文件
3.下载安装HIP,注意版本要和ollama需要的版本一致。例如0.5.9版本的ollama-for-AMD在发布页写了需要6.1.2版本的ROCm或者5.7版本的ROCm,此处下载6.1.2版本 www.amd.com/en/develope...
4.(重要)更新显卡驱动
A卡驱动更新到25.1.1,在这下www.amd.com/en/resource...
下载以后双击打开安装驱动,然后重启电脑
然后就可以下载deepseek-R1量化模型,装个ChatBox开始玩了。这个操作现在全网都是教程就不再赘述了。
常见问题
no compatible GPUs were discovered
启动的时候报这个,是因为没有识别到GPU,会以CPU模式启动,更新显卡驱动然后重启电脑。 如果正常运行在GPU模式的话会显示显卡的名字,像下图这样:
llama runner process has terminated: error loading model
加载模型的时候报这个,是因为显存爆了,去BIOS把显存开到最大,已经最大了就换个小点的量化模型。
也可以用CPU模式强行加载,但速度会特别特别慢。如果想用CPU模式加载,直接下载官网的ollama即可。
其他问题
如果报其他的错误,回到github.com/likelovewan... 的发布页看看作者写的内容,或者参考原作者在B站发的专栏文章www.bilibili.com/opus/923618...
780M和其他A卡步骤不一样,所以我跳过了一些步骤,如果你报错了就把这些步骤加上。
记得要重启ollama程序才能生效,需要手动去任务管理器把ollama进程杀掉。
参考资料
wjd8.cn/archives/we...
post.smzdm.com/p/aqqx85v7/
www.bilibili.com/opus/923618...
成功了记得去给项目原作者点个Star点个赞