个人电脑玩AI-04让5060 Ti给你打工——本地claude code编程助理

by 雪隐_上班了 from juejin.cn/user/143341...

欢迎分享与聚合,全文转载就不必了,尊重版权,圈子就这么大,若急用可联系授权。


写在前面:为什么要折腾这件事?

事情是这样的。

我手头有一台 5060Ti 16G(这名字每次打出来都像显卡厂商喝多了随便起的),平时除了打游戏,总得让它干点正事吧?

于是我把目光投向了 Google 家新出的 Gemma-4-26b-A4B-QAT ------

一个 260 亿参数的量化模型,听起来就很能打。

再加上最近 Claude Code 火得不行,但 API 调用费钱包疼。

那能不能把 Claude Code 背后的模型换成我本地的开源模型

说干就干。


1. 主角登场:google/gemma-4-26b-a4b-qat

先简单介绍一下这位"选手":

  • 260 亿参数,但用了 A4B 架构(MoE 的一种),实际激活参数没那么多,省显存
  • QAT(量化感知训练):不是训练完再砍精度,而是训练时就做好了量化准备,效果更好
  • 来自 Google:Gemma 系列是 Google 的开源模型,血统纯正

说白了,这是一个能在消费级显卡上跑起来的、接近 GPT-4 级别智商的模型。

当然,前提是你要有 16G 显存------正好我有一张。


2. 安装:用 LM Studio 轻松搞定

过程不复杂,就是点几下鼠标的事。

首先去 LM Studio 下载桌面版,安装后打开。

在搜索框里输入 google/gemma-4-26b-a4b-qat,点击下载,等它跑完。

或者你也可以从 HuggingFace 手动下载模型文件,放到 LM Studio 的模型目录里(一般是 ~/.cache/lmstudio/models)。

然后加载模型,记得把上下文长度(Context Length)拉到 200K (后面会讲为啥)。

就这么简单,别在深夜操作,不然下载到一半你睡着了,醒来发现下完了但你忘了自己要干嘛

对了,LM Studio 会帮你搞定依赖和 GPU 加速,省心得很。


3. 设置上下文长度:200K,不是 20K,是 200K!

为什么要设 200,000 tokens(200K)

因为像 Claude Code、Cursor 这类 AI 编程助手,内部塞了一大堆系统提示词(system prompts) ,差不多 70K 左右。

如果上下文窗口不够大,这些内置提示词就把窗口撑爆了,你连"帮我写个 hello world"都发不出去。

而且 Claude Code 这类工具不仅仅要"文本能力",它还需要很强的 Agent 能力 ------

也就是说,模型得会自己决定调用什么工具、读什么文件、执行什么命令

所以 200K 不是炫技,是刚需


4. 安装 ccswitch:一键偷梁换柱

ccswitch 是一个神奇的工具,它的作用就是------

让 Claude Code 以为自己在调用 Claude API,实际上背后跑的是你本地的模型。 APIkey 随便写

简单说就是:

Claude Code:"我要调用 Claude 3.5!"

ccswitch:"好的好的,请稍等......"(转头把请求发给了你的 Gemma-4)

Claude Code:"嗯,回答得不错,继续工作。"

安装过程不复杂,git clone 下来,装依赖,配置一下环境变量就行。

如果你连这都搞不定......那这篇文章可能不适合你(手动狗头)。


5. 切换:把 Claude Code 的"灵魂"换成 Gemma-4

配置完 ccswitch 之后,你的 Claude Code 就"变心"了。

表面上它还是那个熟悉的 Claude Code 界面,实际上背后的模型已经换成了你本地的 Gemma-4-26b

这时候你就可以:

  • 不花一分 API 钱
  • 在断网环境下继续写代码
  • 不怕敏感代码被上传到云端

当然,代价也是有的------速度慢一点,智商低一点

后面会细说。


6. 实战检验:让它写个贪吃蛇

光说不练假把式。

我直接给 Claude Code(背后其实是 Gemma-4)下了一个指令:

"帮我写一个贪吃蛇小游戏,HTML + JavaScript,能跑就行。"

一顿折腾之后,它居然真的写出来了

当然,第一次跑的时候有点小 bug------

蛇不吃食物,或者吃了不长大,或者直接穿墙。

没关系,把报错贴给它,让它自己改。

来回两三次,居然真的能玩了。

本地模型能写到这个程度,说实话我是有点意外的。


7. 资源占用:16G 显存,一滴不剩

来看看跑起来之后的情况:

  • 16G 显存,全满
  • 1.5G 共享内存也在用

基本上,这张 5060Ti 算是被榨干了

速度呢?

大概 20 tokens / 秒

什么概念?

你打一行字,它给你蹦一个词。

能忍,但绝对算不上"流畅"。

如果你想让它帮你写一个完整项目,建议先去泡杯茶,再回来。


写在最后:折腾的意义是什么?

你可能会问:

"开源量化模型 + 本地部署,又慢又蠢,图啥?"

第一,有些地方真的没网

不是每个人都生活在 5G 全覆盖的大城市。

有些开发环境就是纯内网 ,连不上任何云 API。

这时候,本地模型就是唯一的救命稻草

第二,有些代码真的不能上传

写金融系统、内部工具、涉密项目的时候,

你敢把代码贴给云端 API?

反正我不敢。

本地模型虽然笨一点,但至少你的代码不会出现在别人的训练数据里

第三,慢和蠢,有时反而是好事

太依赖大模型,是一把双刃剑。

如果你用 GPT-4 写代码,刷刷刷就出来了,你可能根本看不懂它在写什么

出了问题,你也不知道怎么改。

但本地模型不一样------它写得不快,偶尔还犯错,

你必须亲自读它的代码、理解它的逻辑、帮它 debug

这个过程中,你反而真正掌握了代码的每一个细节

这不是"退步",这是强制自己保持清醒


所以,我的结论很简单:

  • 如果你追求效率 + 质量,用云端 API,没毛病。
  • 如果你追求隐私 + 掌控 + 不花钱,本地部署(尤其是用 LM Studio 这种顺手工具),值得一试。

至于"慢"和"蠢"?

那是你学习路上最好的刹车片。


好了,折腾完了,我去写下一个项目了。

下次见(如果显卡没烧的话)。

相关推荐
洛宇1 小时前
再谈 AI 时代,程序员的失眠问题。
人工智能
AskHarries1 小时前
Browser Tool:网页打开、点击、输入、截图和验证
后端
百度Geek说1 小时前
harness-pilot 给代码库加一套"规则说明书"和"自动检查器"
人工智能
程序员cxuan1 小时前
分享一下我最近常用的 10 个 Codex 小技巧。
人工智能·后端·程序员
一线大码1 小时前
Smart-Doc 的简单使用
java·后端·restful
喵个咪2 小时前
技术复盘:基于 go-wind-cms 的官网+商城双业务渐进拆分实战
后端·架构·go
用户337922545682 小时前
基于 OKF + RAG 构建 Text2SQL 语义层:让 LLM 真正理解你的数据库
人工智能
把所有砖敲烂2 小时前
MiniMax M3 深度实测:单卡部署、代码生成与性能全解析
人工智能
ZengLiangYi2 小时前
批量导入 1000 条对话的性能优化实战
javascript·后端·架构