Redis之父为DeepSeek V4 Flash打造的Mac本地推理工具ds4.c是个什么东东

1. 剧本开头:Redis之父从马桶上站起来,给AI修了一条专属高速

要说这年头谁还能一边蹲坑一边改变世界?那必须是 antirez------真名 Salvatore Sanfilippo,Redis 他亲爹,GitHub 上七万四千颗星的"内存数据库教父"。

别人上厕所刷短视频,他上厕所写代码。

不是开玩笑,是他老婆亲口认证:"Redis 前几年的大部分代码,都是他坐在马桶上,用一台 11 寸 MacBook Air 敲出来的。"

这画面感太强了:西西里岛的阳光照不进意大利老房的卫生间,但 MacBook 的背光映在他专注的脸上,手指在键盘上噼里啪啦,仿佛在给未来敲出一条数据高速公路。

更绝的是,他事后还坦然承认:"我真希望能说她错了......但她正好说得完全对。" 这哪是程序员?这是行为艺术家,只不过他的画布是 C 语言,颜料是 core dump。

既是编程大师也是小説家

antirez 向来信奉"小而美":Kilo 编辑器不到 1000 行 C;linenoise 是 readline 的极简替身;连科幻小说都自己写,2022 年出版《WOHPE》,讲 AI、气候危机和码农的终极浪漫。

他主页第一句话就透着一股子"老子不伺候"的清高:"我把大部分专业时间花在写代码和写小说上。" 没有"赋能",没有"闭环",只有纯粹的创造欲。

2020 年他离开 Redis 时说:"代码是一件制品,而不只是有用的工具。" 宁可被记住为"糟糕的艺术家",也不当"好程序员"------这话听着傲,但人家真做到了。

十五年过去,从 Redis 到 ds4.c,他还是那个偏执狂:讨厌抽象层堆叠,厌恶"粘合式编程",觉得现代软件"又复杂又无趣,失去了美感"。

从不缺席"先进"-永远在造极的男人

如今,这位马桶上的极客站起来了------不是从坑位上站起来,是从通用框架的泥潭里抽身,专门为 DeepSeek V4 Flash 在 Mac 上修了一条"专属高速"。

还是那股味儿:极简、精准、自成一体。连 README 都带着幽默毒舌:"软件都很烂......CPU 推理会崩内核,重启太麻烦,一点都不好玩。"

现在,他给 AI 修路,依然是坐在思想的马桶上,只不过这次,手里换成了 M3 Max。

2. ds4.c是个啥?------专为DeepSeek V4 Flash量身定制的Mac本地推理引擎

ds4.c 不是那种"啥模型都能塞进去跑一跑"的万能锅,它是一条只给 DeepSeek V4 Flash 开的 VIP 专属车道------没有收费站,没有匝道,连路标都刻着"V4 Flash Only"。

ds4.c简介

它不是 llama.cpp 的马甲,也不是 GGUF 加载器的缝合怪,压根不打算兼容 Llama、Qwen 或 Claude。它的世界里只有一个主角:DeepSeek V4 Flash。

整个项目用 C + Objective-C + Metal 纯手工打造,代码库干净得像刚擦过的 Mac 屏幕------C 占 55.4%,Objective-C 30.2%,Metal Shading Language 13.8%,连个 Python 脚本都不屑混进来。

无运行时、无框架依赖、无抽象层,更别说 Docker 或 npm 那套花里胡哨的依赖树了。你 clone 下来,make 一下,就能喂 prompt 给它吃。

专用定制框架-褒贬不一

它只认 Apple Silicon,因为全靠 Metal ------ 苹果自家的 GPU 编程接口,相当于 CUDA 在苹果生态里的亲儿子。NVIDIA 显卡?对不起,这条路没给你留出口。

目标极其明确:让一个 284B 参数的 MoE 模型,在 MacBook Pro 或 Mac Studio 上不只是"能跑",而是"丝滑到能写代码"。预填充干到 468 token/s,生成稳在 27 token/s,这速度在本地堪称离谱。

通用推理引擎为啥慢?因为要照顾一百种模型的脾气,加了一堆 if-else 和抽象接口,结果每条路都堵成早高峰。而 ds4 直接拆掉所有护栏,只为一辆车铺沥青------赌的就是 DeepSeek V4 Flash 这张牌。

它甚至自带 HTTP API,兼容 OpenAI 和 Anthropic 两套协议,tool calling 也焊死了,开箱就能接 coding agent。这不是组件拼装,是把整个本地推理链路当成一个完整产品来雕。

antirez 的哲学再次应验:少即是多,窄即是快。与其修一条通向全世界的烂路,不如为一个人挖一条穿山隧道------哪怕明天模型换代,今天也要跑出极限。

这种"单模型专用"策略,本质上是对本地推理体验的一次极致押注。antirez 深知,在 Apple Silicon 上榨干每一分算力的关键,不是通用性,而是对模型结构、量化方式与硬件特性的深度耦合。ds4.c 的每一个 Metal kernel 都只为 V4 Flash 的 MoE 架构调优,每一次内存访问都避开 macOS 的坑洼,连 KV 缓存落盘的哈希策略,都是为 coding agent 的长上下文场景量身定制。这条路注定狭窄,却也因此笔直如箭------没有兼容包袱,没有抽象损耗,只有从代码到硅片的最短路径。

3. 怎么做到这么快?三大黑科技揭秘

3.1 非对称量化:给MoE专家层装"ETC通道",其他车道保留高速限速

ds4.c没搞一刀切的2-bit暴力压缩,而是精准"瘦身"------只把MoE架构里最占地方的专家层(up/gate用IQ2_XXS,down用Q2_K)压到2-bit,相当于给高速公路上最堵的货车道装了ETC,秒过不排队。而共享专家、投影层、路由这些关键部件,统统保留Q8精度,稳如老狗。antirez直言:这可不是瞎压,coding agent实测能稳稳调工具,说明"省油不熄火"。

3.2 KV缓存落盘:服务区建"记忆仓库",长上下文秒级复活

普通推理引擎每次对话都从零开始跑prefill,好比每次进服务区都得重新办ETC卡。ds4.c反手就把KV缓存写进硬盘,key值用token序列的SHA1哈希一锁,下次来车只要前缀匹配,直接从"记忆仓库"调取状态,prefill环节当场跳过。这对动辄甩25K token初始prompt的Claude Code之类agent简直是神技------第一次跑完,后续会话秒进高速,连油门都不用踩。

3.3 双API兼容层:一个收费站,同时收OpenAI和Anthropic的币

别家本地引擎还得套中间件转协议,ds4.c直接在收费站顶上挂俩牌子:左边走/v1/chat/completions收OpenAI币,右边走/v1/messages收Anthropic币,tool calling逻辑也焊死适配。开Pi、opencode还是Claude Code?配置文件改两行就行,不用折腾代理、不用写胶水代码,堪称"API无感切换"。这不是兼容,这是把两个生态的入口焊进了同一个岗亭。

三招合璧,专车专用

非对称量化砍掉冗余算力开销,KV落盘消灭重复计算,双API打通主流agent生态------三条黑科技不是孤立功能,而是一套闭环体验。它们共同构成了一条只为DeepSeek V4 Flash服务的"智能高速":车(模型)是特制的,路(Metal kernel)是专属的,连服务区(缓存)和收费站(API)都按司机习惯定制。没有抽象层拖后腿,没有通用框架打补丁,每一纳秒都花在刀刃上。难怪M3 Ultra跑11709 token预填充能飙到468 token/s------这哪是本地推理,分明是Mac Silicon上的F1赛道。

4. 一个模型一个推理框架?本地推理的新范式正在诞生

"一模型一引擎":不是卷,是精准打击

ds4.c像一把手术刀,专切V4 Flash这块肉。Hacker News上热评炸锅:如果连GPU型号+模型结构都锁死,推理速度还能再榨30%?有人算账,去掉通用抽象层后,Metal kernel直接贴着MoE专家调参,省下的不仅是算力,还有工程师debug时掉的头发。

高回报背后是高风险押注

模型一迭代,专属引擎瞬间变电子墓碑

antirez自己都认:"ds4赌的是V4 Flash,但它可能明天就过时"

可128GB Mac用户不在乎------他们要的是现在就能在本地跑coding agent,不是等半年后的"通用方案"

全栈本地推理:新三位一体

antirez甩出新范式:

  • 专属HTTP推理引擎(ds4.c)
  • 针对该引擎定制的GGUF量化(非通用格式)
  • 与Pi/Claude Code等agent深度联调的验证套件

三者缺一不可,拼成开箱即用的"本地AI体验包",不再是七拼八凑的乐高玩具。

每辆车配专属赛道,修路师傅还得会写小说

这波操作把"本地推理"从工具升级成产品。未来或许真会出现:DeepSeek V5发布当天,社区立刻冒出ds5.c;Llama 4登场,llama4-metal紧随其后。赛道越修越窄,但车速越来越疯------只要你不介意,下一辆车可能没路可跑。

5. One More Thing:这代码是AI写的,但灵魂是人的

ds4.c 的 README 里藏着一句大实话:"本项目在 GPT-5.5 的强力辅助下开发。"

不是 AI 写的代码,是 antirez 自己写的;但写得更快、试得更狠------AI 当键盘侠,人类当主理人。

他明确划线:如果你排斥 AI 辅助编程,这软件不适合你。不道德绑架,不装清高,坦荡得像西西里海风。

这和他"马桶上写 Redis"的哲学一脉相承:工具只是工具,MacBook Air 是,GPT-5.5 也是。真正决定代码灵魂的,是坐在那儿的人。

CPU 推理会崩内核?他不骂苹果,只说"软件都很烂",然后笑嘻嘻甩锅给 macOS,顺手召唤勇士来修------这股痞气,AI 可学不会。

在抽象层叠满、胶水代码泛滥的今天,他偏要亲手抠 Metal kernel,用 C 语言一行行喂出推理速度。

AI 能生成 for 循环,但写不出"宁可被记住为糟糕艺术家"的执念。

所以别慌,AI 没抢走极客的马桶座。它只是递了卷更软的卫生纸------真正的灵感,还得靠人蹲出来。

相关推荐
Harvy_没救了2 小时前
【AI Agent】Win11 系统 DeepSeek-TUI 实施方案总结
github·ai agent·deepseek
AC赳赳老秦3 小时前
故障自愈实战:用 OpenClaw 实现服务器日志自动化分析、根因定位、解决方案自动生成
大数据·运维·服务器·自动化·github·deepseek·openclaw
昇腾CANN12 小时前
5月11日直播丨CANN算子挑战赛(江山赛区)赛题和评分规则解读
人工智能·昇腾·cann·deepseek
五行缺你9416 小时前
DeepSeek V4深度测评:MoE架构升级与Java开发实战指南
ai编程·deepseek
AC赳赳老秦17 小时前
可视化方案提效:用 OpenClaw 对接 XMind/ProcessOn,自动生成流程图、架构图、工作脑图
人工智能·深度学习·caffe·xmind·processon·deepseek·openclaw
树獭非懒21 小时前
Claude Code 完全入门指南:让你的 AI 从"会说"到"会做"
人工智能·程序员·llm
清泉Kikyō1 天前
Mac使用vscode claude 插件使用 deepseek flash
macos·deepseek
sg_knight1 天前
第一次用 OpenClaw,我让它 3 分钟写了个小工具
算法·llm·agent·ai编程·openclaw
赵庆明老师1 天前
安装ClaudeCode,接入DeepSeekV4
ai·deepseek·claude code