【笔记】用cursor手搓cursor（六）deepseek v4

这个月开始各种尝试，让gemini、claude、glm写了各种版本的agent，它们始终对小模型束手无策。我发现根源是很难掌控一些细粒度的推理，比如什么时候该做什么是对的。

先尝试了最简单的agent，它可以连接gemini的网页版，进行大量长程运行。然后尝试了cllama，让request变成中转站，观察各种agent在运行的时候需要哪些过程------基本都是以LLM为重心。当然也接触了最终形态就是neural-symbolic系统，这个学界也在研究。为了减少幻觉，如何符号化过程。这个涉及元学习的过程。其实自从claude code等改进之后，sub agent解决了context tree继承，让agent运行改善了不少，只要你定义好过程，大模型都能好好完成任务。像qwen 35B/27B即使给了过程，在长程运行上确实差不少。

现在的想法是让它先猜一个过程，然后经过一定模拟，最后确认一条可行通路。这个过程已经实现了一部分，比如让glm和gemini同时写一下使用v8/jsc的sandbox，然后用go写一些native代码，这样读写文件，访问网页等都可以包装成一个一个api，可以外部控制request权限；让模型不停写js代码，运行

，然后感知世界，再反思，像voyager一样不停玩minecraft然后成专家。这条路还需要一些沉淀。主要是belief系统的更新本身比较复杂，比如信息量大以后，如何处理矛盾，如何辨识哪些应该是全局的，哪些是局部的，js snadbox的snapshot能回滚然后继续从某个状态开始么，上下文如何拼接如何最小化取到足够的信息。

最近尝试了m5 128GB，发现deepseek v4真香。antirez在hugging face（国内就hf-mirror就可以了，主要是hugging face科学接入一下然后断开科学速度能达到25MBps速度啊...）上放出了自己的混合压缩模型，就是2bit-4bit量化，让模型大小变成大概90GB，这和qwen3.5 122B fp4的90B相当了，而且这个模型的context最大可是1M。只要下载antirez的ds4，然后跑起这个模型。比如我让它把倪海夏先生的中医学黄帝内经讲座视频用whsiper直接转成文本，然后切割成30个文件，配合claude code，它运行了3个小时，把整个视频的所有内容总结成了llm wiki，真的是很不错的。为了减少ssd读写，创建了一个8GB的Ramdisk给ds4当kv，基本上内存125GB active；在没有优化的情况下，prefill大概200tps，生成25tps。看来目前更顺手的模型大小是120B左右，改天尝试下qwen3.5 122B fp4 mtp版本，看看速度如何。

当然，不能忘了本心是什么。neural symbolic是最终目标。还是得再仔细琢磨下这个拼图怎么拼更好。