【笔记】用cursor手搓cursor（一）

最近OpenClaw如雨后春笋遍地开花，但是agent的质量实在是一言难尽，从软件从业者的角度评论，就是依托。但是它的出现让大模型的商家看到了爆款与变现广告渠道，所以不要太火。

十年前，当时DL刚出来的时候设想过一台VM就是一个智能cell，现在看来已经可以实现了。十年后的展望继续写在这里，因为symbolic方法已经被neural network取（吊）代（打），所以大家都在使用神经网络方法------等到大家发现神经网络反哺回symbolic的时候，为了消除幻觉和各种prompt硬塞导致的效率降低，我们还会回到symbolic的传统方法。现在只是神经网络可以当后台帮助机器学习，形成symbolic网络，当symbolic被neural network补充完整，之后必定要再回归传统方法。

基于以上个人观点，开始思考如何让现在的LLM和我一起学习新知识。比如最近对古文还是相当感兴趣的，对医书学习的需求也逐渐增多。从使用超级模型来说，我们看到LLM明显的短板是context始终不够。比如让cursor写一遍复杂系统的部署脚本，第一遍飞快。当让它重新重构一遍，它就会丢掉很多功能，你甚至需要告诉它移动代码的时候禁止使用生成，要写一个ast弄清楚所有函数的行数，然后直接脚本移动才能有一些保真。所以不管多大的LLM，最终我们还是要处理context engineering的问题。然后也准备部署32B或者9B模型进行家用智能中心改造了，所以它们也更需要context engineering。

而最近每个月cursor的免费用量太多了，开始研究如何手搓一个cursor出来，或者说并不局限于coding的generic agent。

上一篇我们分享了一个白（免）P（费）使用大模型的方法，但是发现国内的免费web界面使用，无论是qwen还是deepseek或者其他大模型，都不能很好完成真正的任务，和国外的模型差距相当明显。比如我们测试看bug，直接把开始skill和系统描述加上bug描述全部扔给大模型，让它给出一步一步下载log找出root cause，qwen一开始还可以，到之后几轮以后就开始卡机；像deepseek、glm、minmax等干脆就error了。而gemini能扛十几轮。当然，这里我们指白P，所以也不用指望国内大模型的质量了。

所以这次cursor写cursor的重点是使用小模型。mac pro m4 48GB内存已经可以流畅使用32B了，windows 3090也能流畅运行9B，所以我们得从这些模型入手，开始探索持续学习和上下文工程。思路是先写一个和openclaw差不多的（不用参考，直接脑补大模型就能自己写好的版本）------分解输入成任务，然后对于每个任务逐步运行，之后再进行完成检测，形成agent loop。

自动写agent的时候，特别喜欢让模型生成json结构。这是一个严重的误区。当json里套有多个 " 的时候就是模型的噩梦，这样根本生成不好shell command。所以在agent和LLM进行tool run的protocol的时候一定不是用json，尤其对小模型，大模型其实都不是100%稳定。所以让cursor自己写一遍，然后再更正一下protocol，基本的看bug流程就不用愁了，直接skill放一个文件夹，然后用 / 读取丢给大模型，再照着返回运行command或者ssh就好了。

初步的框架有了，现在我们就要开始细化各个步骤。首先cloud大模型、32B模型和9B模型的能力是不同的，我们需要先进行一个预判断，对于用户选择的模型用一些预先的测试，看看需要用什么样的策略进行context拆分。对于小模型，第一个改进版本就是：对于用户输入，我们先对code block进行折叠变成reference，然后对于引用文字也进行折叠，之后用到再attach。然后使用planner进行任务分解，得到任务列表。每个任务中，开始attach需要的skill，比如写代码先要创建文件夹，那么就会关联shell使用的skill；如果是生成代码，就会关联file读写的skill。让skill按需加载。之后让模型推动任务进程，并在每次要结束的时候自我检查一遍任务是否都完成了。最终整体任务也要检查一遍是否真的完成了target，如果没有，继续loop，直到完成或达到最大round。

后面还有不少问题要解决。当时设想的是，如何教会模型一个全新的编程语言，我感觉是要完全退化到symbolic的过程的，中间还要处理生成template和belief的问题，最后分层生成代码。然后整个架构还需要使用黑板架构。容我再仔细思考思考，等下一篇再跟进。

至少，现在对于cloud模型，agent能实现简单cursor功能了；对于小模型，可以实现非常简单的一些步骤，至少写hello world和makefile运行还是没问题的。但是追问写出来的文件有几个函数的时候，小模型还是不能很好使用grep，需要一些正确的用户提示才能完成，这个应该就是knowledge gap需要再下一次迭代完善的。