【笔记】用cursor手搓cursor(一)

最近OpenClaw如雨后春笋遍地开花,但是agent的质量实在是一言难尽,从软件从业者的角度评论,就是依托。但是它的出现让大模型的商家看到了爆款与变现广告渠道,所以不要太火。

十年前,当时DL刚出来的时候设想过一台VM就是一个智能cell,现在看来已经可以实现了。十年后的展望继续写在这里,因为symbolic方法已经被neural network取(吊)代(打),所以大家都在使用神经网络方法------等到大家发现神经网络反哺回symbolic的时候,为了消除幻觉和各种prompt硬塞导致的效率降低,我们还会回到symbolic的传统方法。现在只是神经网络可以当后台帮助机器学习,形成symbolic网络,当symbolic被neural network补充完整,之后必定要再回归传统方法。

基于以上个人观点,开始思考如何让现在的LLM和我一起学习新知识。比如最近对古文还是相当感兴趣的,对医书学习的需求也逐渐增多。从使用超级模型来说,我们看到LLM明显的短板是context始终不够。比如让cursor写一遍复杂系统的部署脚本,第一遍飞快。当让它重新重构一遍,它就会丢掉很多功能,你甚至需要告诉它移动代码的时候禁止使用生成,要写一个ast弄清楚所有函数的行数,然后直接脚本移动才能有一些保真。所以不管多大的LLM,最终我们还是要处理context engineering的问题。然后也准备部署32B或者9B模型进行家用智能中心改造了,所以它们也更需要context engineering。

而最近每个月cursor的免费用量太多了,开始研究如何手搓一个cursor出来,或者说并不局限于coding的generic agent。

上一篇我们分享了一个白(免)P(费)使用大模型的方法,但是发现国内的免费web界面使用,无论是qwen还是deepseek或者其他大模型,都不能很好完成真正的任务,和国外的模型差距相当明显。比如我们测试看bug,直接把开始skill和系统描述加上bug描述全部扔给大模型,让它给出一步一步下载log找出root cause,qwen一开始还可以,到之后几轮以后就开始卡机;像deepseek、glm、minmax等干脆就error了。而gemini能扛十几轮。当然,这里我们指白P,所以也不用指望国内大模型的质量了。

所以这次cursor写cursor的重点是使用小模型。mac pro m4 48GB内存已经可以流畅使用32B了,windows 3090也能流畅运行9B,所以我们得从这些模型入手,开始探索持续学习和上下文工程。思路是先写一个和openclaw差不多的(不用参考,直接脑补大模型就能自己写好的版本)------分解输入成任务,然后对于每个任务逐步运行,之后再进行完成检测,形成agent loop。

自动写agent的时候,特别喜欢让模型生成json结构。这是一个严重的误区。当json里套有多个 " 的时候就是模型的噩梦,这样根本生成不好shell command。所以在agent和LLM进行tool run的protocol的时候一定不是用json,尤其对小模型,大模型其实都不是100%稳定。所以让cursor自己写一遍,然后再更正一下protocol,基本的看bug流程就不用愁了,直接skill放一个文件夹,然后用 / 读取丢给大模型,再照着返回运行command或者ssh就好了。

初步的框架有了,现在我们就要开始细化各个步骤。首先cloud大模型、32B模型和9B模型的能力是不同的,我们需要先进行一个预判断,对于用户选择的模型用一些预先的测试,看看需要用什么样的策略进行context拆分。对于小模型,第一个改进版本就是:对于用户输入,我们先对code block进行折叠变成reference,然后对于引用文字也进行折叠,之后用到再attach。然后使用planner进行任务分解,得到任务列表。每个任务中,开始attach需要的skill,比如写代码先要创建文件夹,那么就会关联shell使用的skill;如果是生成代码,就会关联file读写的skill。让skill按需加载。之后让模型推动任务进程,并在每次要结束的时候自我检查一遍任务是否都完成了。最终整体任务也要检查一遍是否真的完成了target,如果没有,继续loop,直到完成或达到最大round。

后面还有不少问题要解决。当时设想的是,如何教会模型一个全新的编程语言,我感觉是要完全退化到symbolic的过程的,中间还要处理生成template和belief的问题,最后分层生成代码。然后整个架构还需要使用黑板架构。容我再仔细思考思考,等下一篇再跟进。

至少,现在对于cloud模型,agent能实现简单cursor功能了;对于小模型,可以实现非常简单的一些步骤,至少写hello world和makefile运行还是没问题的。但是追问写出来的文件有几个函数的时候,小模型还是不能很好使用grep,需要一些正确的用户提示才能完成,这个应该就是knowledge gap需要再下一次迭代完善的。

相关推荐
十铭忘9 分钟前
infoGCN++——尝试训练
人工智能
传说故事25 分钟前
【论文阅读】DreamDojo: A Generalist Robot World Model from Large-Scale Human Videos
论文阅读·人工智能·具身智能
李昊哲小课26 分钟前
LLM Wiki - 本地知识库管理系统
人工智能·本地知识库·llm wiki
水如烟28 分钟前
孤能子视角:跨域联接之示例,观察符投射
人工智能
思绪无限33 分钟前
YOLOv5至YOLOv12升级:金属锈蚀检测系统的设计与实现(完整代码+界面+数据集项目)
人工智能·python·深度学习·目标检测·计算机视觉·yolov12
小追兵36 分钟前
Claude Code API 中转站定价太乱,我做了个在线比价工具
人工智能·claude
The Chosen One98536 分钟前
计算机知识点的理解开悟后的分享(一)
笔记
北京软秦科技有限公司40 分钟前
一份报告为何总被退回?IACheck结合AI报告审核给防静电地板检测合规性“补漏洞”
人工智能
Agent产品评测局1 小时前
如何搭建一个药品市场价格监控智能体来实现100%价格一致性? —— 2026全渠道价格均衡化架构实战指南
人工智能·ai·chatgpt·架构
每日综合1 小时前
多元产业赋能数字未来:大洋集团全面进军教育、游戏与大健康赛道
人工智能·游戏