这个月开始各种尝试,让gemini、claude、glm写了各种版本的agent,它们始终对小模型束手无策。我发现根源是很难掌控一些细粒度的推理,比如什么时候该做什么是对的。
先尝试了最简单的agent,它可以连接gemini的网页版,进行大量长程运行。然后尝试了cllama,让request变成中转站,观察各种agent在运行的时候需要哪些过程------基本都是以LLM为重心。当然也接触了最终形态就是neural-symbolic系统,这个学界也在研究。为了减少幻觉,如何符号化过程。这个涉及元学习的过程。其实自从claude code等改进之后,sub agent解决了context tree继承,让agent运行改善了不少,只要你定义好过程,大模型都能好好完成任务。像qwen 35B/27B即使给了过程,在长程运行上确实差不少。
现在的想法是让它先猜一个过程,然后经过一定模拟,最后确认一条可行通路。这个过程已经实现了一部分,比如让glm和gemini同时写一下使用v8/jsc的sandbox,然后用go写一些native代码,这样读写文件,访问网页等都可以包装成一个一个api,可以外部控制request权限;让模型不停写js代码,运行
,然后感知世界,再反思,像voyager一样不停玩minecraft然后成专家。这条路还需要一些沉淀。主要是belief系统的更新本身比较复杂,比如信息量大以后,如何处理矛盾,如何辨识哪些应该是全局的,哪些是局部的,js snadbox的snapshot能回滚然后继续从某个状态开始么,上下文如何拼接如何最小化取到足够的信息。
最近尝试了m5 128GB,发现deepseek v4真香。antirez在hugging face(国内就hf-mirror就可以了,主要是hugging face科学接入一下然后断开科学速度能达到25MBps速度啊...)上放出了自己的混合压缩模型,就是2bit-4bit量化,让模型大小变成大概90GB,这和qwen3.5 122B fp4的90B相当了,而且这个模型的context最大可是1M。只要下载antirez的ds4,然后跑起这个模型。比如我让它把倪海夏先生的中医学黄帝内经讲座视频用whsiper直接转成文本,然后切割成30个文件,配合claude code,它运行了3个小时,把整个视频的所有内容总结成了llm wiki,真的是很不错的。为了减少ssd读写,创建了一个8GB的Ramdisk给ds4当kv,基本上内存125GB active;在没有优化的情况下,prefill大概200tps,生成25tps。看来目前更顺手的模型大小是120B左右,改天尝试下qwen3.5 122B fp4 mtp版本,看看速度如何。
当然,不能忘了本心是什么。neural symbolic是最终目标。还是得再仔细琢磨下这个拼图怎么拼更好。