【笔记】用cursor手搓cursor(六)deepseek v4

这个月开始各种尝试,让gemini、claude、glm写了各种版本的agent,它们始终对小模型束手无策。我发现根源是很难掌控一些细粒度的推理,比如什么时候该做什么是对的。

先尝试了最简单的agent,它可以连接gemini的网页版,进行大量长程运行。然后尝试了cllama,让request变成中转站,观察各种agent在运行的时候需要哪些过程------基本都是以LLM为重心。当然也接触了最终形态就是neural-symbolic系统,这个学界也在研究。为了减少幻觉,如何符号化过程。这个涉及元学习的过程。其实自从claude code等改进之后,sub agent解决了context tree继承,让agent运行改善了不少,只要你定义好过程,大模型都能好好完成任务。像qwen 35B/27B即使给了过程,在长程运行上确实差不少。

现在的想法是让它先猜一个过程,然后经过一定模拟,最后确认一条可行通路。这个过程已经实现了一部分,比如让glm和gemini同时写一下使用v8/jsc的sandbox,然后用go写一些native代码,这样读写文件,访问网页等都可以包装成一个一个api,可以外部控制request权限;让模型不停写js代码,运行

,然后感知世界,再反思,像voyager一样不停玩minecraft然后成专家。这条路还需要一些沉淀。主要是belief系统的更新本身比较复杂,比如信息量大以后,如何处理矛盾,如何辨识哪些应该是全局的,哪些是局部的,js snadbox的snapshot能回滚然后继续从某个状态开始么,上下文如何拼接如何最小化取到足够的信息。

最近尝试了m5 128GB,发现deepseek v4真香。antirez在hugging face(国内就hf-mirror就可以了,主要是hugging face科学接入一下然后断开科学速度能达到25MBps速度啊...)上放出了自己的混合压缩模型,就是2bit-4bit量化,让模型大小变成大概90GB,这和qwen3.5 122B fp4的90B相当了,而且这个模型的context最大可是1M。只要下载antirez的ds4,然后跑起这个模型。比如我让它把倪海夏先生的中医学黄帝内经讲座视频用whsiper直接转成文本,然后切割成30个文件,配合claude code,它运行了3个小时,把整个视频的所有内容总结成了llm wiki,真的是很不错的。为了减少ssd读写,创建了一个8GB的Ramdisk给ds4当kv,基本上内存125GB active;在没有优化的情况下,prefill大概200tps,生成25tps。看来目前更顺手的模型大小是120B左右,改天尝试下qwen3.5 122B fp4 mtp版本,看看速度如何。

当然,不能忘了本心是什么。neural symbolic是最终目标。还是得再仔细琢磨下这个拼图怎么拼更好。

相关推荐
ouliten6 小时前
[Triton笔记4]低内存 Dropout
笔记·triton
Loo国昌6 小时前
从 Agent 编排到 Skill Runtime:企业 AI 工程化的下一层抽象
大数据·人工智能·后端·python·自然语言处理
凌波粒6 小时前
深度学习入门(鱼书)第2章笔记——感知机
人工智能·笔记·深度学习
南屹川6 小时前
【Python进阶】Python元类编程深度解析
人工智能
人工智能培训7 小时前
中国人工智能培训网—AI系列录播课
大数据·人工智能·机器学习·计算机视觉·知识图谱
liuyunshengsir7 小时前
PyTorch 最小模型转 ONNX 完整样例
人工智能·pytorch·python
_oP_i7 小时前
FFmpeg 如何与ai结合剪辑出效果好的视频
人工智能·ffmpeg·音视频
脑极体7 小时前
嗜血的AI
人工智能·chatgpt
z202305087 小时前
RDMA之RoCEv2 无损网络PFC 、DCQCN 和ECN (7)
linux·服务器·网络·人工智能·ai