【笔记】用cursor手搓cursor(六)deepseek v4

这个月开始各种尝试,让gemini、claude、glm写了各种版本的agent,它们始终对小模型束手无策。我发现根源是很难掌控一些细粒度的推理,比如什么时候该做什么是对的。

先尝试了最简单的agent,它可以连接gemini的网页版,进行大量长程运行。然后尝试了cllama,让request变成中转站,观察各种agent在运行的时候需要哪些过程------基本都是以LLM为重心。当然也接触了最终形态就是neural-symbolic系统,这个学界也在研究。为了减少幻觉,如何符号化过程。这个涉及元学习的过程。其实自从claude code等改进之后,sub agent解决了context tree继承,让agent运行改善了不少,只要你定义好过程,大模型都能好好完成任务。像qwen 35B/27B即使给了过程,在长程运行上确实差不少。

现在的想法是让它先猜一个过程,然后经过一定模拟,最后确认一条可行通路。这个过程已经实现了一部分,比如让glm和gemini同时写一下使用v8/jsc的sandbox,然后用go写一些native代码,这样读写文件,访问网页等都可以包装成一个一个api,可以外部控制request权限;让模型不停写js代码,运行

,然后感知世界,再反思,像voyager一样不停玩minecraft然后成专家。这条路还需要一些沉淀。主要是belief系统的更新本身比较复杂,比如信息量大以后,如何处理矛盾,如何辨识哪些应该是全局的,哪些是局部的,js snadbox的snapshot能回滚然后继续从某个状态开始么,上下文如何拼接如何最小化取到足够的信息。

最近尝试了m5 128GB,发现deepseek v4真香。antirez在hugging face(国内就hf-mirror就可以了,主要是hugging face科学接入一下然后断开科学速度能达到25MBps速度啊...)上放出了自己的混合压缩模型,就是2bit-4bit量化,让模型大小变成大概90GB,这和qwen3.5 122B fp4的90B相当了,而且这个模型的context最大可是1M。只要下载antirez的ds4,然后跑起这个模型。比如我让它把倪海夏先生的中医学黄帝内经讲座视频用whsiper直接转成文本,然后切割成30个文件,配合claude code,它运行了3个小时,把整个视频的所有内容总结成了llm wiki,真的是很不错的。为了减少ssd读写,创建了一个8GB的Ramdisk给ds4当kv,基本上内存125GB active;在没有优化的情况下,prefill大概200tps,生成25tps。看来目前更顺手的模型大小是120B左右,改天尝试下qwen3.5 122B fp4 mtp版本,看看速度如何。

当然,不能忘了本心是什么。neural symbolic是最终目标。还是得再仔细琢磨下这个拼图怎么拼更好。

相关推荐
阿里云大数据AI技术3 分钟前
构建高转化海外电商搜索:阿里云OpenSearch行业算法版的全链路智能优化策略实战
人工智能·搜索引擎
Awu122716 分钟前
⚡从零开发 Agent CLI(五)实现一个可治理、可扩展的工具系统
前端·人工智能·claude
字节跳动视频云技术团队16 分钟前
让 Agent 成为音视频工作台:AI MediaKit CLI + Skill 发布
人工智能·音视频开发
魏祖潇20 分钟前
framework 整合实战——DDD/TDD/SDD 三件套在 framework 仓的真实落地
人工智能·后端
Databend37 分钟前
2KB histogram 背后:Databend 如何低成本追踪长尾延迟
大数据·数据分析·agent
笃行35040 分钟前
用 CodeBuddy “复活“《山海经》:异兽图鉴网站的诞生
agent
Token炼金师1 小时前
去噪扩散:从随机噪声到高保真图像的数学之路
人工智能·aigc
这个DBA有点耶1 小时前
AI写的SQL跑崩了生产库,这锅谁背?
数据库·人工智能·程序员
阿里云大数据AI技术1 小时前
阿里云 EMR AI 助手正式发布:从问答工具到全栈智能运维助手
运维·人工智能
镜舟科技2 小时前
Databricks 再提 LTAP,AI 时代的数据底座为何重回大一统叙事?
数据库·架构·agent