每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

近期在谈论人工智能话题时,许多人都会听到作者对 Claude Code 的长篇赞美。起初,这只是与其他工具并行运行的一个辅助编程工具,如今却已经演变成一整套具备代理能力的操作系统,支持各类工作流程。
最引人注目的应用场景之一是 Obsidian,这是一款用于笔记记录的工具。与 Notion 或 Evernote 不同,Obsidian 的文件全是以 Markdown 格式存在于用户本地计算机中的普通文本文件。虽然这些文件可以进行同步、样式修改和保存,但本质上依旧是硬盘上的文本内容。几个月前,作者意识到这种特性使得 Obsidian 的笔记和研究资料成了 AI 编码工具的绝佳切入点。起初只是尝试在 Cursor 中打开 Obsidian 的知识库,但很快便发展为一种"笔记操作系统"。这一系统的依赖程度不断加深,最终作者甚至在家中搭建了服务器,通过手机 SSH 远程连接 Claude Code + Obsidian 环境,从而随时随地记录笔记、查阅资料、思考问题。
几周前,作者在 Dan Shipper 主持的《AI & I》播客节目中,详细讲述了这套系统的运作方式及其背后的逻辑和优势。尽管相关细节已在节目中完整呈现,但本文还将进一步探讨在节目之后,作者对 Claude Code 的一些新认识。
Claude Code 的独特之处在哪?是否优于 Cursor?
这个问题并不容易回答。严格来说,Claude Code 并不一定在所有方面都优于 Cursor。但某些方面的杰出组合使得作者在构建任何新项目时,几乎都会首选 Claude Code。现在,它的应用已经不仅限于现有代码库的处理,更重要的是能基于其功能构建全新的系统。
那么,其秘密何在?一部分关键在于 Claude Code 对工具的处理方式。作为一个基于终端的应用,它牺牲了一部分可访问性,换来了极强的能力------原生集成 Unix 命令。这一点也唤起了人们对 Unix 哲学的重视。虽然作者通常避免大段引用,但 Doug McIlroy 于 1978 年在《Bell System Technical Journal》中提出的 Unix 哲学堪称经典:
让每个程序只做好一件事。要完成新任务,就从头构建,而不是通过添加"功能"来复杂化已有程序。
期望每个程序的输出能够成为另一个(尚未确定的)程序的输入。避免产生多余信息的输出,避免过于严格的列格式或二进制输入格式,不强制交互式输入。
软件和操作系统的设计与构建应尽早尝试,最好在几周内就能投入使用。对于不理想的部分不要犹豫,直接舍弃并重建。
相较于非专业人力,更应优先使用工具,即使需要绕道开发工具,且这些工具在完成任务后可能被弃用。
Peter H. Salus 在 1994 年的《Unix 四分之一世纪》中将其总结为:
编写程序,让它只做一件事,而且做得好。
编写程序,使它们能够协同工作。
编写程序,使它们能够处理文本流,因为这是通用接口。
这些五十年前的理念,恰好与大语言模型(LLM)使用工具的方式高度契合。观察这些模型使用工具的方式可以发现,它们在持续"传递"输出到输入,虽然中间过程带有一定模糊性。(值得一提的是,Unix 中的 |
命令正是用于将一个命令的输出传递给另一个命令的输入。)当模型未能有效利用工具时,往往是因为工具本身过于复杂。
因此,Claude Code 的第一大优势就是:Unix 命令本身对 LLM 来说极为合适------既简洁又文档详尽,为模型提供了大量学习素材。
但这还不是全部。另一项关键能力是 Claude Code 在生成代码和文本方面的表现。虽然 ChatGPT 和 Claude 等应用也具备生成能力,但 Claude Code 的实现方式有所不同。最近,作者在阅读《The Pragmatic Engineer》关于 Claude Code 的深度分析时,注意到一个关键点:文件系统访问权限。
文件系统的接入,彻底改变了一切。ChatGPT 和 Claude 浏览器版本面临两个致命限制:无持续记忆、上下文窗口受限。而文件系统则解决了这两个问题。Claude Code 能够向自己写笔记、积累知识、记录状态,具备持续记忆能力,不再局限于单一对话。
AI 的"产品滞后"
早在 2022 年,作者初次使用 GPT-3 API 时就曾表示,即便模型从此不再进步,人类也有十年时间来发掘其潜在用途。事实证明,模型确实进化了,具备了更强的推理与工具调用能力。而 Claude Code 对文件系统的利用,进一步验证了这一观点。
在《The Pragmatic Engineer》的访谈中,Claude Code 的最初开发者 Boris Cherney 提到:"AI 领域常说'产品滞后(product overhang)',我们在原型开发中就亲身体验了这个现象。"所谓产品滞后,指的是模型具备某项能力,但现有的产品架构并未设计好用于释放这一能力。Claude 能够操作文件系统正是一个典型例子------模型早就具备能力,但此前并没有相应的产品架构来支持。
这一现象结合 Unix 命令的整合,使 Claude Code 成为了构建可靠代理系统的范本。它不是通过复杂界面限制模型能力,而是激发和承接这些能力。
超越代码的应用探索
此前提到的 Claude Code + Obsidian 环境,如今又更进一步。作者已将其开源为"Claudesidian",融合了诸多自用工具和命令。更有意义的是,它成为一个实验平台。例如,作者开发了一个升级工具,使用户能够在中心版本发生变更时拉取更新,并由 AI 协助识别本地文件的改动情况,智能合并修改内容。整个项目始终坚持 Unix 哲学:构建简单、可组合、协同工作的工具。正是 Claude Code,使得这类应用成为现实,也带来了全新构建应用的方式。
此外,还有一个尚未发布的项目,暂名为"Inbox Magic"。这是一个基于 Claude Code 的仓库,接入 Gmail 工具集和大量命令、提示词,旨在变成一个 AI 驱动的电子邮件助理。目前该系统的基本功能包括搜索邮件、代发邮件,以及自动分类处理邮件内容。更进一步,它还能训练模型理解用户的邮件语言风格,从而撰写更贴合的邮件草稿。而相较 ChatGPT 和 Claude 浏览器端一次只能访问一两封邮件,这一系统通过文件写入和处理,实现了更复杂的任务,例如:
"找出所有与旅行相关的邮件,建立用户旅行偏好档案,以便用于 ChatGPT/Claude 进行个性化旅行信息搜索。"
关于此项目的更多信息将在日后公布,有兴趣尝试者可提供 GitHub 用户名,作者将在测试阶段分享使用权限。
几点关键思考
尽管通常避免作总结,但以下几点值得特别强调:
- 文件系统是一种有效绕过 LLM 缺乏记忆和状态问题的工具,值得更广泛应用。
- 在构建工具调用功能时,应始终坚持 Unix 哲学的理念。
- Claude Code 为未来代理系统提供了蓝图------结合文件系统与 Unix 哲学,远比当前过度复杂的多代理系统更具可靠性和可调试性。从技术角度来看,这意味着:在构建工具调用功能时,保持工具简洁、由主模型线程进行"管道化"调用是关键。(附带一提,目前所有代理系统与聊天机器人普遍存在的一个问题是:如何在不通过上下文窗口的前提下,实现有效的调用传递。)
- 若有人仍声称找不到 LLM 的应用场景,那只是因为努力还不够。