Andrej Karpathy 谈持续探索最佳大语言模型辅助编程体验之路

Cursor------主要负责自动补全与小范围代码修改，高效传达任务意图。
Claude Code/Codex------用于实现较大功能块，快速原型开发和跨领域代码尝试。
GPT-5 Pro------解决最棘手的bug或复杂抽象，提供深度文档/资料支持。

我发现自己并不是执着于寻找某个"完美工具"，而是越来越倾向于把工作方式分散在不同的工作流中，通过组合它们来取长补短：

对我来说，LLM 辅助编程中大约 75% 仍然来自 Cursor 编辑器里的 Tab 补全 。这是因为我发现，在代码的正确位置亲手写下一个代码块或注释，其实是向 LLM 传递"任务指令"的一种高带宽方式。换句话说，这主要关乎如何高效传递任务需求：如果用自然语言完整描述需求，信息量太大、延迟太高，不如直接在合适的位置写个示范来得快。当然，Tab 补全有时也会非常烦人，所以我常常一边用一边随时关掉它。

再上一层，就是选中一段具体的代码，让 AI 按要求修改。

再往上，则是类似 Claude Code / Codex 这种在 Cursor 侧边栏运行的工具。它们适合在需要实现大块功能、而且能比较容易用提示词描述时使用。这类工具确实非常有用，但表现参差不齐，有时甚至挺让人挫败。我基本不会用"YOLO 模式"，因为它们往往会跑偏，做一些完全不需要的蠢事，所以我经常得按下 ESC 强行中断。我也还没掌握高效并行使用多个 AI 实例的方法------光一个就已经够让我头大了。至于维护 CLAUDE.md 这种上下文文件，我至今没找到一个好办法让它始终有效或保持更新。大多数时候，我还得对它生成的代码来一遍"清理"，让结果符合我的风格和代码品味。例如：

它们经常过度"防御式"编程，到处都是 try/catch。
抽象层次搞得太复杂。
代码冗长臃肿（明明列表推导式或单行 if-else 就能解决，偏要写成一堆嵌套）。
重复大段代码，而不是写一个优雅的辅助函数。

换句话说------它们基本没有"代码品味"。

但在一些场景下，它们又是不可或缺的。尤其当我涉足陌生领域、更多是"凭感觉"写代码时（比如最近写 Rust、SQL 命令，或者其他我以前不太接触的东西），它们非常有帮助。我也试过让 Claude Code 一边写代码一边教学，但完全行不通------它只想写代码，根本不想解释过程。我还试过让 Claude Code 做超参数调优，结果效果简直好笑。

此外，在各种"一次性的小任务"里，它们同样超级有用。比如生成定制化的可视化、实用小工具或者调试脚本。如果让我自己写，可能要花很久，根本不会去写。举个例子，为了定位一个特定 bug，Claude Code 可以瞬间写出一千行一次性、详细的可视化代码，等 bug 找到后这些代码立刻就被删掉了。这正是所谓的"后稀缺时代的代码"：你可以随时生成、使用并丢弃上千行高度定制化的代码。没关系，代码不再像过去那样珍贵或成本高昂。

最后一道防线，是 GPT-5 Pro。我会用它来处理最棘手的问题。比如有好几次，我、Cursor 和 Claude Code 被一个 bug 卡了十分钟毫无进展，但把整个问题丢给 5 Pro 后，它"思考"十分钟，最后真的找到了一个非常隐蔽的 bug。它的能力非常强，甚至能帮我挖到一些晦涩的文档或研究论文。我也会让它处理一些更重量级的任务，比如给代码抽象优化提建议（效果时好时坏，有时能提出好点子，但并不总是如此），或者做"某个问题在业界常见的解决方案"这种文献综述，它往往能返回很多有价值的资料和参考。

总的来说，在不同类型的编程任务中，这些各有长短的工具让编程世界被彻底打开，充满了新的可能性。与此同时，也难免会有点焦虑，担心自己没有站在技术浪潮的最前沿。以上就是我周日的一些杂乱思考，也很好奇大家是否也有新的发现或使用心得。