当前的“LLM 智能”,是来自模型突破,还是工程堆砌?

编者按: 推理模型的"推理能力"飞跃,究竟是模型本身的进步,还是工程编排的巧妙包装?

我们今天为大家带来的这篇文章提出了一个尖锐的观点:所谓"推理模型"的突破,本质上并非模型智能的根本性提升,而是通过工具调用与流程编排对模型能力停滞所做的工程性补偿。

文章深入剖析了 GPT-5 等最新模型在执行任务时严重依赖 Python 沙箱、API 调用等外部工具的现象,揭示出大语言模型在代码生成与语义理解上的深层瓶颈。作者指出,OpenAI 正从基础研究转向应用变现,其推出的 ChatGPT Apps、Atlas 浏览器等产品,反映的不是技术突破,而是对模型能力停滞的策略性回避。文章进一步探讨了行业面临的两种路径选择:一是在现有架构上不断优化 pipeline 系统,追求短期收益;二是直面 Transformer 架构的根本缺陷,投入高风险、长周期的基础架构创新。

本文系原作者观点,Baihai IDP 仅进行编译分享

作者 | Mani Doraisamy

编译 | 岳扬

01 工具使用(tool use)是如何成为难题求解的替代方案

当 OpenAI 于 2024 年 4 月发布 o1,并称之为"推理模型"时,整个行业为之欢呼,认为这是一次重大突破。终于,AI 能够一步步思考、解决复杂问题,甚至处理研究生级别的数学题了。

但仔细观察其运行机制我们就会发现,当我们让最新模型 ChatGPT-5 计算两个大数的乘积时,它并不会自己进行计算,而是生成一段 Python 代码,在沙箱中执行后返回结果。相比之下,ChatGPT-3 至少还会尝试在内部完成算术运算(尽管常常出错),而 ChatGPT-5 则将计算任务外包给了外部工具。[注释1]

这种模式无处不在。所谓"Agentic AI"的自主性?无非是一连串的工具调用,比如网页搜索、API 调用、数据库查询。真正的突破并不在于模型本身的智能水平,而在于协调外部系统的编排层。从推理能力到 Agentic AI,一切都不过是代码生成的高级应用。 这些能力并非模型本身的进步,而是为停滞不前的模型能力所设计的工程层面的变通方案。

这一点至关重要,因为整个 AI 行业(从数万亿美元的 GDP 预测到独角兽公司的估值[1])都建立在模型能力持续进步的预期之上。而我们实际得到的,却是越来越复杂的"pipeline 工程",其底层基础却早已陷入停滞。

02 GPT-5:皇帝的新推理(不是"衣服"😏

2025 年 8 月本该是一场胜利。OpenAI 曾承诺"将博士级智能装进每个人的口袋",然而他们交付的成果在代码生成这一核心能力上几乎停滞不前 ------ 而其他能力都依赖于此。这正是瓶颈所在:代码生成是交通枢纽。更好的代码 → 更强的推理(通过工具执行)→ 更优的智能体 → 更高的生产力 → 万亿美元级市场。 一旦这个交通枢纽停滞,整条链条便随之停摆。

使用 AI 编程工具的开发者们明显感到了失望。基于 OpenAI 模型构建 AI 编程工具的公司(如 Cursor、Replit)曾押下数十亿美元,赌定每次模型发布都会带来指数级的进步。GPT-5 却打破了这一预期,而这本不该发生。从 GPT-3 笨拙的算术能力,到 GPT-4 生成连贯代码的能力,进步似乎势不可挡。整个行业正是建立在对持续进步的预期之上。但在过去一年里,这种进步明显停滞了。

03 从研究实验室到应用商店

与此同时,OpenAI 正将重心从模型研究转向应用开发。只需观察 OpenAI 在过去几个月的轨迹,这一趋势便已显而易见:

2025 年 10 月 6 日:ChatGPT Apps 上线

第三方应用可直接在 ChatGPT 内运行。通过 Expedia 预订航班,在 Canva 中设计图像,浏览 Zillow 上的房产信息,全程无需离开聊天界面。Apps SDK 为开发者开放了 8 亿用户生态。这标志着 OpenAI 正在变成一个应用商店。

2025 年 10 月 21 日:Atlas 浏览器发布

这是一款由 AI 驱动的新型网页浏览器,意在挑战 Chrome 的主导地位。该产品具备浏览器记忆、智能体模式,以及集成于浏览器的全链路 AI 助手。这标志着 OpenAI 正在转型为一家消费级产品公司。

他们正逐步从研究领域转向技术应用:

  • 推理模型(贴近最前沿、最基础的核心研究)
  • 带工作流构建器的 Agentic AI(离核心研究距离更远了)
  • ChatGPT Apps(纯粹的生态运营)
  • Atlas 浏览器(将 ChatGPT 深度嵌入浏览器)

OpenAI 的每一步都在远离"如何构建更优模型",迈向"如何将现有模型变现"。

04 关于 OpenAI 转型动因的两种解读

为何这家全球顶尖的 AI 实验室会从技术研究转向应用领域?现有两种主流解释。

解读一:遭遇技术瓶颈却秘而不宣

规模扩张已然失效。尽管投入数十亿美元的算力资源和全球顶尖的研究人员,模型质的飞跃却难再现。模型并未变得更智能,只是更擅长协调外部工具。

与其承认"无法突破模型性能瓶颈",不如转向变现赛道。ChatGPT Apps 无需技术研究实现突破即可创收,浏览器生态不依赖 GPT-6 就能构建用户壁垒。在摸索下一步方向时,应用业务能为他们争取缓冲时间 ------ 当然,这是一种悲观的解读:将技术进步的停滞包装成战略转型。

解读二:应用赛道的利润更丰厚

训练尖端模型耗资数十亿、历时数载,而基于现有模型开发应用成本低、见效快。后者利润空间更大,风险更低,变现路径更清晰。

或许 OpenAI 经过理性测算,发现应用开发能以更小投入获取更大回报,因而调整资源分配。既然六个月就能打造浏览器,何必耗费 50 亿美元训练 GPT-6?这是从现实主义的视角进行解读:利润空间优先于技术进步。

这两种解读可能都部分正确。但无论如何,结果殊途同归:当整个生态系统最需要突破时,领头羊却减少了对基础模型研发的投入。

05 没人愿面对的架构问题

工具编排(Tool orchestration)确实是令人印象深刻的工程成果。协调网页搜索、代码执行、数据库查询和 API 调用,需要复杂的软件架构。能够管理复杂工作流的智能体框架也的确具备实际价值。但这些都并未回答一个根本问题:模型为何从一开始就离不开工具?

早期模型如 GPT-3 曾饱受词元碎片化(token fragmentation)的困扰(例如将 "strawberry" 拆成 "straw" 和 "berry",而后者含义完全不同)。现代分词器已缓解了这一问题,但更深层的架构缺陷依然存在:大语言模型仍然缺乏真正的语义理解能力。这类语义问题在代码生成中尤为致命,因为代码对精确性要求极高。 当模型产生幻觉,或在长上下文中丧失连贯性时,引入网络搜索功能并不能根除病灶。固定维度的嵌入(embeddings)会有损地压缩语义信息,注意力窗口则对上下文施加了硬性边界。这些都是架构层面的限制,而非工程问题。

这就好比在一座仅能支撑三层楼的地基上建造摩天大楼。你可以不断加固结构、重新分配承重、安装精密的支撑系统,但最终,你需要的是一个全新的地基。无论围绕现有地基做多少精巧的工程优化,都无法让你建得更高。

06 行业必须面对的抉择

整个行业站在十字路口,尽管多数参与者仍在回避这个现实。

路径一:持续优化 pipeline 系统

延续当前轨迹:略微扩大模型规模,优化工具协调机制,深化与应用平台的整合。推出浏览器与应用商店,构建更完善的智能体框架,在既定架构限制下进行工程优化。

这条路径能带来可预测的短期收益。对许多尚未达到 AI 编程工具智能水平的领域而言尤其如此。由于 AI 编程工具最初是由开发者为自己打造的,他们深刻理解问题所在,并知道如何解决。类似的进步将在其他领域陆续出现,风险投资的资金流仍会持续一段时间。但 a16z 预测的 3 万亿美元 GDP 增长,其前提是生产力翻倍,而不是像当前 AI 编程工具那样仅停在约 20% 的提升水平。要实现突破,必须承认现有基本方法已遇阻。

路径二:承认我们需要全新的基础架构

承认模型规模扩大已触及天花板,投入能解决根本问题的架构创新。这意味着:

  • 采用基于图结构的架构,保留结构化关系,避免分词造成的语义碎片化问题,根治 Transformer 架构的固有缺陷;
  • 部署能高效处理长上下文的稀疏注意力机制;
  • 借鉴生物神经组织原理的神经形态计算方案。

解决方案在于构建能保留信息而非有损压缩的架构。正如 AI 研究者 Andrej Karpathy 所言,现有模型只是"互联网的有损压缩"。真正的进步需要向无损表征迈进:保留原始信息中固有的组织形式、精确维护信息单元之间的具体关系、维护信息中概念的层级与从属关系。

这条路径成本高昂、前景未卜且进展缓慢。它要求我们直面现有路线的失败,且需要耗费数年的研究投入,且不保证成功。但这是唯一能真正解决问题而非回避问题的途径。

07 总结

目前,AI 编程工具市场正呈爆发式增长:

  • Cursor:15 个月实现 5 亿美元年经常性收入(ARR),估值达 100 亿美元
  • GitHub Copilot:数百万用户,年收入达数亿美元
  • Windsurf:以 24 亿美元被收购
  • 数十家初创公司正在融资,金额高达九位数

这一切都建立在同一个假设之上:模型在代码生成能力上将持续进步。如果这个假设是错的,整个市场就会变成一座纸牌屋 ------ 3 万亿美元的 GDP 预期将化为泡影,独角兽估值将失去支撑,生产力革命也将无限期推迟。

反之,谁若能解决底层架构问题,谁就将赢得一切。哪怕只是基础能力的小幅提升,也会在整个生态系统中产生连锁反应:

  • 更优的代码生成能力 → 更强的推理能力(通过工具执行实现)
  • 更强的推理能力 → 更强大的智能体
  • 更强大的智能体 → 真正实现生产力翻倍
  • 真正实现生产力翻倍 → 3 万亿美元市场成为现实

由此创造的价值将是天文数字。现在的问题是:是否有任何实验室愿意选择艰难的"修复地基"之路,而不是轻松地在停止加固的地基上继续搭建应用? 答案将决定这场 3 万亿美元的生产力革命究竟是现实,还是幻想。

注释:

1\] GPT-5 中有两种方式进行乘法运算: * Python 模式:使用 Python 沙箱执行 * 无工具模式:依赖模型内部推理 在 FrontierMath 基准测试中,Python 模式的准确率约为无工具模式的 2 倍(26.3% 对 13.5%),同时成本效益高出 4 到 10 倍。 GPT-5 API 默认使用无工具模式(必须在 API 调用中显式启用工具),而 ChatGPT 用户端很可能默认启用 Python 模式,因为"高级数据分析"(Advanced Data Analysis)已对所有订阅用户默认开启。这使得 OpenAI 在消费级产品中实现了大幅成本优化,而 API 用户若不手动启用工具使用,则需承担低效推理的全部成本。 **END** **本期互动内容 🍻** **❓文章指出,整个 AI 生态的繁荣建立在"代码生成能力持续进步"的假设上。你怎么看待这个观点?** **文中链接** \[1\][a16z.com/the-trillio...](https://link.juejin.cn?target=https%3A%2F%2Fa16z.com%2Fthe-trillion-dollar-ai-software-development-stack%2F "https://a16z.com/the-trillion-dollar-ai-software-development-stack/") ***本文经原作者授权,由** **Baihai IDP** **编译。如需转载译文,请联系获取授权。*** **原文链接:** [manidoraisamy.com/reasoning-n...](https://link.juejin.cn?target=https%3A%2F%2Fmanidoraisamy.com%2Freasoning-not-ai.html "https://manidoraisamy.com/reasoning-not-ai.html")

相关推荐
IT_陈寒1 小时前
Redis 性能提升30%的7个关键优化策略,90%开发者都忽略了第3点!
前端·人工智能·后端
慕云紫英1 小时前
投票理论(voting theory)(social choice theory)
人工智能·aigc
杜子不疼.1 小时前
【Linux】进程状态全解析:从 R/S/D/T 到僵尸 / 孤儿进程
linux·人工智能·ai
草莓熊Lotso2 小时前
C++ STL map 系列全方位解析:从基础使用到实战进阶
java·开发语言·c++·人工智能·经验分享·网络协议·everything
zyplayer-doc2 小时前
升级表格编辑器,AI客服应用支持转人工客服,AI问答风格与性能优化,zyplayer-doc 2.5.6 发布啦!
人工智能·编辑器·飞书·开源软件·创业创新·有道云笔记
~~李木子~~5 小时前
中文垃圾短信分类实验报告
人工智能·分类·数据挖掘
平行云9 小时前
World Labs & Paraverse:统一3D世界的创造与访问
3d·unity·ai·ue5·aigc·实时云渲染·云xr
TsingtaoAI9 小时前
企业实训|自动驾驶中的图像处理与感知技术——某央企汽车集团
图像处理·人工智能·自动驾驶·集成学习
王哈哈^_^10 小时前
YOLO11实例分割训练任务——从构建数据集到训练的完整教程
人工智能·深度学习·算法·yolo·目标检测·机器学习·计算机视觉