未来,什么才是 AI“正确的使用方式”

作者:vivo 互联网项目团队- Jiang Zuohan

本文以"大模型不是马,而是大脑"为核心视角,重新定义 AI 系统结构,指出当前问题不在模型能力,而在 Agent 作为"身体"的不成熟,分析感知、行动、反馈与调度等工程缺陷,并将 Harness 类系统比作 ICU 的生命维持机制,强调当下混乱源于最佳实践尚未收敛,认为当前阶段本质是"不会用工具"的早期,人类正在通过实践逐步定义 AI 的正确使用方式。

大模型不是马,是大脑,而且是一颗刚刚觉醒的大脑。

1分钟看图掌握核心要点👇

一、先扔掉"大模型是马,Harness 是马鞍"这个比喻

最近 Harness Engineering 很火,随之而来的一个比喻也开始流传,即"大模型是马,Harness 是马鞍"。

这个比喻并不准确。

马的特点是有独立意志,需要驯服、约束、引导,骑手与马之间本质上是对抗与协商的关系。但 AI 系统并不是这样构建的。我们不会通过"驯服"模型来获得能力,也不会通过"抽一鞭子"让模型更听话。

更关键的是,这个比喻隐含了一个前提,即大模型是原始、笨重、需要约束的对象。但事实恰恰相反。大模型是这几年出现过最复杂的智能器官之一,它更像大脑,而不是牲畜。

如果必须给出一个更接近现实的比喻,那么大模型更像大脑,而 Agent 更像身体。

这个比喻的好处在于,它能更好地解释当前 AI 系统真正的问题:问题不在于"大脑不够聪明",而在于"身体还没有发育完整"。

二、AI 的发展,更像一次大脑先于身体的超速进化

从更大的时间尺度来看,生命并不是先有大脑,再有身体,而是二者长期协同进化。

从最初的应激反应,到神经节,到更复杂的感知系统,再到真正支持推理与规划的大脑皮层,生命用了极长时间才完成这条演化路径。与此同时,眼睛、耳朵、四肢、神经系统也在同步演进。

身体并不是大脑的容器,而是大脑感知世界、作用世界的基础设施。

人类技术的发展也具有类似特征。

农业社会的演进以千年计,工业革命以百年计,信息时代以几十年计。直到最近十几年,技术演进的速度突然发生了变化。

城市让信息密度上升,网络让信息流动突破地理限制,导航、推荐、即时通讯等系统,则将大量"高频认知动作"沉淀为可直接调用的最佳实践。

从这个角度看,AI 并不是简单的工具升级,而是一次更大规模的认知能力爆炸。

从 2012 年 AlexNet 到今天,短短十几年,AI 已经完成了从识别、理解、生成,到多模态处理、代码生成、工具调用的一整轮跨越。2016 年 AlphaGo 击败李世石,2017 年击败柯洁,就是一个非常清晰的分水岭:这意味着"脑子已经亮了"。

此后的模型演进则更加剧烈。ChatGPT、GPT-4、Claude、Gemini 等模型快速迭代,聊天对话框、代码解释器、API 调用、工作流、多 Agent 协作等生态也同步出现。

从表面看,AI 好像已经拥有了眼睛、耳朵、手和脚。

但问题在于,这些器官虽然存在,却远未形成成熟、稳定、协调的身体系统。

三、当前 Agent 系统的核心问题,是身体没有长好

如果说大模型是大脑,那么当前很多 Agent 系统最真实的状态,就是"大脑发育过快,但身体还处于早产儿阶段"。

这个问题主要体现在四个方面。

3.1 感官系统不成熟

多模态模型、语音识别、文档理解、网页解析,这些能力解决的是"看得见、听得见"的问题,但并不自动等于"看得清、听得懂"。

例如:

  • PDF 解析可能出现目录错位、表格断裂、图文顺序混乱
  • 网页抓取可能带入大量噪声,正文识别不完整
  • 图像识别可能遗漏关键元素
  • 语音转写虽然准确,但场景上下文缺失,导致语义理解偏差

这些问题都说明一件事:当前 AI 系统具备输入能力,但输入质量并不稳定,缺少可靠的前处理与上下文定位机制。

换句话说,眼睛已经有了,但视网膜还没有长好。

3.2 运动系统不协调

工具调用是 Agent 最核心的行动能力之一。它可以调用 API、访问网页、执行代码、操作应用,看起来已经具备"手脚"。

但现实情况是,这套运动系统远不稳定。

常见问题包括:

  • 参数填写错误,导致 API 调用失败
  • UI 操作偏移,点击目标错误
  • 执行环境不一致,代码运行失败
  • 操作完成后缺少反馈确认,无法形成闭环

这类问题并不是"不会动",而是"动作不协调"。其本质类似于神经肌肉接头尚未建立稳定连接,导致系统虽然能发出动作指令,但动作质量和反馈闭环都不可靠。

3.3 资源调度系统粗糙

大模型是高耗能系统。上下文窗口、Token、推理成本、延迟,本质上都属于资源调度问题。

当前很多 Agent 系统在资源使用上仍然比较原始,主要表现为两个极端:

  • 信息给少了,上下文不足,推理链条断裂
  • 信息给多了,提示词过载,重点被淹没,系统性能下降

这类问题与其说是"模型能力不够",不如说是"供血系统不成熟"。

3.4 自主神经系统缺失

这是最关键的一点。

人体有大量后台自动调节机制,例如心跳、呼吸、体温控制、消化等,这些并不需要人显式下达指令。

而当前很多 Agent 系统恰恰缺少这种后台维持能力。

例如:

  • 错误恢复机制不完善
  • 任务重试依赖人工规则堆叠
  • 上下文清理与压缩缺乏稳定策略
  • 降级与兜底方案不系统
  • 健康检查与异常监控不完整

这些能力本应成为系统级基础设施,但在当前阶段,很多地方仍然依赖硬编码 if-else 维持运行。

因此,当前 Agent 的问题,不是大脑不够强,而是身体系统还远未形成完整的生理结构。

四、AI 领域当前最大的真空,是最佳实践的真空

技术快速爆炸之后,往往都会出现一个共同问题,即能力增长快于方法沉淀。

城市的发展不是一开始就有交通规则、建筑规范和成熟基础设施。互联网的发展也不是一开始就有导航、搜索、推荐这些稳定形态。

AI 同样如此。

从 AlphaGo 到现在不过十年,从 ChatGPT 真正进入大众视野到现在不过数年。这个阶段仍然属于方法尚未收敛、实践仍在分化的时期。

当前很多常见方法,都带有明显的过渡特征。

4.1 提示工程更像"口头问路"

Prompt Engineering 的特点是依赖经验、依赖表达技巧、依赖具体模型版本。

同一个任务,提示词稍有变化,或者更换模型、上下文、温度参数,输出质量就会明显不同。

这说明提示工程更像临时性的沟通技巧,而不是稳定的系统方法。

4.2 RAG 更像"静态地图"

RAG 解决的是"如何把外部知识接入模型"的问题,但它并不天然解决知识是否最新、检索是否精准、路径是否动态优化的问题。

地图当然重要,但地图不等于实时路况。

因此 RAG 虽然是重要组成部分,但仍然不能等同于完整认知系统。

4.3 Agent 框架更像"拼装义肢"

当前各类 Agent 框架普遍存在接口标准不统一、工具接入方式不一致、状态管理能力分散的问题。

它们都在尝试解决"如何让感知、认知、行动形成闭环"这个问题,但目前大多数仍处于拼装阶段,距离真正统一、稳定、低心智负担的工程体系还有距离。

因此,当前 AI 工程真正缺的,不是又一个新概念,而是以下几类更基础的东西:

  • Agent 的系统解剖学:感知、认知、行动如何协同
  • Agent 的诊断方法论:系统故障时,应先查脑子还是先查身体
  • Agent 的康复机制:如何让系统从失败中形成稳定经验,而不是每次重新推理

这些问题本质上都不是纯算法问题,而是工程体系问题。

而工程体系问题从来无法靠一次设计完成,它只能在真实场景中被反复验证、修正和沉淀。

五、Harness 的真正角色,不是马鞍,而是 ICU

如果继续沿用"大脑 + 身体"这个模型,那么 Harness Engineering 的角色就比较清晰了。

Harness 不是马鞍。

马鞍服务的是已经能够奔跑的健康马匹,而当前很多 Agent 系统并不处于这个阶段。它们更像一个脑部能力超前成熟、但身体发育不稳定的早产儿。

在这种情况下,系统首先需要的不是缰绳,而是监护。

因此,Harness 更像 ICU。

它真正提供的能力包括:

  • **生命周期监测:**观测 Token 消耗、延迟、错误率、上下文压力
  • **资源维持:**在上下文不足时补充信息,在信息过载时做清理与压缩
  • **信号调控:**过滤噪声输入,约束输出动作的风险
  • **故障抢救:**当某一模块失效时,快速切换备用路径,维持整体系统继续运行

这些能力并不华丽,但非常关键。

因为这不是在"控制大脑",而是在维持身体的基本生命体征。

只有先让系统稳定活着,后续才谈得上持续成长与自我优化。

六、AI 当前的状态,不是失败,而是早期常态

当 AlphaGo 击败柯洁时,很多人看到的是 AI 的智力突破。

而从系统角度看,这意味着另一件事:大脑已经超前成熟,但身体仍处在婴儿期。

这并不是坏事,而是技术革命早期非常典型的状态。

城市不是一天形成的,导航系统不是第一版就稳定的,推荐系统也经历了很长时间的试错与收敛。AI 的 Agent 系统同样要经历这个过程,只不过它的迭代速度比过去任何基础设施都更快。

以前很多工程体系以年为单位进化,现在很多体系以周为单位迭代。

因此我们会感受到一种非常强烈的矛盾感:

  • 一方面,模型能力已经强到超出预期
  • 另一方面,系统工程仍然脆弱、易碎、缺乏稳定性

这两个判断并不冲突,它们同时成立。

所以当前最重要的,不是假装这套体系已经成熟,而是承认现实:我们确实拥有一颗极其聪明的大脑,但它仍然被绑在一副尚未发育成熟的身体上。

Harness 这类系统,就是轮椅、拐杖、监护仪的集合。它并不完美,但在今天是必要条件。

因为在身体能够稳定奔跑之前,系统首先需要被维持、被保护、被监护。

而所谓最佳实践,也不会在理论层面被一次性设计出来。它只会在大量真实任务、真实故障、真实交付中慢慢浮现。

七、AI 生成 PPT,是观察这个问题的一个典型场景

如果希望找一个最能体现 Agent 工程问题的场景,那么 AI 生成 PPT 是非常典型的样本。

表面上看,这好像只是"让模型写一套 20 页内容"的问题。

但实际上,它是一个横跨需求理解、信息补全、结构组织、页面生成、视觉匹配、在线编辑和最终交付的系统工程。

一个真正可落地的 AI PPT 项目,通常至少包含以下几个环节

1)需求输入

输入主题、受众、页数范围、场景模板、原始资料等信息。

2)研究补全

当原始信息不足或存在时效问题时,需要通过研究系统补齐最新信息。

3)大纲生成

先形成结构化大纲,而不是直接逐页生成页面。

4)任务拆解

将大纲拆解为可追踪任务,明确当前进度、失败节点和回退点。

5)页面与视觉生成

根据页面类型生成内容、版式、配图与模板风格。

6)编辑与交付

支持在线调整、讲稿补充、备注生成,以及 PDF、PPTX、HTML 等多格式导出。

这条链路说明一件事:AI 生成 PPT 的难点从来不只是写作能力,而是整条链路是否协调。

如果用前文的比喻来对应:

  • 文档解析是感官系统
  • 研究能力是外部记忆
  • 大纲生成是前额叶
  • 任务板是神经系统
  • 模板、版式、配图是骨架与皮肤
  • 导出、备注、分享是动作真正落到外部世界的手脚

因此,AI 生成 PPT 这个场景非常直观地说明:当我们说 Agent 需要"身体"时,说的并不是抽象概念,而是一整套必须协同工作的工程器官。

八、AI 当前的状态,不是失败,而是早期常态

如果把视角再拉近一点,vivoPPT 这个项目本身,就是这套判断的一个样本。

这条链路并不是一开始就设计完整的,而是在开发过程中一步步收敛出来的。

8.1 最开始是"直接生成大纲 + 提供很多模板"

这是一个很自然的起点。

用户输入一个主题,系统先生成大纲,然后再让用户从很多模板里选一个,看起来既智能,又灵活。

但这条路很快暴露出问题。

一方面,大纲本身还不稳定;另一方面,模板又是一个额外变量。内容结构还没有站稳,样式选择又引入第二层不确定性,最后就会出现一个结果:系统看起来很自由,但实际输出并不稳定,用户也很难判断问题到底出在内容,还是出在模板。

换句话说,这种方案把"内容规划"和"视觉选择"同时交给了模型与用户,表面上选择变多了,实际上系统复杂度也同步上升了。

8.2 后来逐步收敛成"固定模板 + 内容优先"

所以项目后面做了一次很关键的收敛,即不再把模板当成一个完全开放变量,而是将模板整理成固定方案,甚至进一步强调"单模板、内容优先"。

这个变化背后的核心判断是:对于大多数汇报场景,真正难的不是"选哪个模板",而是"这一页到底讲什么"。

因此系统开始要求用户输入更完整的原始材料,而不是只输入一句主题。会议纪要、项目总结、方案全文、调研结论、发言草稿,这些长文本被尽可能完整地输入进来,系统先整理汇报思路,再生成大纲,再决定每页职责。

这实际上是在重新定义输入层:系统不再假设模型可以凭一个标题完成高质量生成,而是要求用户提供足够多的原文,让模型先理解内容,再组织内容。

8.3 再往后,生成目标从"直接出页面"变成了"先生成 DSL"

当模板固定之后,第二个问题就变得非常明显:如果系统直接生成最终页面,无论是 HTML 还是最终渲染结果,后续编辑、校验、复用、导出都很困难。

于是项目继续往前收敛,开始引入 DSL 作为中间层。

这一步很重要。

因为 DSL 的本质不是"换一种格式生成",而是给系统补了一个结构化中间表示层。页面不再只是最终结果,而是先被拆成可编辑、可编译、可检查的语义结构。这样模板、内容、布局、组件、导出之间才有了稳定接口,后面的编辑器、预览、导出、AI 改写才真正有了统一对象。

从工程角度看,这一步相当于给"页面生成"补上了骨架。

8.4 大模型微调

当输入从纯文本扩展到富文本之后,系统获得了更强的表达能力,但同时也立刻遇到了新的问题。

富文本并不只是多了粗体、标题和列表,它还带来了图片、表格、引用、上下文层级这些信息。尤其是图片,系统不能只把它当成一个附件。

一张富文本里的图片,如果只保留一个 src 地址,模型其实什么都不知道。它不知道图片前后在讲什么,不知道图注是什么,也不知道它属于哪一个章节、哪一页语义、哪一个主题。

因此项目后面又继续补了一层上下文解析:除了保留富文本的 HTML 和纯文本内容之外,还会抽取标题层级、列表结构、表格结构;对于图片,还要结合标题、图注、相邻段落、块级文本去生成语义摘要、主题标签和素材描述,再把它转成项目素材。

这一步说明得更直接一点:当输入能力增强之后,系统并不会自动变强,反而会倒逼你把"感官系统"做得更完整。图片不是"看见了"就算处理完,只有把它放回上下文中,它才真正变成模型可用的信息。

从这个开发过程可以看出,真正沉淀下来的最佳实践,通常不是一个万能 Prompt,而是几条简单但重要的流程纪律:

  • 先研究,再写作
  • 先大纲,再页面
  • 先任务化,再并行化
  • 先可编辑,再可交付

九、最佳实践,从来不是设计出来的

所以,当前阶段看起来混乱,其实并不奇怪。

有人强调 Prompt,有人强调 Agent,有人做 Memory,有人做 Workflow,大家都在尝试不同路径,但整体上还没有完全收敛。

这并不是因为大家理解不够,而是因为最佳实践本来就不是先验存在的。

它不是通过讨论设计出来的,而是在真实使用中逐渐显现出来的。

只有在大量真实场景中反复试错之后,系统才会逐渐形成共识:

  • 哪些步骤必须保留
  • 哪些能力必须下沉为基础设施
  • 哪些风险必须被兜底
  • 哪些分工方式最稳定

最终,所谓最佳实践,会从"经验"慢慢沉淀为"直觉"。

十、未来不会再讨论"要不要用 AI"

也许在未来,我们不会再讨论"要不要用 Agent",就像今天我们不会认真讨论"要不要用导航"一样。

这些选择最终会从"技术选项"变成"默认动作"。

真正的变化,也不会发生在模型参数再扩大一点,或者排行榜再上升一点的时候。

真正的变化会发生在我们开始真正理解这整套系统:

  • 什么时候让它思考
  • 什么时候让它行动
  • 什么时候借助工具
  • 什么时候交给流程
  • 什么时候让人介入

到那时,AI 才会真正从一个"能力集合"演进为一个"可长期使用的系统"。

十一、我们正在经历一个"还不会用工具"的时代

而现在,我们正处在这个阶段的早期。

工具已经足够强大,但使用方式还没有完全形成。

这有点像人类刚拿到地图、刚拥有汽车、刚接触互联网的时期。工具本身已经具备巨大潜力,但对应的使用方法、工程规范和社会最佳实践都还在形成中。

这也是一个非常少见的阶段。

因为在这个阶段里,人们不仅是在使用工具,也在参与定义工具未来的正确使用方式。

换句话说,我们正在参与回答一个问题:

未来,什么才是 AI"正确的使用方式"

注:文章创作有 AI辅助,"生命体进化"视角与"技术爆炸"框架由笔者提出。

相关推荐
甲维斯1 小时前
豆包Seed2.1Pro编程能力测试!
人工智能·ai编程
Zy宇2 小时前
从养 OpenClaw 到养社区 AI:一套 Multi-Agent 社区的设计思路
人工智能·ai
雪隐2 小时前
个人电脑玩AI-06让5060 Ti给你打工——Qwen3.6-35B-A3B + LM Studio + openWebUI
人工智能·后端
得物技术2 小时前
从表单到 Agent:得物社区活动搭建的 AI 实践之路
人工智能·架构·agent
Weigang3 小时前
给 Agent 接入 Qdrant 前,先写清楚检索合同
人工智能
带刺的坐椅3 小时前
SolonCode v2026.6.24 发布:安全访问、Mermaid 渲染、Goal 重构——智能体自治能力再进化
ai编程·codex·claudecode·soloncode
字节跳动数据库3 小时前
文章分享——庖丁解牛-图解查询分析和调优利器Optimizer Trace
人工智能·程序员
极客密码3 小时前
来看看我用Codex两周时间vibe coding的这款轻量级的剪贴板管理应用,win/mac系统均可用
前端·ai编程·vibecoding
以和为贵3 小时前
前端手写 RAG 踩坑实录:四个让检索"翻车"的坑
前端·人工智能·面试