大模型与智能体时代
- [1. 交互方式的改变](#1. 交互方式的改变)
-
- [1.1. ChatGPT](#1.1. ChatGPT)
-
- [1.1.1. ChatGPT的出现](#1.1.1. ChatGPT的出现)
- [1.1.2. ChatGPT的聚合能力](#1.1.2. ChatGPT的聚合能力)
- [1.2. 交互方式的改变](#1.2. 交互方式的改变)
-
- [1.2.1. 如今的交互方式](#1.2.1. 如今的交互方式)
- [1.2.2. 从聊天机器人到通用接口](#1.2.2. 从聊天机器人到通用接口)
- [2. 大模型与智能体](#2. 大模型与智能体)
1. 交互方式的改变
1.1. ChatGPT
1.1.1. ChatGPT的出现
ChatGPT的出现:2022年11月30日,一家美国公司悄悄上线了一个叫ChatGPT的聊天机器人.最初几个小时里并没有多少人当回事------过去十多年,这样的"智能助手"出现过不止一个,大多雷声大雨点小.可几天之后,情况变得很奇怪:越来越多的人发现,它不是那种"只能听懂几句固定指令"的机器人,而是真的在一字一句读你的问题,然后写出一段看起来是在认真回答的话.论文能总结,代码能改,作文能写,笑话也能讲.五天之内,它的注册用户突破一百万;两个月之内,它的月活跃用户估计已过亿,成为当时消费互联网应用里极少见的增长案例.
这件事本身并不是"又一个聊天机器人诞生",更像是我们和计算机打交道的方式被悄悄换了一扇门.
- 这扇门关上的那一侧,是过去几十年人类为了使用机器而不得不学会的那一整套规矩;
- 而门开着的这一侧,机器开始尝试反过来理解人类的表达.
- 通用接口:那之后的几年里,这扇门后面又陆续接上了工具、浏览器、终端、文件系统、乃至整个办公和开发环境.我们不再只是在对着一个聊天框说话,而是在让一个会听懂话的系统,去替我们把事情做完.
1.1.2. ChatGPT的聚合能力
ChatGPT 之所以在 2022 年底成为现象级事件,靠的不是单点能力的极致,而是它把许多过去分散在不同软件里的能力,集中放进了同一个对话框,并且让普通用户第一次如此直接地感受到这种聚合能力.
- 它能对话------流利地用几十种语言聊天,回答稀奇古怪的问题,写诗、讲笑话、扮演各种角色.
- 它能写作------起草邮件、写日报、润色作文、创作文案、生成产品说明,许多内容创作者和文员的日常工作因此被改写.
- 它能编程------读代码、改bug、从需求描述直接生成程序;许多程序员第一次用它时都有同一种复杂心情:一边觉得"这家伙真能干",一边忍不住检查它有没有偷偷把螺丝拧反.编程这件事正在被重新定义------不是程序员消失,而是"把意图翻译成代码"这一步变得前所未有地便宜.
- 它能翻译------不只是字面翻译,连语气、文化差异、双关语都能考虑,有些场景下的翻译质量已经接近专业译者.
- 它也能推理------解数学题、分析法律案例、辩论复杂观点.以 GPT-4 发布时的公开评测为例,它在模拟美国律师资格考试中达到接近前 10% 的水平(后续也有研究指出OpenAI当时引用的对比基线偏严,真实排名可能稍低),在GRE语文等考试上也表现很强.但无论具体百分位如何,结论都不变------考试成绩不等于可靠的专业判断;会做卷子和能当律师,中间还隔着一座现实世界的大山.
更令人惊讶的是,这个 AI 的"大脑"并不是新物种,仍是第3章会展开讨论的 Transformer.它之所以能展现出这些能力,关键不在某个单一魔法按钮,而在规模、数据、训练目标和后训练工程的合力:用巨大的 Transformer,在海量词元(Token)上反复做一件单调的事------预测下一个词.然后神奇的事情就发生了.把这件事讲清楚,是后面几章的任务.
1.2. 交互方式的改变
以前的交互方式:如果把时间稍微往前拨几年,我们和计算机打交道的方式其实很稳定:
- 想修图,就去学修图软件的菜单;
- 想查资料,就打开搜索引擎;
- 想写程序,就打开编辑器;
- 想处理表格,就在单元格、函数和筛选器之间来回切换.
软件当然已经很强,但它们要求人先学会软件的语言.人必须理解按钮、菜单、参数、命令和文件格式,然后再把自己的目标翻译成机器能接受的操作.
1.2.1. 如今的交互方式
如今的交互方式:今天的变化恰恰相反.越来越多的时候,人不是先去想"该点哪个按钮",而是先直接说出意图:
- 帮我总结这份文档,帮我把这段代码改成更清晰的版本,帮我整理一份旅行计划,帮我从一堆网页里找出真正有用的信息.
乍看之下,这只是交互方式从鼠标键盘变成了对话框;但如果往深处看,它其实意味着另一件更大的事:计算机开始越来越多地通过自然语言来理解任务,而不是要求人完全按照软件预先设计好的路径去表达需求.
大模型和智能体:这一变化并不是因为机器突然"像人一样思考"了,也不是因为某个单点算法把所有难题一夜之间解决了.它更像是一条缓慢但清晰的演化链:
- 先是大模型通过预训练获得了广泛的语言理解与生成能力(大模型)
- 然后通过后训练变得更像助手,接着又通过检索、工具调用、浏览器、终端和各种软件接口接上了外部世界,于是"会回答问题的模型"逐渐变成"能够持续完成任务的系统".(智能体)
在今天的技术图景里,我们通常把前者称为大模型,把后者称为智能体.也正是在这里,"大模型"和"智能体"的区别开始变得重要.前者解释机器为什么能理解、生成和推理;后者追问当这种能力被接到工具、记忆和环境之后,系统会怎样组织行动、承担成本,并暴露新的风险.换句话说,本书关心的不是一个聊天产品的爆红,而是计算系统的入口、能力边界和责任边界正在一起移动.
1.2.2. 从聊天机器人到通用接口
聊天机器人:很多人第一次强烈感受到这一轮AI不同,往往不是在论文里,而是在一个非常日常的场景里:打开一个对话框,输入一段自然语言,模型就开始写作、解释、翻译、总结,甚至还能把一种表达方式改写成另一种表达方式.表面上看,这像是聊天机器人变聪明了;但如果只把它理解成"聊天更像人",就会低估真正发生的变化.
自然语言接口:聊天只是表象,接口才是本质.过去的软件世界里,每一类任务大多对应一类专门工具,而且每个工具都有自己的操作逻辑.
- 电子表格要求你理解函数和引用,
- 图像编辑器要求你理解图层和蒙版,
- 数据库要求你理解查询语言,
- 编程环境要求你理解语法、依赖和运行方式.
软件的能力很强,但人在很多时候不得不先适应软件的结构,再去解决自己的问题.
自然语言接口改变了这个方向.
- 它允许人先表达目标,再由系统去猜测、拆解并执行合适的操作.
- 接口从"人学习机器的语言"慢慢变成了"机器尽量理解人的意图".
- 这就是为什么许多人会觉得,大模型不像是又一个工具,而像是站在一组工具前面的"入口".你不再总是直接面对十几个分散的软件,而是先面对一个可以理解任务、转换表达、调用能力的中间层.
这也是为什么我们会说大模型正在变成一种通用接口.
通用接口 :"通用"并不意味着它什么都做得最好,而是意味着它能以统一的交互方式接触很多不同类型的任务.写作、问答、翻译、信息整理、代码生成、文档理解,表面上属于不同软件门类,但对大模型来说,它们都可以先被转写成语言上的任务描述,再进一步转化成内部推理和外部操作.
当然,通用接口不等于万能接口.自然语言的好处,是表达门槛低、适用范围广;它的难处,也恰恰在于模糊.
- 人说"帮我查一下最近最合适的航班",这句话远比点一个固定按钮复杂得多,因为里面包含了省钱、时间、转机、行李、偏好和容错等很多隐藏条件.也正因如此,大模型只是第一步.
- 它让机器更容易理解任务,但要真正把任务完成,系统还需要记忆、检索、工具和环境交互能力.这就把问题自然地引向了智能体.
因此,从聊天机器人到通用接口,真正改变的不是界面风格,而是计算系统开始在更高层次上接收任务.
- 用户不再只是在给软件下操作命令,而是在给系统描述目标;
- 今天的大模型不只是一个更强的生成器,它正在成为连接人类意图和数字世界能力的一座中间桥梁.
这件事还顺带重新组织了软件复杂度------过去复杂度主要压在人这一侧(人要自己判断该用哪个软件、哪个按钮、哪个命令),现在则部分转移到系统这一侧(模型要去理解意图、拆解目标、选择工具、整合结果).用户看到的是交互变简单了,系统内部看到的却是任务解释层被大幅抬高,这是大模型和传统软件时代之间最深的结构变化之一。
2. 大模型与智能体
大模型首先是模型.它是一个参数规模很大、通过大规模数据训练出来的神经网络系统.
对语言类大模型来说,它最基本的训练任务常常可以表述为"根据前文预测后续的词元".但不要被这个表面目标误导.
- 模型之所以重要,不是因为"预测下一个词"这几个字听起来神秘,
- 而是当训练规模足够大、数据足够丰富、架构足够合适时,这种训练会迫使模型学习语言规律、事实知识、任务模式,甚至某种程度上的问题分解能力.
于是,一个原本只是在做序列预测的系统,开始表现出问答、改写、归纳、编程和分析等更一般的能力.
仅有生成输出功能:但即使这样的大模型已经很强,它本身通常仍然只是在"生成输出".它能回答你订机票要注意什么,却不会自动打开浏览器去查票;它能总结一份简历,却不会自己登录招聘网站去投递;它能写一段数据库查询,却不会天然知道该连接哪个库、是否有权限执行、执行失败后该如何恢复.模型能表达,未必能行动;能生成,未必能负责一个持续过程.这正是大模型与智能体的边界所在.
智能体则是系统层的概念.它不是简单等于"更大的模型",而是指一个能够在环境中接收任务、获取信息、作出决策、执行动作并根据反馈继续调整的系统.
在这个定义里,大模型往往充当核心的大脑,智能体还需要其他部件:外部工具、检索模块、记忆系统、任务状态、执行器、监控器,有时还包括人类检查点和权限控制.
只有这些部分合起来,系统才不只是"说出 下一步",而是"真正走完下一步".
- 并不是所有带工具调用的应用都可以自然地称为智能体.如果一套系统只是把一组固定规则包装在对话界面里,那么它更接近一个工作流:流程已经由人事先写好,模型只是负责填空和转述.
- "填空和转述"式系统,学术界通常称之为"意图触发式规则引擎(Intent-based Rule Engine)"。在这种模式下,模型确实只是一个"漂亮的前端外壳",底层的逻辑链路依然是程序员硬编码的 if-else 或固定好的 API 调用链路。
- 真正更强的智能体,通常要具备某种程度的环境感知、任务分解和动态决策能力.它面对的不是完全预设好的每一步,而是要在不确定条件下不断修正自己的行为.
因此,我们可以用一句简洁的话来区分两者:大模型回答问题,智能体完成任务.
现实中的系统几乎都处在两者之间的连续谱上(存在于两个极端之间的一个平滑过渡地带)------有的只是生成文本,有的能调用几个工具,有的能在较长时间里持续执行复杂任务.
- 第一阶段:伪装的自动化(工作流/Prompt Engineering)开发者写好了所有的 if-then 分支,模型只负责把用户的自然语言翻译成 API 参数。
- 第二阶段:任务驱动的反馈循环(受限智能体)核心逻辑是模型能够感知工具调用后的"错误"或"反馈",并据此调整策略(如 ReAct)。它是"动态"的,具备初步的容错能力。这是目前很多商业化 AI 正在努力触达的区域。
- 第三阶段:自主规划与长期演化(高阶智能体/代理)核心逻辑:模型不仅感知反馈,还能在没有明确流程图的情况下,为了一个宏大的目标(如"帮我调研并安排一次去珠海的旅行")自主拆解任务、管理资源、迭代执行。
理解这条连续谱,能帮我们避免两种常见误判:
- 把所有带工具的系统都吹成智能体。很多人看到一个聊天机器人能查天气、能下单,就惊呼"这是智能体"。这只是"工具调用(Tool Use)"能力,不代表它是"智能体(Agent)"。真正的智能体核心在于"自主性(Autonomy)",它能根据环境变化、任务反馈,自主决定该用什么工具、甚至决定是否需要寻找新工具。仅仅因为挂载了几个 API 接口就自称"智能体",是一种营销话术,而非技术本质。
- 把真正需要系统设计的问题误解成"只要模型再大一点就会自然解决"。复杂任务的完成,本质上是一个系统工程问题(在模型与外部世界(工具/反馈)之间建立起稳健、自适应反馈回路的复杂系统。),而不仅仅是模型推理问题。模型再大,它依然是一个"概率预测器"。处理复杂的现实任务(比如点奶茶,要考虑库存波动、支付失败、配送延时等),需要明确的系统架构设计(例如:如何设计长时记忆模块、如何构建稳健的错误反馈机制、如何设置安全围栏)。
大模型和智能体不是彼此完全割裂的两个世界,智能体是大模型接上外部世界后的自然延伸.智能体的智能,源于模型的逻辑能力;而智能体的"能力范围",则源于它与外部世界连接的方式(系统设计)。