历史不仅仅是对已发生之事的记录;它也是一面透镜,帮助我们识别并理解那些界定"我们身处何处、以及我们想去哪里"的差距与机会。对于智能体而言,理解从 Alan Turing 的奠基性工作到今天最前沿系统的演进,不只是一次回顾性的练习------它是一张路线图,用于穿越那些正在塑造技术与社会图景的变化。AI 的成功与失败会给出"我们该往哪里走"的线索:帮助我们避免误入歧途,同时把握机会,去构建一个更具协作性的智能体未来。
你为什么要在意?因为 AI 赋能的智能体并不只是用于优化或便利的工具;它们正在快速成为人们与劳动力"工作、互动与创新方式"的底层基础。从简单的任务自动化到复杂的协作系统,智能体正在演化为自治实体------至少如果你像我们一样相信评论家与行业领袖的判断------它们有潜力创造新经济,并改变我们的工作方式。
AI 赋能智能体的历史同样揭示了今天仍然存在的缺口:缺乏企业级能力、部署先进模型的高成本,以及历史上走过的捷径------这些捷径最终堆成了技术债的大山。我们认为,这些缺口未必是限制,更可能是机会------让智能体更易获得、更专业化、更具影响力的机会;让智能体融入企业生态、从而能够在组织内部与组织之间无缝协作的机会;以及解决安全、透明、可解释性与可靠性等关键问题的机会。归根结底,智能体"曾经在哪里、现在在哪里"的故事,是我们想要讲述的智能体未来故事的地基。图 2-1 总结了智能体的演进。

图 2-1. 智能体的演进
为智能体的未来定框,需要把历史看作不仅是进步的刻度,更是"何者可能"的指示器。你今天做出的选择------关于如何开发、部署与治理智能体------可能不仅会塑造企业内部的团队,甚至会塑造企业本身。
让我们简要看看:智能体从哪里开始、今天在哪里、以及我们认为它们将走向何处。
智能体的过去(The Agent Past)
为了理解今天 AI 智能体意味着什么,AI 的过去提供了关键背景,并暗示了智能体未来可能的演进路径。
人工智能的起源(The Origins of Artificial Intelligence)
从大胆的开端,往往会诞生非凡的进步。
一切始于图灵提出的大胆命题:机器能像人类一样思考吗?这个问题在他 1950 年的开创性论文《Computing Machinery and Intelligence》中被提出,它不仅挑战了科学界,也为理解"智能"本身奠定了新的基础。图灵并非只是对未来做出猜想;他为今天正在构建的 AI 赋能智能体奠定了概念性的地基。
图灵的愿景不只是思想实验;它是一份创新蓝图。他提出"图灵测试"的目的,并不只是让机器"骗过"人类以为它有智能,而是为了探索智能的本质以及智能如何被模拟。图灵的远见告诉我们:智能并不受制于生物学边界------这一点至今仍在激励我们去构建越来越强大的智能体。他的工作也提醒我们:那些大胆的问题------挑战常规、拓展可能性边界的问题------是进步不可或缺的动力。尽管如此,智能体今天已经不只是"模仿人类智能",而更是"放大人类潜能"。
图灵为类人系统奠定了基础,但 1956 年的达特茅斯会议,可能才是人工智能作为一门正式学科的起点。正是在那里,"人工智能"这一术语被首次提出,标志着一种集体雄心:创造能够完成传统上需要人类智能才能完成的任务的机器。参会者包括 John McCarthy 、Marvin Minsky 与 Herbert A. Simon------这些人物如今被认为远远走在时代前面------他们试图勾勒自己认为可实现的目标。他们的愿景为"AI 可以成为什么"提供了共享框架,尽管他们对时间表与进展速度的预估并不一定现实。
十年后的 1966 年,Joseph Weizenbaum 创造了 ELIZA------一个用简单模式匹配来模拟心理治疗师对话的程序,让用户能够进行一种"感觉像人"的互动。虽然以今天的 AI 技术视角看,它显然很简单,但 ELIZA 展示了自然语言处理(NLP)与交互式 AI 系统的潜力。它也引发了关于"创造模仿人类行为的智能体"的伦理影响的关键争论------而这一讨论至今仍然相关。
之后,20 世纪 70 年代出现的专家系统(如 MYCIN 与 DENDRAL)展示了机器解决高度特定且复杂问题的潜力。MYCIN 用于诊断细菌感染并推荐抗生素;DENDRAL 用于分析化学化合物;它们证明了 AI 可以把人类专业知识编码进基于规则的系统。这些系统并非通用,而是聚焦在各自领域,通过预定义规则与逻辑来复刻专家级决策。从某种意义上,它们代表了第一波"智能体":能够在结构化问题空间中,以一定精度与效率进行导航与决策。
这些早期成功为现代 AI 赋能智能体铺垫了基础。它们表明:智能可以被"专门化"------这一概念在今天仍随处可见,例如 AI 在法律文档分析、金融反欺诈检测等领域的垂直应用。这些早期系统也暴露了我们至今仍在处理的挑战,例如对透明性的需求,以及把专家系统扩展到超出狭窄问题定义之外的困难。
机器学习时代(The Era of Machine Learning)
20 世纪 80 年代与 90 年代,AI 快速演化,为后来 2000 年代初的突破奠定了基础。这一时期标志着从"规则系统主导"向"从数据中学习"的方法转变,并引入了一些从根本上改变 AI 研究轨迹的概念。神经网络------受生物神经元工作方式启发------重新成为构建 AI 系统的可行路径。尽管当时的硬件与算法能力有限,但早期的神经网络研究,例如 David E. Rumelhart 、Geoffrey Hinton 与 Ronald J. Williams 在反向传播算法上的工作,为后来深度学习的进展埋下了伏笔。
强化学习(RL)等技术也在这一时期获得关注。这类算法把决策建模为一个序列过程:智能体通过探索与利用环境来最大化回报。90 年代,这一路径被应用到越来越复杂的问题中,从机器人到博弈对战。
不过,90 年代并非一帆风顺。由于早期几十年的承诺未能兑现,AI 研究的资金与关注度收缩,这一时期常被称为"AI 寒冬"。但这种降温也给研究者提供了机会:打磨方法、修正前一代路径的局限。
幸运的是,AI 寒冬很快有所回暖:1997 年,IBM 的 Deep Blue 击败国际象棋世界冠军 Garry Kasparov,再次展示了 AI 的进步。这一成就凸显了"专用型 AI 系统"在明确定义领域内的能力。尽管 Deep Blue 主要依赖强力计算与基于规则的技术,而非现代学习方法,但它激发了人们对 AI 可能性的重新兴趣,并为后来更具适应性与可泛化的系统铺平了道路。
深度学习革命(The Deep Learning Revolution)
2000 年代标志着神经网络的复兴:它把一个"很有前景但长期未被充分使用"的概念,转变为现代 AI 的核心构件。Hinton 及其同事发表了重要论文《A Fast Learning Algorithm for Deep Belief Nets》,通过改进反向传播算法(训练多层神经网络的方法)重新点燃了业界兴趣。尽管反向传播在 80 年代就已出现,但直到 2000 年代,计算能力与数据规模才首次达到足以有效处理神经网络训练的水平。这些进步使研究者能训练更深的网络,在图像、音频与文本中识别复杂模式,推动 AI 超越此前由规则系统与浅层学习方法主导的范式。
神经网络的再次兴起催生了我们今天所说的"深度学习":拥有多层人工神经元的模型学习数据的层级化表征。像在照片中识别人脸、实时翻译语言、或在视频流中识别物体等任务,第一次变得可行。
这一时期深度学习的影响不仅体现在技术层面,也体现在文化层面。在 Hinton 早期工作的基础上,更新的模型在特定领域超越了人类基准------例如 2012 年的 AlexNet 在图像分类上的突破,引发了跨行业的创新浪潮。2000 年代的深度学习运动为可规模化的学习系统奠定了基础,把 AI 定位为一套几乎可应用于任何领域的通用工具集。这种进展不仅弥合了研究与现实应用之间的鸿沟,也让我们得以窥见今天:一个 AI 能够理解、学习并自治行动的世界------它将重塑我们解决问题与与技术互动的方式。
智能体的现在(The Agent Present)
尽管 AI 的过去展示了能力的快速提升,但让 AI 智能体成为可能的那些关键能力,其实只是非常近期才出现,而且它们的演进正发生在当下这一刻。随着 Transformer 模型与大语言模型(LLM)把舞台搭好,AI 智能体如今才真正成为可能。
Transformer 架构(The Transformer Architecture)
2017 年,Google 的研究人员发表了《Attention Is All You Need》,引入了 Transformer 架构------一种重新定义 AI 如何处理数据的框架。与更早的模型(如循环神经网络 RNN 和长短期记忆网络 LSTM)不同,后者在长程依赖上常常力不从心,并且需要按序处理;Transformer 则利用自注意力机制(self-attention)同时处理全部输入数据。这项创新让模型更快、更高效,也更擅长在长序列中捕捉上下文。
Transformer 架构为今天主导 AI 的 LLM 奠定了基础。通过支持在海量数据集上的可规模化训练,Transformer 解锁了此前难以实现的能力。像 GPT-3、BERT 及其后续模型,如今能够处理自然语言、生成相对连贯的文本,甚至进行多轮对话。这一性能跃迁抬高了人们对 AI 能做到什么的预期:AI 从"完成特定任务"转向"成为通用工具"。也正是得益于 Transformer 架构,"AI 智能体可以写作文、翻译语言、甚至生成创意作品"这一想法开始变成现实。
Transformer 架构还在各行各业点燃了一波创新浪潮。研究者与开发者迅速在其基础上扩展,探索语言、视觉乃至多模态系统的新应用。企业开始利用 LLM 解决复杂问题,从自动化客户服务到支撑科学研究。通过让 AI 更好地理解并与人类语言交互,Transformer 把我们带入了 LLM 时代。
LLM 时代(The Age of LLMs)
2022 年 11 月 30 日,一件不可思议的事发生了,并改变了一切:OpenAI 发布了 ChatGPT,并免费开放使用。
第一次,数以百万计的人获得了一个 AI 系统的使用权:它能够用自然语言进行动态对话------像人一样沟通------而且让人感觉既"有回应"又"聪明"。突然之间,AI 不再只是专家的工具;它成为面向所有人的产品。这种高级对话式 AI 的大众化重塑了我们对 AI 的期待,并引发了一波持续在各行业扩散的创新与参与热潮。
ChatGPT 的到来也彻底改写了预期。人们开始把 AI 应用视为不仅是"任务专用工具",更是能够适应多样上下文的协作者。AI 也不再只是幕后运转的东西------它走到台前,被嵌入工作流、客户互动与创作流程之中。这为 AI 应该成为什么样子立下了新标准:不仅要准确,还要有参与感、足够通用,并且易于集成。它迫使开发者推动 AI 的边界:不仅是能做什么,也包括如何跨领域工作------从客服到教育,再到软件开发。
把高级对话式 AI 交到数百万人手中后,ChatGPT 以一种前所未见的规模加速了创新。几乎一夜之间,新创业公司涌现,在 LLM 之上构建专用工具与工作流;成熟企业重新思考客户触达策略;教育者开始重新想象学生如何把 AI 作为学习伙伴。涟漪效应也延伸到了技术领域:微调(fine-tuning)、人类反馈强化学习(RLHF)、多模态能力等方向成为高度聚焦的热点。
持续的进展显示,AI 正从"泛化工具"走向"专门化、多模态与自治系统"。微调成为一项关键创新。例如,模型如今可以针对编程任务进行专门训练;而像 Whisper 这样的模型,通过针对转写与翻译的微调,展示了 LLM 如何被改造以在细分领域做到更强。这种面向微调的转向,暗示了一个未来:AI 智能体不仅能力广泛,而且还能被定制以满足高度具体的需求。
多模态 AI 进一步拓展了 AI 智能体的能力边界。OpenAI 的 GPT-4 与 Anthropic 的 Claude 使智能体能够处理并融合文本、图像、语音与视频,让 AI 更通用、更具适应性,并把技术推向能够解决"需要语境理解 + 视觉理解融合"的复杂问题。
然而,能力增长的同时,伦理挑战也在加剧。今天,关于 AI 研发中的透明性、公平性、准确性与问责性的讨论更为激烈。随着 AI 与日常生活愈发交织,偏见、滥用、幻觉、以及缺乏监督与可观测性所带来的风险也更加凸显。监管框架开始出现,旨在确保 AI 智能体以负责任且透明的方式运行。这些框架聚焦于一些关键议题,例如可解释性------智能体必须澄清决策如何产生------以及公平性------系统必须避免延续或加剧不平等。
今天,这些进展(例如微调与专门化)正在把智能体塑造成各自领域的专家;而多模态能力与实时决策将把它们的触角延伸到过去难以触及的领域。合在一起,这些要素将定义 AI 演进的下一阶段:智能体不仅成为聪明的协作者,也将成为可靠的伙伴,用于应对人类最紧迫的挑战。
创新仍在继续,而且来自全球各个地区。2024 年,Mistral 在欧洲建立了 AI 的桥头堡。来自 United Kingdom 的 Google DeepMind 在蛋白质折叠方面取得进展,并发布了数亿个预测的蛋白质结构。而 China 的 DeepSeek(于 2024 年 12 月发布)则表明:LLM 能力不仅在快速增长,其成本也在以指数级速度下降。
回过头看,很清楚的一点是:LLM 并不是对对话式 AI 演进的一次渐进式改良。相反,它们是一场更大变革的开端------现在是时候更严肃地思考 AI 的未来:一个由 LLM 驱动的智能体不再只是工具,而会成为伙伴的未来,并在未来几年重塑我们生活、工作与互动的方式。
因此,我们的智能体未来的舞台已经搭好。
智能体式未来(The Agentic Future)
AI 智能体的能力正在快速提升,每天都有更多应用出现。了解未来将出现哪些能力,对于把握 AI 智能体将带来的机会至关重要。
短期:为企业级智能体打地基(Short Term: Laying the Foundation for Enterprise-Grade Agents)
LLM 的版图仍在快速变化:能力呈指数级增长,而成本在大幅下降。它会把我们带向哪里?
想想半导体行业。计算早期,通用处理器占据主导;但随着能力提升、成本下降,行业转向更专用的芯片。图形处理器(GPU)最初是为图像渲染而设计,但后来在游戏、科学计算,以及更晚一些的人工智能等领域的并行处理上变得至关重要。更近一些,专用集成电路(ASIC)与张量处理器(TPU)的兴起进一步针对 AI 工作负载优化了性能:在提升算力的同时降低成本与能耗。
同样的"能力/成本"动态,在可再生能源领域也有一个非常显著的例子:太阳能板技术经历了类似轨迹。由于制造工艺进步、规模经济与材料科学改良,光伏(PV)太阳能板在过去十年里成本下降超过 80%。与此同时,把阳光转化为电能的效率也在稳步提升,使太阳能成为化石燃料的可行替代方案。这种指数级进步重塑了全球能源格局,推动太阳能在发达市场与新兴市场的广泛采用。就像计算领域的专用芯片一样,面向特定应用定制的太阳能板------例如适用于屋顶的柔性面板,或用于大型装置的聚光光伏系统------进一步扩大了其实用性与可负担性。这些例子强调:当技术能力加速而成本下降时,行业会如何被改造,并为更大的创新与普及铺路。
在 AI 领域,这种趋势------能力快速提升、成本同样快速下降------为"快速创新 + 需求加速"的时代搭好了舞台:随着 AI 在各行业变得越来越可获得、越来越具变革性,创新与需求将相互强化。成本优化与领域专门化的持续进步,会进一步加速这一趋势。这意味着企业可以部署更小、更便宜、并面向特定行业(如法律分析或金融预测)定制的模型,而不牺牲准确性。通过降低门槛,这些创新也会让由 LLM 驱动的智能体对更小的组织与更细分的应用变得可行,从而把前沿 AI 能力民主化地带给更多人。
随着这些专门化模型增多,需求也会把采用推向行业的每个角落、推向企业的每个切面,我们今天已经看到对"企业级智能体服务"的需求正在形成。这些服务超越当前能力,覆盖企业必需的功能,例如可发现性(discoverability)、可运维性(operability)与可观测性(observability)。智能体会更容易在组织内部被定位与集成,就像今天的 API 一样;而可运维性的提升确保它们能随着业务需求变化而扩展与演进。可观测性------提供关于智能体如何做出决策的细粒度洞察------是关键,它帮助企业在这些系统上建立信任与信心。合在一起,这些进步会把智能体转化为能够支撑大规模、关键任务应用的可靠工具。
让这个未来如此令人兴奋的,是由 LLM 能力快速规模化所驱动的、前所未有的创新速度。随着模型变得更便宜、更高效,它们会以我们尚未想象过的方式被部署。
另一项重要变化,将是"领域专门化"与"多模态能力"的融合。智能体将不再局限于处理文本;它们会同时分析图像、音频与其他数据类型,从而能够处理复杂的、多维度的问题。想象一个智能体协助医疗团队:实时生成病历记录、分析化验结果、并解读影像扫描------所有这些同步发生。这种"领域知识 + 多模态理解"的汇合,会打开全新的可能性,从精准医疗到先进制造。
随着智能体变得更强、更能适应,我们也预见企业对 AI 采用方式会发生转变。组织不再只盯着某些具体用例,而是开始把智能体整合进更大的生态系统中。这些生态系统将允许智能体跨部门协作、共享信息并优化工作流,形成一个在每个层级推动创新的"智能网络"。在这种背景下,智能体的角色会从"完成特定任务的工具"演化为"驱动业务战略与增长的核心引擎"。
能力增长、成本下降与可获得性提升的叠加,使 AI 赋能的智能体有望成为我们未来的中心组成部分。从简单智能体起步,并逐步走向专门化、多模态与企业级系统,通往那个世界的地基已经铺好:AI 不再只是工具,而是一种无处不在、可协作的创新力量。前方道路充满机会,而迄今为止的历史性突破,只是即将到来之事的开端。
中期:Agentic Mesh 的崛起------智能体生态系统(Medium Term: The Rise of Agentic Mesh---the Agent Ecosystem)
我们知道智能体会到来。但它们的扩散带来了下一组重要问题:
- 如何管理它们?
- 它们将如何被组织起来?
- 是否存在可类比的人类经验或启发,帮助我们回答这些问题?
总体而言,智能体将从简单聊天机器人演进为自治智能体,再演进为智能体团队,再演进为"团队的团队",并在 agentic mesh(智能体生态系统)中协作。让我们展开讲讲我们所设想的演化路径。
最初,智能体会专注于特定、离散的任务:回答客户咨询、分析数据集、或起草文档。这些简单智能体会在各自细分领域表现出色,但仍被限制在其领域边界内。然而随着对更复杂能力的需求增长,"智能体团队"将出现。这些团队会共同工作,分享信息并分配任务,以实现更复杂的目标。每个智能体贡献其专长,组合起来完成任何单个智能体都无法独立处理的任务。
随着这些智能体团队变得更先进,它们会进一步演进为"团队的团队",从而能够处理更错综复杂的挑战。想象一个生态:一个智能体团队负责产品研发,另一个负责供应链物流,第三个负责客户服务。这些团队不会孤立运行;它们会交换信息并协调策略,形成一个动态且可适应的网络。例如,供应链团队出现延误,可能触发客户服务团队主动调整交付预估,同时产品团队修正库存预测。这种级别的互联互通与响应能力,可能会重新定义从医疗到金融到制造等行业的效率与创新。
从"团队的团队"跃迁到"智能体生态系统",引入了新的复杂度与机会。这类生态系统将由跨多个组织的无数智能体与智能体团队组成,形成互联的智能之网。这样的生态系统可能管理全球供应链,把气候建模与城市规划整合起来,或编排对自然灾害的实时响应。
但复杂度随之带来一个紧迫问题:我们如何管理这些生态系统?与简单自动化工作流不同,智能体生态系统需要结构、规则与监督,以确保其有效、合乎伦理且可持续地运行。
管理智能体生态系统需要一些服务与框架,与人类组织管理相对应。首先,我们需要治理结构------类似公司层级或国际条约------来定义智能体如何交互、共享数据与解决冲突。这些框架将建立数据共享协议:在保障安全与隐私的同时实现无缝协作。正如人类组织依赖领导力与问责,智能体生态系统也需要监督机制,例如提供对智能体决策透明度的监控系统,并防止"失控行为"。信任将成为基石,需要强健的验证系统来确保智能体遵循共同认可的标准与伦理。
另一个关键组件是"协调服务",它相当于把整个生态系统粘合起来的胶水。人类组织常依赖项目经理或协作工具来让团队围绕共同目标对齐;在智能体世界里,这可能体现为元智能体(meta-agents)或编排层:监控生态系统性能、设定任务优先级、并消除瓶颈。这些编排者可以动态重分配资源,在智能体或团队之间调解分歧,并确保生态系统整体保持对齐于更高层目标。
最后,智能体生态系统需要持续学习与适应,就像人类组织会随需求变化而演化一样。训练流水线需要被整合进生态系统,使智能体能够学习新技能、适应新数据,并在条件变化时迭代策略。反馈回路------既包括智能体之间的反馈,也包括来自人类的反馈------将对确保生态系统持续有效、持续响应起关键作用。这个过程对应了人类系统中的职业发展与组织反馈机制,强调了在复杂性管理中"适应性"的重要性。
随着我们走向这种未来,智能体生态系统的管理将成为我们面对的最重要挑战之一。借鉴人类管理结构与组织理论将提供宝贵启发,但我们也需要新方法来应对 AI 驱动系统的独特复杂性。这些生态系统------也就是我们所说的 agentic mesh------将重新定义"可能性的边界",让我们能够以当下只能想象的尺度与速度去应对挑战。
长期:智能体企业的诞生(Long Term: The Creation of the Agent Businesses)
我们越往前看,试图预测未来时水晶球就越模糊。考虑到 AI 与智能体版图的快速变化,读者最好把这一节视为纯粹的推测。话虽如此,我们开始。
AI 智能体的未来,不仅在于个体能力,更在于它们协作、适应并演化为"相互交互的实体生态系统"的能力。然而,管理这些生态系统会带来新的挑战,并需要全新的服务。正如前文所述,像人类组织一样,智能体生态系统需要治理、通信协议与协调机制。
把人类管理方式作为类比,可以为智能体生态系统如何被治理提供有益洞见。在人类组织中,层级与网络结构用来协调努力并确保与战略目标一致。智能体生态系统可能映射这些结构:由"领导"智能体来协调专门化智能体或群组的活动。就像项目经理监督人类团队,元智能体可以管理下属智能体的工作流:解决冲突、重新分配资源、并确保任务对齐于组织目标。借鉴社会学与组织理论的概念,技术也可能实现诸如分工、激励结构与反馈回路等原则,用以优化智能体生态系统。
智能体生态系统的演化不会止步于组织内部。很快,我们预计会出现主要甚至完全建立在智能体生态系统之上的企业。这些企业可能覆盖物流、保险,乃至农业等行业:由专门化智能体来优化运营、预测需求并自治协调任务。这类智能体企业将比传统组织更快、更可规模化,也更具适应性,从而能在高度竞争的市场中蓬勃发展。
最终,这些生态系统会延伸到单个组织之外,在跨行业层面形成互联网络。外部生态系统将带来前所未有的效率与协作:减少资源浪费,并对扰动进行实时响应。到这个阶段,智能体不再只是优化既有流程,而是会改造全球经济,带来关于贸易、物流与价值创造的全新范式。
那么未来会怎样?我们推测不久的将来(我们把"不久"刻意留得足够模糊,但认为大概率会发生在接下来两到三年内),会出现第一波"agent-first(智能体优先)"企业:组织里智能体数量超过人,智能体管理智能体团队与人类团队。随着这些组织变得更大、更独立,我们预计会出现把智能体绑定进公司与企业的法律构造,例如公司结构与正式合同。并且随着越来越多这样的组织成长与繁荣,它们很可能会演化出"智能体供应链",就像以人为中心的供应链一样。
智能体的未来确实一片光明!
总结(Summary)
agentic mesh 代表着一种协作式智能体生态系统的未来:自治智能体将从单一任务工具演化为跨组织、跨行业乃至跨全球网络的互联生态。随着成本下降、能力提升,这些智能体将像人类团队一样协作,并由治理、编排与监控框架加以支撑,从而确保信任与透明。正如公司依赖组织结构与协调机制一样,agentic mesh 提供了实现对齐、适应与创新的基础设施------在一个越来越由智能体驱动的世界里,重塑我们生活、工作与协作的方式。
不过,要想真正利用这一生态系统,你需要深入理解智能体如何工作。在第 3 章中,我们将解释当下普遍部署的 AI 工作流的核心组成部分,以及为什么尽管存在一些重要差异,这些工作流仍然是智能体当之无愧的前身。