AI Agents 实战——GenAI 工作流的演进

在过去两年里，大型语言模型（LLMs）重塑了人工智能的版图。从简单的基于提示词的交互到横跨各行业的复杂应用，LLM 的能力在架构、训练技术与微调策略上的突破推动下迅速演进。随着这些能力的提升，从 ChatGPT 到截至 2025 年 4 月的"智能体（agentic）系统"的转变，是一条顺理成章的演化路径------将推理、规划与行动能力纳入系统，构成了一次重大的技术飞跃。

本章将探讨 LLM 的基础：它们如何构建、如何被使用，以及预训练模型与微调模型之间的差异。更重要的是，本章将为下一次飞跃------AI 智能体的崛起------铺垫舞台。

本章将涵盖以下主题：

了解基础模型与 LLM 的崛起
最新的重要突破
通往 AI 智能体之路
需要一个"额外智能层"：引入 AI 智能体

读完本章后，你将清晰理解 LLM 的演进轨迹、其训练与部署方式，以及为何通往真正智能系统的道路必然指向 AI 智能体的出现。

技术要求

你可以在本书配套的 GitHub 代码库获取本章的完整代码：github.com/PacktPublis...

了解基础模型与 LLM 的崛起

由于基础模型（foundation models）的出现------这类通用、可在广泛任务间迁移的模型------AI 经历了一次根本性的变革。其中，LLM 居于舞台中央，通过自然语言重新定义了我们与机器的交互方式。

从"窄人工智能"到基础模型

在基础模型崛起之前，AI 领域主要由"窄人工智能"主导------系统被构建来完成某一个特定任务，且仅限于此。每个用例都需要一条专属流水线：独特的数据集、专门的模型架构，以及定制化的训练流程。想做垃圾邮件分类？就构建一个垃圾邮件过滤器。需要从文档中抽取人名和地名？就训练一个命名实体识别模型。想摘要新闻？那又得再训练一个"量身定制"的模型。

这种割裂式方法存在多重弊端：模型脆弱------只在其狭窄训练域内表现良好------且维护成本高。任务或数据分布稍一变化，往往就意味着要从头开始重新训练。

基础模型的引入，标志着我们构建与思考 AI 系统方式的根本性转变。此类模型在大规模、跨领域、跨任务的海量数据上进行预训练。其目标是在这一阶段让单一模型习得对世界的通用理解------语言、结构与模式。一旦这种通用知识被嵌入，便可用极少的额外数据与算力，将模型适配到具体任务。

例如，不再需要为"法译英"单独训练一个模型，我们可以取用一个预训练的基础模型，再用较小规模的翻译数据集对其进行微调。预训练模型已经具备对语言句法、语法与语义的理解；微调只是在将这种理解对齐到特定目标。

基础模型背后的关键创新是迁移学习（transfer learning） 。模型不再从零开始学习，而是把从通用训练中获得的知识迁移到具体问题上。这显著提升了效率，减少了对标注数据的需求，并使 AI 系统更加稳健与灵活。

此外，基础模型并不局限于语言。它们跨越多种模态：有些模型不仅能处理和生成文本，也能处理图像、音频或代码。

本质上，基础模型相当于 AI 的"通用底脑"------一次训练，多次复用。正是这种可扩展性与适配性，解锁了构建智能系统的全新可能，为更自主、更具交互性的应用（如 AI 智能体）奠定了基础。

前文提到，基础模型能够处理多种数据形式。在这一模型谱系中，也存在专注于单一数据类型的"数据特定模型"，LLM 正是其中聚焦文本数据的典型代表。

LLM 本质上是基础模型的"语言特化"版本。它们建立在深度神经网络架构之上------尤其是 Transformer------并通过"预测序列中的下一个词"进行训练。但这个看似简单的目标却解锁了令人惊讶的涌现行为：LLM 能进行对话、回答复杂问题、写代码，甚至模拟推理。

定义

"涌现行为"指的是当系统规模达到某个阈值时，意料之外地出现的复杂能力------这些能力并非被显式编程或预期。在 LLM 语境下，当模型在数据量、参数规模和训练时长上加大规模时，这些行为就会显现，解锁在小模型中不存在的新能力。

随着模型扩展，它们开始表现出如下涌现特性：

上下文学习（In-context learning） ：仅通过在提示词中给出少量示例，LLM 就能学会完成一项任务------无需任何微调。这在较小模型中并未出现。
链式思维推理（Chain-of-thought reasoning） ：通过生成中间推理步骤，LLM 能解决多步问题，如数学应用题或逻辑谜题------这是过去的弱项。
类比推理（Analogical reasoning） ：能够像人类认知般解决类比题（例如"cat 之于 kitten，如同 dog 之于......"）。
算术与逻辑：在大规模下，LLM 会发展出处理多位数算术或逻辑题的能力，即便这些任务并非其原始训练目标。
理解隐喻与幽默：高级 LLM 能理解新的隐喻，甚至尝试讲笑话------展现对语言与细微差别的抽象把握。
多任务泛化：不再为某一特定任务而训；它们可同时处理翻译、摘要、问答等多项任务------无需针对每项任务的专用训练。

这些能力不仅仅是"更高的分数"，而是质变的行为，只有在规模化时才会"涌现"，从而赋予 LLM 跨领域、且与现实应用密切相关的广泛技能。

LLM 的内部机理

每个 LLM 的核心都是强大的神经网络架构------最常见的是 Transformer。此类网络通过在数十亿文本样本上学习统计关系，来处理并理解数据（尤其是人类语言）中的模式。虽然松散地受人脑结构启发，但 LLM 完全通过数学运作：信息在相互连接的层之间传递，并在训练过程中自适应地更新。

为了让语言可被计算，第一步是把文本转成数字，因为神经网络无法直接处理原始文本。这通过两个关键步骤完成------分词与嵌入：

分词（Tokenization） ：把句子拆分为更小的片段（token）。依据模型不同，这些片段可能是完整单词，也可能是词的一部分。例如，"The cat sat on the mat" 可能被拆成单词级或更小的子词单元，取决于所用分词器。
嵌入（Embedding） ：把每个 token 映射到一个高维向量------一串数字，编码其含义及与其他词的关系。嵌入在训练中被学习，使相似词在模型的"语义空间"中彼此接近。这帮助模型理解上下文与词用法，例如"Paris"和"London"作为城市之间的关系。

一旦输入被分词并嵌入，它就会流经 Transformer 网络本身。不同于只有少数隐藏层的传统神经网络，LLM 使用几十层，甚至上百层的堆叠层，每一层都包含称为"注意力头（attention heads）"的机制。注意力层帮助模型判断在给定预测中输入的哪些部分最为相关。比如在补全一句话时，模型会学会更关注那些会影响下一个词的特定前文词语。

训练 LLM 的过程，就是让它随着时间推移做出更好的预测。这通过一种称为**反向传播（backpropagation）**的方法完成：模型把自己预测的词与正确答案进行比较，计算偏差程度，然后更新其内部参数，以减少未来的误差。

定义
反向传播是用于训练神经网络的核心学习算法。它通过将模型预测与正确答案比较来计算误差（称为"损失"），再调整网络的内部参数（权重）以减小该误差。这种调整是将误差沿着网络层级"向后传播"来完成的------这也是其名称的由来。随着时间推移，这一过程帮助模型做出越来越准确的预测。

假设你输入：The cat is on the ... 。模型会通过为可能的续写（如 mat 、roof 或 sofa）分配概率来预测下一个词。它并非随机猜测，而是依赖训练中见过的模式。

这一过程会在海量数据上反复进行------数以百万、数以十亿计的句子------使模型逐步把握语言的结构与韵律。最终得到的系统不仅能补全句子，还能进行对话、解决问题，并给出具有上下文意识、往往相当流畅的语言回应。

我们如何使用 LLM？

当 LLM 的训练阶段结束后，我们需要用该模型来预测下一个 token，这个过程称为推理（inference） 。

在机器学习与 AI 的语境中，推理是指将已训练好的模型运行在新的输入数据上，以生成预测或响应。在 LLM 中，推理包括处理一个提示（prompt）并产生基于文本的输出；对于大型模型而言，这通常需要相当可观的计算资源。

LLM 通常可通过 API 访问，使开发者无需自行管理复杂的基础设施。该方式简化了集成，让 AI 驱动的应用更具可扩展性与性价比。

诸如 OpenAI、Azure AI 与 Hugging Face 等 LLM 提供商会提供能够实时处理请求并返回响应的 API。一般流程包括：

认证（Authentication） ：开发者使用 API 密钥或 OAuth 令牌进行安全访问。
定义
认证用于证明开发者的应用有权访问外部服务。常见做法包括使用 API 密钥 或 OAuth 令牌。API 密钥是服务方提供的一串唯一字符串，类似密码，用于识别应用；而 OAuth 是一种更灵活的机制，允许用户授予应用特定权限，并以此签发临时访问令牌。两种方式都能确保只有获授权的用户或系统才能发起请求，从而保护敏感数据与资源。
发送请求：以结构化的 JSON 请求体提交模型名称、提示词，以及诸如 **temperature（温度）**等参数（控制随机性）。
接收响应：API 返回生成的文本输出，并附带诸如 token 用量等元数据。

注（Note）

一些 LLM API 支持流式（streaming）响应：模型不会等到生成完整答案才返回，而是按 token 逐步输出。此方式有助于缓解大型模型常见的高时延问题。通过更快送达首段文本，流式传输可降低感知时延（用户看到任何输出前的等待时间），从而带来更顺滑、更灵敏的体验。

现在，一个合理的问题是：如果我想在本地电脑上运行模型怎么办？ 为回答这个问题，我们先区分以下两类：

私有 LLM（Private LLMs） ：由 OpenAI、Anthropic、Google 等公司开发的专有模型。它们是闭源的，无法查看或修改底层代码。此类模型通常仅通过 API 访问，并采用按使用量计费（基于 token）的成本模式。
开源 LLM（Open source LLMs） ：如 Meta 的 LLaMA 、Mistral 、Falcon 等，任何人都可下载、修改与部署。开发者可以获取已训练参数，在私有基础设施上运行，甚至基于其架构从零重新训练。

不过，即便是开源 LLM，许多开发者依然选择通过 Azure AI Foundry 、Hugging Face Hub 等平台提供的 API 来使用这些模型。

这种做法具有多重优势：

降低基础设施成本：独立运行 LLM 需要大量算力，成本可能过高。使用 API 将负担转移给服务提供方，使开发者无需自购昂贵硬件即可利用强大模型。
可扩展性：API 服务可按需弹性扩展以应对波动的工作负载，稳定表现且无需人工干预。
安全与合规：如 Azure AI Foundry 等平台提供企业级安全能力，帮助组织满足合规要求并保护敏感数据。

在 AI 智能体 以及更广义的 AI 驱动应用 场景中，最普遍的路径是通过 API 消费 LLM 。例外多见于离线/断网 场景（如海上平台或偏远地点运行），或数据属地等监管限制（要求模型驻留在无公有云的特定国家/地区）。

最新的重要突破（Latest significant breakthroughs）

近几年，生成式 AI（GenAI）领域快速演进，出现了在效率、可适配性与推理能力上不断突破的新技术。下文将介绍若干显著提升 GenAI 模型性能、同时降低计算开销的最新方法。

小型语言模型与微调（Small language models and fine-tuning）

**小型语言模型（SLMs）**日益受到重视：许多组织在寻求更高效、成本更优的替代方案，以取代动辄千亿参数级的超大模型。

SLM 是一类更精简的 GenAI 模型，能够高效处理与生成自然语言，相比更大的同类模型占用更少算力。与可能拥有数千亿参数的 LLM 不同，SLM 通常只有数百万至数十亿参数。

由于体量更小，SLM 更易部署在硬件受限环境 ，如移动设备、边缘计算系统与离线应用。通过聚焦特定领域任务 ，SLM 在其专长范围内可获得可比 LLM 的表现，同时具备更高的性价比 与能效。

SLM 可以在预训练阶段就面向特定领域 进行设计；也可以先进行通用预训练 （类似 LLM），再在后续调整与定制 。将模型进一步专精于某一具体领域的过程称为微调（fine-tuning） 。

微调使用较小的、任务定制的数据集 ，把基础模型（foundation model）适配到特定应用。与直接训练一个全新模型不同，微调会修改并优化 预训练模型的参数，使其朝向新任务的目标收敛------核心思想是复用预训练阶段获得的通用知识，再将其对齐到新任务，而非从零开始训练。

在前面的图中，你可以看到 OpenAI 预构建模型进行微调（fine-tuning）的工作示意图。其核心思路是：先有一个带有通用权重/参数的预训练模型 ，然后向模型喂入自定义数据，通常以"键值（key-value）"形式的 prompt--completion 对。在实践中，你是在提供一组示例：针对特定问题（prompts），模型应该如何作答（completions）。

下面是这些键值对可能的示例格式：

erlang 复制代码

{"prompt": "<prompt text>", "completion": "<ideal generated text>"}
{"prompt": "<prompt text>", "completion": "<ideal generated text>"}
{"prompt": "<prompt text>", "completion": "<ideal generated text>"}
...

训练完成后，你将得到一个定制化模型，它对某个给定任务（例如对公司文档进行分类）特别适配。

微调的主要收益在于：无需从零开始重新训练，即可将预构建模型 定制到你的用例上；同时只需要更小的训练数据集 ，因此训练时间与算力 需求更低。与此同时，模型仍保留在大规模原始数据上训练所学得的生成能力与精度。

微调对 SLM（小型语言模型） 尤其有价值，因为它能在保持高效的同时获得较高性能。

为优化微调流程（尤其针对 SLM），已经发展出多种进阶技术：

低秩自适应（LoRA, Low-Rank Adaptation） ：在模型层中插入可训练的低秩矩阵，以极小的计算开销适配新任务；在内存占用上非常高效，常用于在受限硬件上微调大模型。
适配器微调（Adapter Tuning） ：不修改整个模型，而是在各层加入称为"适配器（adapter）"的小型子网络。微调期间只更新这些适配器，显著减少可训练参数数量，同时保留预训练知识。
前缀微调与提示微调（Prefix Tuning & Prompt Tuning） ：通过在输入前附加可学习的任务特定向量或 token 来引导模型输出。前缀微调在序列开头加入可训练向量；提示微调优化一组提示 token 以引导模型行为。这两种方法都无需改动模型内部参数即可高效适配。

通过将 SLM 与上述高效微调 方法结合，AI 应用能够在不承担超大模型的计算与成本负担的前提下，达到较高水平的性能，使 AI 在各行业与用例中更易用、可持续且可扩展。

模型蒸馏（Model Distillation）

模型蒸馏 （又称知识蒸馏，Knowledge Distillation, KD ）是让"重量级"LLM（参数规模庞大）将其知识迁移给更轻量的 LLM 或 SLM，同时尽量不损失性能的过程。

鉴于最强大的 LLM 往往拥有数十亿乃至上万亿参数，训练与推理的计算成本都非常高，蒸馏的主要优势包括：

在尽量保持精度的前提下减小模型体积
提升推理速度、降低时延
降低计算与能耗成本
便于在边缘设备与移动平台上部署

典型的蒸馏流程包括：

教师模型训练（Teacher Model Training） ：先用海量数据预训练一个能力很强的大模型，并对特定任务进行微调。
软标签提取（Soft Label Extraction） ：教师模型输出（通常称为"硬标签"）背后，实则包含每个候选 token 的概率分布向量 。这些概率即软标签（soft labels） ，能提供更细致的预测"倾向"与"思路"，对训练学生模型非常有用。
学生模型训练（Student Model Training） ：用软标签与真实标注（ground truth）共同训练一个更小的学生模型，使其习得教师的细粒度判断能力。
优化与微调（Optimization & Fine-tuning） ：对学生模型进行进一步的优化与微调，以继续提升其精度与效率。

随着 LLM 的规模与算力需求不断增长，蒸馏（distillation）技术使其在保留高质量输出 的同时，更便于实际部署。

推理模型（Reasoning models）

到 2024 年末，一类被称为推理语言模型（RLMs, Reasoning Language Models）的新模型出现，旨在把复杂问题求解能力扩展到传统 LLM 之外。它们代表了 GenAI 开发的重要转向：通过内部斟酌与逐步推理来处理复杂任务。

RLM 示例：

OpenAI o1 模型 （2024 年 9 月发布）：引入"私有链式思维（private chain-of-thought） "机制，使模型在作答前先进行内部处理与推理；在数学与科学等领域带来显著提升。o1 在 **AIME（American Invitational Mathematics Examination）**上解出 83% 的问题（en.wikipedia.org/wiki/OpenAI...），相较前代表现大幅提高。
OpenAI o3 模型 （2024 年 12 月发布）：在 o1 基础上进一步强化推理能力，通过为内部斟酌分配更多时间来提升复杂任务的准确率，包括编码与高阶科学问题。值得注意的是，o3 在 ARC-AGI 基准上取得 75.7% （arcprize.org/blog/oai-o3...），展现出更强的解题能力。

定义
ARC-AGI（Abstraction and Reasoning Corpus for Artificial General Intelligence） 是一个评测基准，旨在衡量 AI 在抽象泛化 与适应全新任务 方面的能力，更贴近类人智能。该基准由 François Chollet 于 2019 年提出，强调无需大量先验数据或特定领域训练的抽象推理与问题求解。

DeepSeek R1 模型 ：2025 年 1 月，初创公司 DeepSeek 推出 R1 ，一个开源推理模型，以更低成本达到与领先模型（如 o1）相当的表现。其开源特性促进了广泛研究与适配，加速了落地与影响力扩散。

RLM 的关键差异点 在于它们在回答前会"花时间 "：不同于传统 LLM 的单次前向生成，RLM 会进行内部斟酌 ，在得出结论前处理多步推理。这显著增强了其处理复杂多步问题 的能力------这对即将讨论的 AI 智能体 至关重要。

此外，RLM 针对需要高级推理的任务进行专门训练（如复杂数学、科学研究、复杂编程），因此在这些领域往往优于传统 LLM。

随之而来的自然代价是：RLM 的内部处理与延展推理路径 使其在单次查询上往往需要更多算力与时间。这种权衡以更高资源消耗换取在深度推理任务上的更优表现。

DeepSeek

2025 年 1 月，业界将目光转向突破性模型 DeepSeek R1。

DeepSeek 是一家成立于 2023 年的中国 AI 公司，推出了一系列先进 LLM，最终在 R1 系列 上形成突破：证明高性能模型 可以以更高效、低成本 的方式训练与获得。更重要的是，DeepSeek 将其训练方法与模型一并开源，任何人都可下载并在本地运行。

促成 DeepSeek 成为 GenAI 重要跃迁力量的核心特征包括：

训练路径

DeepSeek 的独特之处在于其训练思路。R1-Zero 模型不依赖大量人工标注数据 ，而是仅使用强化学习（RL）进行训练。RL 通过"试错---奖励"的方式学习：当模型产生更理想的输出时给予奖励，鼓励其自行发展推理能力 。

这种"纯 RL"方法拓展了边界，但初期也有取舍：语言有时不够可读或一致。为此，后续 R1 采用多阶段训练：

用一小批高质量监督数据进行**监督微调（SFT）**作为"冷启动"，建立稳固的语言基础；
重新引入 RL 强化推理与决策能力；
让模型自生成合成数据 ，通过拒绝采样（rejection sampling）过滤劣质样本，将筛选后的数据用于进一步的监督训练；
最终再经一轮 RL，提升在多样任务上的一致性与适应性。

结果：在更少资源且无大规模人工标注的前提下，模型质量可与顶级替代方案（如 OpenAI o1）比肩。

硬件利用

在尖端硬件常成瓶颈的行业背景下，DeepSeek 展示了以策略弥补硬件 的可能：其旗舰 DeepSeek-R1 使用约 2000 张 NVIDIA H800 GPU ，历时 55 天 完成训练，成本约 560 万美元 ，得益于上述训练策略的高效性。考虑到美国对向中国出口高端 AI 芯片的限制，这一成果更凸显了其对可用资源的优化能力。

开源

DeepSeek 坚持开源，在全球范围内营造了协作生态，加速创新。通过公开其模型与训练方法，DeepSeek 邀请全球研究者与开发者共同改进与构建。

DeepSeek 的进展在全球 AI 社区引发连锁反应 ，对既有玩家形成挑战，也促使业界重新审视既定实践。

通往 AI 智能体之路（Road to AI agents）

生成式 AI 的快速演进，正把我们从简单自动化带向能够推理、学习与决策的更智能系统。近几年，LLM 颠覆了人机交互方式，使对话更自然、解题更精巧。

下面让我们回顾促成 AI 智能体崛起的一系列关键里程碑。

文本生成（Text generation）

自 2022 年 11 月 ChatGPT 发布以来，用户首先拥抱的用例就是对话式文本生成，例如：

"为核裂变 写一段入门级说明。"
"给客户的 C-level 董事会撰写一封邀请参加活动的邮件。"
"列出一篇关于 AI 的文章的 10 个点子。"
"生成一篇我明天要交 的法国大革命作文。"

这些场景对你是否似曾相识？

LLM 的文本生成之所以具有颠覆性，是因为它根本性改变了人类与技术交互的方式，让 AI 以前所未有的流畅度与上下文理解来生成类人文本。

注（Note）

在此语境中，"文本"也包含代码。自一开始，LLM 就展现出在编程任务上的强大能力：代码生成、调试、优化、翻译与讲解等。

LLM 带来了传统 AI 与自然语言处理领域前所未有的跃迁：它们可以按需生成连贯、富有创意且上下文相关 的文本。突然之间，只要能上网，每个用户都能用到这项惊人的技术------这民主化 了高质量写作的获取，加速了营销、客服等行业的自动化，甚至通过为叙事、诗歌与剧本提供辅助而重塑创意领域。

然而，最初的狂热之后，人们很快意识到一个重大限制 ：ChatGPT（以及更广义的 LLM）所承载的知识受限于其训练数据 （即参数化知识 ）。即便训练数据覆盖了整网，真实世界的需求仍需面对动态的、私有的或小众 的数据集------它们并不在通用训练语料之中。

于是，"和你的数据聊天"成为 GenAI 路线图上的下一座里程碑。

与你的数据对话（Chat with your data）

"我想和我的数据聊天。"------这句话指向一项具体技术：检索增强生成（RAG, Retrieval-Augmented Generation） 。RAG 让 LLM 先检索 外部信息再生成答案，从而提升准确性 、上下文相关性 ，并降低幻觉风险。

定义（Definition）

在语言模型语境中，幻觉（hallucination）指看似合理却不真实或缺乏事实支撑的内容生成。在需要高准确性的场景下，这会破坏信任。

将 LLM 的回答限定在一个预定义知识库 之内的过程称为锚定（grounding） 。RAG 的关键组件是向量数据库（vector DB） ，它用称为嵌入（embeddings）的向量表示高效存储与检索信息，使模型能进行语义检索而非仅做关键词匹配。

RAG 的步骤如下：

检索（Retrieval）/ 寻找相关信息

不再只依赖预训练记忆，RAG 首先从已向量化 的外部知识库检索相关数据（PDF、Word、报告、论文、结构化记录、表格、内部档案等）。

当你提出问题时，RAG 管道会将查询向量化 ，并计算该向量与知识库分片向量 之间的距离；由于嵌入的性质，距离越小，语义越相近 。这保证了模型不是"凭记忆作答"，而是在主动检索 你数据中最新且相关的内容。
增强（Augmentation）/ 提升模型理解

系统检索到相关文档后，会将它们与原始问题一起馈入模型 ，为其提供富上下文 的输入。

这样，AI 不再猜测或只靠通识，而是基于可溯源的上下文来回答，因而：
- 更精确：直接引用相关数据；
- 更可解释 ：回答可由可检索来源背书；
- 更少幻觉 ：在经策展与锚定的上下文中生成。
生成（Generation）/ 产出具上下文意识的回答

在获得增强上下文后，AI 生成的回答会更信息充分、更准确 ，并与检索数据保持一致。最终输出：
- 事实有据：融合了检索到的知识；
- 上下文感知：针对你的特定数据集定制；
- 可引用 ：必要时可给出引文/来源链接。

在接下来的章节里，我们将进一步讨论 RAG 以及它在智能体系统中的作用。

到目前为止，我们只谈了文本数据；但如果我们希望用图像、视频或音频与模型交互呢？

多模态（Multimodality）

在 GenAI 中，多模态 指模型能够处理并生成多种数据类型（文本、图像、音频、视频）。**多模态大模型（MLLMs）**在传统 LLM 的基础上引入多模态能力，从而获得更全面的理解与更丰富的交互。

近年来的进展（如 OpenAI GPT-4V 、Google Gemini ）展示了 MLLM 如何分析图像、生成描述、处理语音输入 ，甚至在单一工作流中跨形式进行推理。

MLLM 的关键特征 在于：它们与"纯文本"LLM 一样具备泛化与适应能力 ，但还能处理异构数据 ，以更贴近人类多感官交互的方式理解外界。

一个典型示例是 OpenAI GPT-4o ，它能通过文本、图像与音频与用户互动。下面让我们看几个与图像相关的例子：

如你所见，模型能够对图像进行分析并据此推理。现在我们继续，请模型生成一幅插图：

关于 LMM 最有趣的一点是：它们保留了推理能力 ，因此适合在异构数据场景中进行复杂推理。让我们来看最后这个示例（仅展示响应的前几行）：

如下所示，这在各行业开启了广阔的应用前景；我们将在接下来的章节中看到一些具体例子。

需要一个"额外的智能层"：引入 AI 智能体

LLM 已展现出在生成连贯文本、回答问题，乃至进行有限问题求解方面的出色能力。然而，就真实世界应用而言，其根本设计也带来若干限制：

缺乏长期记忆：大多数 LLM 受限于固定的上下文窗口，一旦超过该上限就会"遗忘"先前互动，无法从过往经验中学习或长期保持连贯性。
无持续目标或自主性：LLM 对单次提示作出响应，但并不以持续的目标导向方式运作；它们无法主动做决定、进行自我纠错，或随时间精炼策略。
有限的推理与多步执行：LLM 虽可在单次提示内遵循指令，但在执行多步骤工作流、处理复杂决策，以及在长对话中维持逻辑一致性方面存在困难。
无法与外部系统交互：若无额外集成，LLM 不能检索实时信息、调用 API、操作数据库，或执行超越文本输出的行动。

为解决这些挑战，AI 智能体（AI agents）引入了一层额外的智能，使模型能够自主行动、分步骤推理、与外部环境交互，并从以往互动中学习。

我们将在下一章定义 AI 智能体的"解剖结构"。现在你可以将其初步理解为：一种将 LLM 与记忆、规划、多步推理 等附加能力结合的系统，以尽量少的人类介入完成任务，从而实现更高程度的自主性。不同于只产出静态回复的标准 LLM，AI 智能体能够：

跨会话持续存在，通过维护记忆随时间调整行为；
将复杂任务拆解为更小步骤并顺序执行；
与工具和 API 交互，以检索实时数据、自动化工作流并采取实质性行动；
基于已学知识、目标与约束自主做出决定。

从本质上讲，AI 智能体是能处理超越简单问答的复杂任务的智能助理。我们将在后续章节中深入探讨。

总结（Summary）

过去两年里，AI 经历了深刻转型：从简单的 LLM API 调用，迈向更复杂、交互式且具自主性 的系统。LLM 的快速演进体现在 RAG 、微调与面向推理的架构 等创新，这些创新旨在提升效率、适应性与成本效益。

尽管如此，仅靠 LLM 仍不足以 满足对能自主运行、做出决策并与环境有意义交互的 AI 系统的日益增长的需求。当前的转向标志着 AI 开发的关键时刻：焦点不再只是"把模型做大"，而是"让模型更聪明"。我们不再把 AI 视作对孤立提示被动回应的工具，而是在设计可行动、可学习、可适应 复杂现实任务的智能体系统。

在下一章，我们将考察 AI 智能体的兴起、其核心组成部分，以及它们可能呈现的多种形态。

参考文献（References）

Knowledge Distillation: A Survey: arxiv.org/pdf/2006.05...
OpenAI o1: en.wikipedia.org/wiki/OpenAI...
Reasoning Language Models: A Blueprint: arxiv.org/abs/2501.11...
LoRA: arxiv.org/abs/2106.09...
Adapter Tuning: arxiv.org/abs/2304.01...
Prefix Tuning and Prompt Tuning: ericwiener.github.io/ai-notes/AI...