从LLM到Agent:拆解AI大语言模型的基础工程概念全景图

随着AI技术的快速发展,大语言模型已经从单纯的文本生成工具演变为能够执行复杂任务的智能系统。要真正理解现代AI应用的工作原理,我们需要掌握从底层模型到上层应用的一整套工程概念。本文将系统性地拆解AI(特别是大语言模型)领域的基础工程概念,为你构建一个从底层到上层的完整理解框架。

1. LLM:AI技术的核心引擎

大语言模型(Large Language Model,LLM) 是所有AI技术的核心引擎。基于Google在2017年提出的Transformer架构,并由OpenAI的GPT系列引爆,LLM的工作原理本质上是"文字接龙"------通过预测下一个概率最高的词(Token)来生成内容。

从技术角度看,LLM是一个拥有数十亿甚至数万亿参数的深度神经网络,通过海量文本数据训练而成。它不仅能生成文本,还能理解上下文、进行逻辑推理、执行代码等多种任务。

2. Tokenizer与Token:人与模型之间的"翻译"

Token 是模型处理文本的最基本单元,不等同于词语,而是模型根据特定算法(如BPE)切分出的最小片段。一个Token约等于0.75个英文单词或1.5-2个汉字。

Tokenizer(分词器) 负责编码(将文字切分为Token并映射为数字ID)和解码(将模型输出的数字ID还原为Token/文字)。这个过程就像人类语言与机器语言之间的翻译,确保模型能够"理解"和"表达"人类语言。

3. Context与Context Window:模型的"临时记忆体"

Context(上下文) 是模型每次处理任务时接收到的信息总和,包括对话历史、当前问题、系统指令等,可视为模型的"临时记忆体"。

Context Window(上下文窗口) 是Context能容纳的最大Token数量。例如,GPT-5.4为105万,Gemini 3.1 Pro和Claude 3 Opus为100万。当处理超长文本(如产品手册)时,会使用RAG(检索增强生成) 技术来检索相关片段,而非传入全部内容。

4. Prompt:决定输出质量的关键指令

Prompt(提示词) 是给模型的具体问题或指令,直接决定输出质量。它分为两种类型:

  • User Prompt:用户输入的具体任务指令
  • System Prompt:开发者在后台配置的模型人设和行事规则(用户不可见),用于约束模型行为

优秀的Prompt工程能够显著提升模型输出的准确性和相关性,是AI应用开发中的关键技能。

5. Tool:模型感知和影响外部世界的能力

Tool(工具) 本质上是函数,为模型提供感知和影响外部世界的能力(如查询天气、计算、搜索等)。模型通过分析用户需求,选择并生成调用工具的指令,由平台(一段负责协调的代码)实际执行工具,并将结果返回给模型进行归纳总结。

然而,在AI应用开发初期,每个平台都有自己独特的工具接入方式,导致了"N×M"的连接难题------N个模型需要为M个数据源分别开发适配器,造成了巨大的重复劳动。

6. MCP:AI领域的"USB-C接口"

MCP(Model Context Protocol,模型上下文协议) 正是为了解决不同AI平台工具接入标准不统一而制定的统一工具接入规范。由Anthropic于2024年11月推出,MCP被业界称为"AI领域的USB-C接口"。

MCP的核心价值在于标准化接口、安全性、可扩展性和互操作性。它采用三层架构设计:

  • MCP Host(主机):用户使用的应用程序
  • MCP Client(客户端):协议的"翻译官"
  • MCP Server(服务端):数据的提供方

开发者只需按MCP标准开发一次工具,即可在所有支持MCP的平台上使用,实现了"一次构建,处处使用"的目标。

7. Agent:能够自主规划执行的智能体

Agent(智能体) 是能够自主规划、调用工具、持续运作直至完成复杂任务的程序。它可以根据任务目标,进行多步思考和工具调用(例如:先定位,再查天气,最后找店铺)。

从架构上看,Agent可以抽象为:Agent = 大模型(推理与决策)+ 感知 + 规划 + 记忆 + 工具/技能。其中:

  • 大模型:负责理解意图、拆解任务、做决策
  • 感知:输入来源(多模态、API、事件等)
  • 规划:把用户目标拆成步骤、选工具、排顺序
  • 记忆:短期对话 + 长期知识,用于上下文与个性化
  • 工具/技能:对外部世界的实际操作能力

8. Agent Skill:可复用的专业化能力封装

Agent Skill(智能体技能) 是提供给Agent的结构化说明文档(通常是一个Markdown文件),用于预先定义完成特定任务的步骤、规则和输出格式。用户只需触发技能名称,Agent便会按照文档中的指令自动执行,无需用户每次重复输入复杂要求。

Agent Skill的核心价值在于降低门槛、提升效率、沉淀经验。从技术结构看,一个标准的Skill至少包含:

  • SKILL.md:必需文件,包含YAML前置元数据和Markdown正文指令
  • scripts/:可选,存放可执行代码
  • references/:可选,存放参考文档
  • assets/:可选,存放静态资源

与单纯的Tool不同,Skills偏重"流程 + 领域知识",往往封装多个Tools,并带上说明、示例和触发条件,方便Agent自动选用。

技术栈全景图:从底层到上层的完整框架

通过以上概念的梳理,我们可以构建一个从底层到上层的完整理解框架:

底层基础LLM 是核心引擎,处理的基本单位是Token ,其临时记忆是Context (受Context Window 限制),接收的指令是Prompt

能力扩展 :为了扩展能力,LLM可以通过统一的协议MCP 来调用外部Tool,解决了传统"N×M"的连接难题。

智能执行 :具备自主规划能力的Agent 能串联多个Tool解决复杂任务,而Agent Skill则为Agent提供了可复用的任务蓝图,实现了从"会回答"到"会干活"的转变。

结语

从LLM到Agent Skill,这一系列工程概念的演进反映了AI技术从单纯的文本生成向复杂任务执行的转变。MCP的标准化和Agent Skill的模块化,正在推动AI应用开发从"手工作坊"向"工业化生产"转变。

随着这些技术的成熟和普及,我们将看到更多专业化、场景化的AI应用涌现,真正实现AI技术的规模化落地。无论是开发者还是普通用户,理解这些基础概念都将帮助我们更好地利用AI技术,创造更大的价值。