大白话讲解AI/LLM核心概念

|--------------|--------------------------------|--------------------------|
| 概念 | 一句话说明 | 解决什么问题 |
| Transformer | 2017年提出的深度学习架构，所有大模型的基础 | 并行处理序列数据，注意力机制 |
| Token | LLM 处理文本的最小单位（不等于字/词） | 理解计费、上下文窗口限制 |
| Embedding | 把文本变成数字向量 | 语义搜索、文档相似度比较 |
| Prompt | 给 LLM 的指令/输入 | 控制 LLM 输出 |
| Temperature | 控制输出随机性（0=确定，1=创意） | 不同场景需要不同创意程度 |
| RAG | 检索增强生成：先搜相关文档，再让 LLM 回答 | 让 LLM 基于你的数据回答，减少幻觉 |
| 向量数据库 | 存储和检索 Embedding 向量 | RAG 的核心存储层 |
| Fine-tuning | 用特定数据微调预训练模型 | 让模型更擅长特定领域 |
| Tool Calling | LLM 调用外部工具/API | Agent 的核心能力：LLM 可以执行实际操作 |
| Agent | LLM + 工具 + 循环推理 | 自主完成复杂多步骤任务 |
| ReAct | Reasoning + Acting 循环 | Agent 的核心模式：思考→行动→观察→再思考 |
| LangChain | LLM 应用开发框架 | 快速构建 Chain/Agent/RAG |
| LangGraph | 基于状态机的 Agent 编排框架 | 构建复杂的多步骤 AI 工作流 |
| MCP | Model Context Protocol，模型上下文协议 | 标准化 LLM 与外部工具的通信方式 |
| Skills（技能） | 把某个专业领域的完整执行方案打包成一个可复用的模块 | Agent 的预封装专业能力包 |

1.Transformer

a.技术概念背景

2017年之前，AI 处理语言（翻译、对话）用的是 RNN（循环神经网络）------像流水线工人，一个字接一个字处理，处理到第100个字时，前面的内容几乎忘光了，而且不能并行，训练极慢。Google 团队在 2017 年发表论文「Attention Is All You Need」，提出了 Transformer 架构，彻底替代了 RNN。

b.一句话说明

Transformer 是一种让 AI 能同时看完整段话、并自动找出词与词之间关联的模型架构。

c.打比方

想象你在看一本侦探小说。

RNN 的方式：你只能从头到尾一行一行读，读到第200页时，第3页提到的关键线索你已经印象模糊了。

Transformer 的方式：你把整本书摊开在一张巨大的桌子上，每读到一个句子，你的眼睛能瞬间扫到全书任何一个地方，自动找出「这个角色第3页做的事，和第200页的结局有什么关系」。

d.核心内容

它的核心机制叫自注意力（Self-Attention） ：处理每一个字时，给其他所有字打一个「关联分数」，分数高的字影响力大。比如「小明把苹果递给小红，她很开心」------处理「她」时，「小红」的关联分数最高，所以 AI 能知道「她」指的是小红。而且所有字同时计算，不用排队。

e.前端类比

可以类比为 React 的 Context + useMemo 组合。传统 RNN 像 props 逐层传递------信息一层层往下传，传到深层就丢失了。Transformer 的注意力机制像 Context------任何组件都能直接访问全局信息，不需要中间层传递。而 useMemo 根据依赖决定是否重新计算，类似注意力机制根据「关联分数」决定关注哪些词。

f.一句话总结

Transformer 让 AI 从「排队逐字处理」进化为「全文并行理解 + 智能关联」，是 ChatGPT、翻译、搜索等所有现代 AI 的底层引擎。

2.Token

a.技术概念背景

AI 大模型不能直接理解人类文字------「你好」对它来说只是像素或字符编码，没有意义。模型需要把文字切成最小的处理单元，再映射成数字，才能计算。这个最小处理单元就是 Token。Token 的概念贯穿所有大模型的输入、处理和输出阶段，也是 API 计费的基本单位。

b.一句话说明

Token 是 AI 把人类文字切割后的最小语义碎片，是模型实际「看到」和「思考」的基本单位。

c.打比方

想象你在拼乐高。你不能直接拼一栋完整的房子------你需要先把它拆成一块块乐高积木（Token），每块积木有固定的形状和编号。AI 读文字也一样：先把「我喜欢编程」拆成积木块 →「我」「喜欢」「编」「程」（中文通常按字拆），英文 "unhappiness" → "un" "happiness"（按词根/子词拆）。模型处理的不是「文字」，而是这些编好号的积木块。

d.核心内容

Token 的切法由**分词器（Tokenizer）**决定，不同模型用不同策略。中文通常一个字≈一个 Token；英文一个常见单词≈一个 Token，长单词或生僻词会被拆成多个子词 Token。比如 GPT 中 "ChatGPT is great" ≈ 4 个 Token，而「人工智能很厉害」≈ 7 个 Token。Token 数量直接决定：

上下文窗口大小（如 GPT-4 支持 128K Token ≈ 一本小说的长度）
API 调用费用（按输入+输出 Token 计费）
模型能「记住」多少对话内容

e.一句话总结

Token 是 AI 的「字母表」------把人类语言拆成机器能处理的最小碎片，Token 数量决定了模型能理解多长的内容、响应多快、花多少钱。

3.Embeding

a.技术概念背景

Token 解决了「把文字拆成碎片」的问题，但碎片本身只是一个编号（比如「猫」= Token #8821）。AI 需要理解「猫」和「狗」很相似、「猫」和「汽车」差很远，光靠编号做不到------8821 和 8822 并不代表语义相近。Embedding 就是把每个 Token 的编号转成一组有意义的数字向量，让语义相近的词在数学空间中靠得更近。这个概念从 2013 年 Word2Vec 就有了，到 Transformer 时代变得更加强大和核心。

b.一句话说明

Embedding 是把词语转成一组坐标数字，让 AI 能用数学方式理解「这两个词意思有多接近」。

c.打比方

想象你在地图上标注城市。北京和上海虽然名字完全不同，但在地图上很近（都是中国大城市）；北京和巴黎在地图上很远。Embedding 就是给每个词画一张「语义地图」------「国王」和「王后」在地图上很近，「国王」和「冰箱」在地图上很远。更神奇的是，这张地图能做「语义算术」：国王 - 男 + 女 ≈ 王后。

d.核心内容

每个 Token 被转成一个高维向量（一长串数字），比如 GPT 中每个 Token 变成 1536 个数字。这些数字不是随意的------模型在海量文本上训练后，自动学会了：

意思相近的词 → 向量方向接近（余弦相似度高）
意思不同的词 → 向量方向差异大
语义关系能通过向量运算表达

Embedding 是 Transformer 的第一步------所有文字先变成向量，然后自注意力机制才能在向量之间计算关联分数。也是 RAG（检索增强生成）、语义搜索的核心：把问题和文档都变成向量，比较向量距离就能找到最相关的内容。

e.一句话总结

Embedding 是 AI 的「语义坐标系」------把每个词从一个无意义的编号变成一组有意义的数字，让机器能用数学距离衡量语义的远近。

4.Prompt

a.技术概念背景

大模型本身是一个通用的「语言预测引擎」------给它一段开头，它预测下一个词。但同一个模型面对不同任务（写代码、翻译、聊天、分析数据），你不需要训练不同的模型，只需要换一段输入文字来引导它。这段引导文字就是 Prompt。Prompt 工程在 2022 年 ChatGPT 爆发后成为热门领域，因为人们发现同一个模型，Prompt 好坏直接决定输出质量的天壤之别。

b.一句话说明

Prompt 是你给 AI 的指令文本，决定了 AI 以什么角色、什么方式、回答什么问题。

c.打比方

想象你请了一位什么都会的大厨。你不能只说「做饭」------他不知道做中餐还是西餐、几个人吃、有啥忌口。你得说「做一桌四川菜，4个人，不要太辣，有一位吃素」。这段话就是 Prompt。说得越具体，大厅做出来的菜越合你心意；说得太模糊，他随便炒一盘你可能不满意。高级玩法还能说「你是一位米其林三星主厨，按照法式料理的摆盘标准」------这就是给 AI 设定角色。

d.核心内容

Prompt 由几部分组成：

System Prompt（系统提示）：定义 AI 的角色和行为规则，对用户不可见。如 "你是一个专业的前端工程师"
User Prompt（用户提示）：用户输入的具体问题或指令
Few-shot 示例：给几个「输入→输出」的例子，让 AI 模仿格式
上下文：提供背景信息（如代码片段、文档内容）

Prompt 的质量技巧包括：明确角色、给出格式要求、提供示例、分步骤引导（Chain of Thought）。差的 Prompt：「帮我写个函数」；好的 Prompt：「用 TypeScript 写一个防抖函数，参数是回调函数和延迟毫秒数，返回防抖后的函数，支持取消」。

e.前端类比

可以类比为组件的 Props 。React 组件本身是通用的逻辑，Props 决定它如何渲染。<Button> 是模型，{type: 'primary', size: 'large', onClick: handleSubmit, children: '提交'} 就是 Prompt。不同的 Props 让同一个组件呈现完全不同的效果。System Prompt 类似 defaultProps（默认行为），User Prompt 是运行时传入的 Props，Few-shot 示例类似 Storybook 里的 Story（告诉组件应该长什么样）。

f.一句话总结

Prompt 是人类与 AI 对话的「接口协议」------你的指令越清晰、结构越好，AI 的输出就越精准，就像给组件传入精确的 Props 一样。

5.Temperature

a.技术概念背景

大模型生成每一个词时，其实是在计算「下一个词是什么」的概率分布------比如「今天天气真」后面，「好」的概率 60%、「热」的概率 25%、「奇怪」的概率 5%。但模型到底是选概率最高的那个，还是偶尔冒险选概率低的？这个「冒险程度」由 Temperature 参数控制。它是 LLM API 调用中最常用的参数之一，范围通常是 0~2。

b.一句话说明

Temperature 控制 AI 回答的随机性/创造性------越低越确定保守，越高越随机大胆。

c.打比方

想象一个选择题只有 A/B/C/D 四个选项，AI 觉得 A 最有可能。Temperature = 0 ：每次都选 A，100% 确定，不带任何创造力，就像一个死板的考试机器。Temperature = 0.7 ：大概率选 A，偶尔选 B，小概率选 C，像一个你正常聊天的朋友，既靠谱又有惊喜。Temperature = 2.0：ABCD 差不多随机选，像喝醉了的朋友，说啥都可能，偶尔蹦出天才想法，也可能胡说八道。

d.核心内容

Temperature 作用在概率分布的 softmax 函数上：

Temperature = 0：贪婪解码，永远选概率最高的词。输出完全确定、可重复。适合代码生成、数据提取、事实问答
Temperature 0.3~0.7：轻微随机，保持连贯的同时引入多样性。适合日常对话、翻译、总结
Temperature 1.0~2.0：高随机性，概率分布被「拉平」，低概率词也有较大机会被选中。适合创意写作、头脑风暴

本质是：Temperature 越高，概率分布越「平坦」（各选项概率更接近）；越低，概率分布越「尖锐」（最优选项碾压其它）。

e.一句话总结

Temperature 是 AI 的「创造力旋钮」------调低出稳定精确的答案，调高出灵感四溅的创意，0.7 是大多数场景的甜点值。

6.RAG（Retrieval-Augmented Generation，检索增强生成）

a.技术概念背景

大模型有一个致命弱点：它的知识是训练时「冻结」的。GPT-4 训练数据截止到某个日期，之后发生的事它完全不知道；你公司内部的文档、产品数据更不可能在它的训练集里。如果你问它「我们公司上周的销售数据」，它只能瞎编（幻觉）。RAG 是 2020 年由 Meta AI 提出的方案，2023-2024 年成为企业 AI 落地最主流的架构模式。

b.一句话说明

RAG 是让 AI 先搜索再回答的架构------回答之前先从你的知识库里找到相关内容，再基于这些内容生成答案。

c.打比方

想象你在面试一个什么都懂的候选人，但他的知识停止在去年。你问他「我们项目最新的 API 文档在哪」，他只能猜。普通 LLM = 闭卷考试，全靠记忆（训练数据），记不住就编。RAG = 开卷考试，AI 先翻你给的参考资料（知识库），找到最相关的几页，然后基于这些页面组织出准确的答案。翻书是「检索」，写答案是「生成」，合在一起就是 RAG。

d.核心内容

RAG 的工作流程三步走：

索引（Index）：把你的文档（PDF、网页、数据库）切成小块，每块通过 Embedding 转成向量，存入向量数据库（如 Pinecone、Milvus）
检索（Retrieve）：用户提问时，把问题也转成向量，在向量数据库中找到最相似的 Top-K 个文档片段
生成（Generate）：把检索到的文档片段 + 用户问题一起塞进 Prompt，让大模型基于这些真实内容生成回答

核心优势：不需要重新训练模型、知识可实时更新、答案可追溯来源、大幅减少幻觉。

e.前端类比

以类比为 SSR + 数据预取（getServerSideProps） 模式。纯 CSR（客户端渲染）= 纯 LLM，所有内容靠客户端（模型记忆）自己生成，数据可能过时或缺失。SSR + getServerSideProps = RAG，页面渲染前先从数据库/API 预取最新数据（检索），再把数据注入组件 props（塞进 Prompt），最终渲染出包含实时数据的页面（生成准确答案）。数据源可以随时更新，不需要重新部署（不需要重新训练模型）。

f.一句话总结

RAG 让 AI 从「全靠记忆的闭卷学霸」变成「会查资料的开卷高手」------先检索你的知识库，再基于真实内容生成答案，是企业 AI 落地的核心架构。

7.向量数据库（Vector Database）

a.技术概念背景

传统数据库（MySQL、PostgreSQL）擅长精确匹配：WHERE name = '张三'。但 AI 时代的核心需求是语义搜索------用户搜「如何退货」，要能找到内容里写的「商品退回流程」，虽然关键词完全不同但意思一样。传统数据库做不到这一点。向量数据库专门为存储和搜索 Embedding 向量设计，2023 年随着 RAG 的爆发成为 AI 基础设施的关键一环，代表产品有 Pinecone、Milvus、Weaviate、Chroma 等。

b.一句话说明

向量数据库是专门存储和快速搜索 Embedding 向量的数据库，核心能力是「找到意思最接近的内容」。

c.打比方

传统数据库像图书馆的索引卡片柜 ------你必须知道精确的书名或作者才能找到书。向量数据库像一个无形的「相似书墙」------所有书按内容相似度排列在一个空间里，你说一句「我想看讲时间旅行的科幻小说」，它立刻把附近最相关的几本拿给你，即使书名里没有「时间旅行」这几个字。它比较的不是文字匹配，而是内容含义的「距离」。

d.核心内容

向量数据库的核心操作：

存储：把文本通过 Embedding 模型转成高维向量（如 1536 维），连同原文一起存入
相似性搜索：输入一个查询向量，用距离算法（余弦相似度、欧氏距离）找出最近的 K 个向量
近似最近邻（ANN）：为了在百万级甚至亿级向量中毫秒级返回结果，使用 HNSW、IVF 等索引算法，牺牲微小精度换取极大速度

与传统数据库的核心区别：传统 DB 做精确匹配 （等于/大于/包含），向量 DB 做近似匹配（语义最接近的 Top-K）。两者通常配合使用，不是替代关系。

主流方案：

专用向量数据库：Pinecone、Milvus、Qdrant、Weaviate
传统数据库 + 向量扩展：PostgreSQL + pgvector、Redis + Vector Search

e.一句话总结

向量数据库是 AI 的「语义搜索引擎」------不搜关键词，搜含义，是 RAG 检索环节的核心基础设施。

8.Fine-tuning（微调）

a.技术概念背景

大模型（如 GPT-4、Llama）的预训练成本极高------需要数千张 GPU、数月时间、数百万美元，吃下整个互联网的数据。但预训练出来的模型是「通才」，对你的特定业务（医疗术语、法律条款、你公司的代码风格）可能不够精准。Fine-tuning 就是在预训练好的大模型基础上，用你自己的小数据集继续训练，让模型变成你领域的「专才」。成本比从零训练低几个数量级，是企业定制 AI 的主流方式之一。

b.一句话说明

Fine-tuning 是在已有大模型的基础上，用少量专业数据再训练，让它学会你特定领域的知识和风格。

c.打比方

预训练好的大模型像一个刚毕业的全科医学生 ------什么都学过，但都不精。Fine-tuning 就是让他去皮肤科规培3个月------不用重新读大学（预训练），只需要看大量皮肤病案例（你的数据集），他就能变成皮肤科专家。规培的数据量远小于医学院全部课程，但效果对皮肤科来说好得多。

d.核心内容

Fine-tuning 的几种常见方式：

全参数微调（Full Fine-tuning）：调整模型所有参数，效果最好，但需要大量 GPU 显存和数据
LoRA / QLoRA：只调整模型中很小一部分参数（低秩适配器），显存需求降低 10 倍以上，是目前最流行的方式
指令微调（Instruction Tuning）：用「指令→回答」格式的数据训练，让模型学会遵循指令（ChatGPT 就是 GPT 经过指令微调 + RLHF 的产物）

Fine-tuning vs RAG 的选择：

RAG：知识经常更新、需要引用来源、数据量大 → 用 RAG
Fine-tuning：需要改变模型的风格/格式/专业术语、数据相对固定 → 用 Fine-tuning
实际项目中两者经常组合使用

e.前端类比

可以类比为继承 + 覆写（extends + override） 。基础大模型像一个功能完备的 UI 组件库（如 Ant Design），Fine-tuning 就是你 extends 这个组件库后，override 部分样式和行为来适配你的业务主题。你不用从零写一个组件库（预训练），只需要写一个 theme 配置或覆写少量组件（少量数据微调），就能得到完全贴合你业务的定制版。LoRA 更像 CSS Variables------只改几个变量就能改变全局风格，而不需要重写所有样式。

f.一句话总结

Fine-tuning 是用少量专业数据把「通才模型」调教成「领域专家」------不用从零训练，只需在巨人的肩膀上做小幅定制。

9.Tool Calling（工具调用 / Function Calling）

a.技术概念背景

大模型本质上只会「生成文字」------它不能真正查数据库、不能发邮件、不能调 API、不能操作文件。但现实中的 AI 应用需要这些能力：查天气、搜航班、执行代码、操作你的系统。Tool Calling 是 2023 年 OpenAI 率先推出的能力（最初叫 Function Calling），让模型在对话中决定何时该调用哪个外部工具，并生成正确的调用参数，从而打通 AI 与真实世界的桥梁。

b.一句话说明

Tool Calling 是让 AI 自己判断该调用哪个外部工具、传什么参数，从而执行真实操作的能力。

c.打比方

大模型本身像一个坐在办公桌前的超级智囊 ------他什么知识都有，但手脚被绑住了，只能动嘴说话。Tool Calling 就是给他配了一部电话和一本通讯录。你说「帮我查下北京明天的天气」，他不再瞎猜，而是翻通讯录找到「天气查询热线」，拨通电话报出「北京, 明天」，拿到真实数据后再告诉你。他自己决定打哪个电话、说什么，你只需要描述需求。

d.核心内容

Tool Calling 的工作流程：

定义工具：开发者预先注册工具列表（函数名、参数描述、用途说明），告诉模型有哪些「可用工具」
模型决策：用户提问后，模型判断是否需要工具、该用哪个、参数是什么，输出一段结构化的 JSON 调用
执行工具：开发者的代码接收 JSON，调用真实的 API/函数，拿到结果
整合回答：把工具执行结果返回给模型，模型基于结果生成最终自然语言回答

模型不执行工具，只是「决定调用什么 + 生成参数」，实际执行由你的后端代码负责。这是安全设计------AI 只动脑，不动手。

Tool Calling 是构建 AI Agent 的基础。Agent = 大模型 + 多个工具 + 自主决策循环。

e.前端类比

可以类比为 事件系统（Event Emitter / 自定义事件） 。组件本身不直接操作外部系统------它 dispatch 一个自定义事件（如 {type: 'SEND_EMAIL', payload: {to: 'user@xx.com', subject: '...'}}），外层的事件监听器接收后执行真实操作（调邮件 API）。Tool Calling 的模型就像组件------它只负责 dispatch 结构化的调用意图（JSON），你的后端监听器负责真正执行。模型不碰真实 API，就像 React 组件不直接操作 DOM 一样。

f.一句话总结

Tool Calling 给 AI 装上了「手和脚」------模型自主决定调用什么工具、传什么参数，你的代码负责执行，是 AI 从「聊天机器人」进化为「能干活的 Agent」的关键能力。

10.Agent（AI 智能体）

a.技术概念背景

普通的 LLM 对话是「一问一答」模式------你问一个问题，AI 回答一次就结束了。但现实中很多任务需要多步骤、自主决策 ：比如「帮我调研竞品，写一份分析报告，发给团队」------这需要搜索网页、读取内容、对比分析、生成文档、发送邮件，一步的输出是下一步的输入。Agent 就是让 AI 自主规划步骤、调用工具、根据结果决定下一步的架构，2024-2025 年成为 AI 领域最热门的方向，代表框架有 LangChain、AutoGPT、CrewAI。

b.一句话说明

Agent 是一个能自主思考、规划、执行多步任务的 AI 系统------它不只是回答问题，而是像一个真正的助手一样完成整个工作流。

c.打比方

普通 LLM 像一个只能接听电话的客服 ------你问一句他答一句，挂了电话就啥也不做。Agent 像一个能独立工作的私人助理------你说「帮我安排下周的商务出差」，他会自己：①查航班 ②比较酒店 ③检查你的日程冲突 ④订机票 ⑤发确认邮件给你。每一步他都自己判断做什么、用什么工具，中间遇到问题会调整方案，直到任务完成。你只给了一个目标，他自己搞定全部执行。

d.核心内容

Agent 的核心三要素：

大脑（LLM）：推理和决策引擎，负责理解任务、制定计划、判断下一步做什么
工具（Tools）：Agent 可调用的能力，如搜索引擎、代码执行、数据库查询、API 调用（通过 Tool Calling 实现）
记忆（Memory）：短期记忆（当前对话上下文）和长期记忆（持久化的知识），让 Agent 记住之前做了什么

Agent 的运行循环（ReAct 模式）：

复制代码

观察现状 → 思考（推理下一步该做什么） → 行动（调用工具） → 观察结果 → 继续思考 → ... 直到任务完成

Agent 常见架构：

单 Agent：一个 Agent 独自完成任务
多 Agent（Multi-Agent）：多个专业 Agent 协作，如「产品经理 Agent」+ 「程序员 Agent」+ 「测试 Agent」组队完成项目

e.一句话总结

Agent = LLM（大脑）+ Tools（手脚）+ Memory（记忆）+ 自主循环（思考→行动→观察），是 AI 从「聊天工具」进化为「能独立完成复杂任务的数字员工」的终极形态。

11.ReAct（Reasoning + Acting）

a.技术概念背景

早期让 AI 做复杂任务有两条路线：一条是 Chain-of-Thought（CoT）------让模型纯推理，一步步思考，但不能调用工具，只能在脑子里「想」；另一条是 Tool Use------让模型直接调用工具，但没有推理过程，不知道为什么要调这个工具。2022 年 Google 和 Princeton 大学联合发表了 ReAct 论文，把这两条路线合二为一------先想清楚再动手做，做完再想下一步，形成了 Agent 最经典的运行范式。

b.一句话说明

ReAct 是让 AI 每一步都先推理再行动的决策模式------思考为什么要做 → 执行具体操作 → 观察结果 → 继续思考，循环往复。

c.打比方

想象你在做一道没见过的菜。纯推理（CoT）模式 ：你坐在沙发上在脑子里想「我觉得需要盐、油、蒜...应该先炒蒜...」但你根本没进厨房，不知道冰箱里有没有蒜。纯行动模式 ：你冲进厨房随便抓东西就往锅里扔，不想后果。ReAct 模式 ：你想「这道菜需要蒜」→ 去冰箱看 （行动）→ 发现没蒜 （观察）→ 想「那用葱姜代替吧」→ 继续做。每一步都有理由、有行动、有反馈，灵活调整。

d.核心内容

ReAct 的固定循环（三步一轮）：

复制代码

Thought（推理）: 我需要查一下用户的订单状态
Action（行动）:  调用 query_order(order_id="12345")
Observation（观察）: 订单状态为"已发货"，快递号 SF1234567

Thought（推理）: 用户还问了预计到达时间，我需要查快递
Action（行动）:  调用 track_delivery(tracking_no="SF1234567")
Observation（观察）: 预计明天 14:00 送达

Thought（推理）: 信息齐全了，可以回复用户了
Final Answer: 您的订单已发货，快递号 SF1234567，预计明天 14:00 送达。

ReAct 的关键优势：

可解释：每步推理都写出来，知道 AI 为什么做这个决定
可纠错：观察到的结果不对，AI 能在下一轮调整策略
可控制：开发者能看到完整的推理链，方便调试

ReAct 是目前几乎所有 Agent 框架（LangChain、LlamaIndex、AutoGPT）的默认执行模式。

e.一句话总结

ReAct 让 AI 像人一样「三思而后行」------每一步先推理 why、再执行 what、再观察 result，是 Agent 自主完成复杂任务的核心决策循环。

12.LangChain

a.技术概念背景

直接用 OpenAI API 调大模型，只能做最基础的一问一答。但真实的 AI 应用需要：对接不同模型（GPT/Claude/Llama）、管理 Prompt 模板、串联多步骤推理、集成向量数据库做 RAG、让模型调用工具、维护对话记忆... 每个都要自己写一堆胶水代码。LangChain 是 2022 年底由 Harrison Chase 开源的 Python/JS 框架，把这些通用能力封装成标准化的模块和链式调用，迅速成为 LLM 应用开发最流行的框架（GitHub 90K+ star）。

b.一句话说明

LangChain 是构建 LLM 应用的开发框架------把模型调用、Prompt 管理、工具集成、记忆、RAG 等能力模块化，像搭积木一样组合。

c.打比方

如果大模型是发动机 ，那 LangChain 就是整车工厂的生产线。你不需要自己焊底盘（写 API 对接代码）、装轮子（搞向量数据库连接）、接线路（串联多步骤流程）------生产线上每个工位（模块）都准备好了，你只需要选配置、组装、下线。想换个发动机品牌（从 GPT 换 Claude）？只需要换一个插头（切换模型提供商），其他不用改。

d.核心内容

LangChain 的核心模块：

Models：统一接口对接各种 LLM（OpenAI、Anthropic、本地模型等），切换模型不改业务代码
Prompts：Prompt 模板引擎，支持变量插入、Few-shot 示例管理
Chains：把多个步骤串成链，如「提取关键词 → 搜索 → 总结」，一步的输出自动传给下一步
Agents：内置 ReAct 等决策循环，让模型自主选择工具和步骤
Memory：对话记忆管理，支持短期/长期/摘要式记忆
Retrievers：对接向量数据库做 RAG 检索

LangChain 生态：

LangChain：核心框架
LangSmith：调试和监控平台（类似 AI 应用的 DevTools）
LangGraph：基于图结构的 Agent 编排工具（比 Chain 更灵活）
LangServe：一键部署 Chain/Agent 为 REST API

e.前端类比

可以类比为 Next.js 之于 React 。React 本身只是渲染库（就像 LLM 本身只是模型 API），但做一个完整的 Web 应用，你需要路由、SSR、数据预取、API Routes、中间件... Next.js 把这些全封装好了。LangChain 做的是一样的事------LLM API 只是基础能力，LangChain 封装了 RAG、Agent、Memory、工具调用等所有构建 AI 应用需要的东西。Chain 像 Next.js 的 middleware 链，Agent 像它的 API Routes + Server Actions，Memory 像 Session/Cookie 管理。

f.一句话总结

angChain 是 LLM 应用的「Next.js」------把模型调用、RAG、Agent、记忆等能力标准化和模块化，让开发者专注业务逻辑而非底层对接。

13.LangGraph

a.技术概念背景

LangChain 的 Chain（链）是线性的：A → B → C，一步接一步。但现实中的 Agent 任务很少是直线流程------可能需要条件分支 （如果搜索没结果就换个关键词重搜）、循环（反复修改直到用户满意）、并行（同时搜多个数据源）、人类审批（关键步骤等人确认再继续）。LangGraph 是 LangChain 团队在 2024 年推出的子框架，用**有向图（Graph）**替代线性链，节点是步骤、边是条件/路由，能表达任意复杂的 Agent 工作流。

b.一句话说明

LangGraph 是用图结构编排 Agent 工作流的框架------把复杂的 AI 任务拆成节点和边，支持循环、分支、并行和人机协作。

c.打比方

LangChain 的 Chain 像流水线 ------零件从头到尾走一遍就出来了，如果中间某步出错，整条线停摆。LangGraph 像城市交通网络------每个路口（节点）是一个工作步骤，路口有红绿灯和路标（条件判断），决定车往哪个方向走。发现前方堵车（步骤失败）可以自动绕路（分支），需要加油（外部输入）可以进服务站暂停（人类审批），有些路可以同时走（并行执行）。

d.核心内容

LangGraph 的核心概念：

节点（Node）：每个节点是一个函数/步骤，如「调用 LLM」「搜索知识库」「发邮件」
边（Edge）：定义节点之间的连接，可以是无条件的（总是走）、有条件的（根据上一步结果决定走哪条边）
状态（State）：贯穿整个图的共享数据，每个节点可以读写状态，像全局 store
检查点（Checkpoint）：自动保存图执行到哪一步的状态，支持暂停/恢复/回滚

LangGraph vs LangChain 的关键区别：

特性	LangChain Chain	LangGraph
流程结构	线性（A→B→C）	任意图（分支/循环/并行）
循环支持	不支持	原生支持
人类介入	困难	内置 interrupt 机制
状态管理	简单传递	全局 State + 检查点
适合场景	简单流水线	复杂 Agent 工作流

典型应用：多轮对话 Agent、代码生成→测试→修复循环、需要人类审批的自动化流程、多 Agent 协作。

e.前端类比

可以类比为 React Router v6 的嵌套路由 + Loader 。LangChain Chain 像早期 React Router 的扁平路由------路径是线性的。LangGraph 像 v6 的嵌套路由------每个路由节点（Node）有自己的 loader（执行逻辑），根据 URL 参数/条件决定走哪条路由（条件边），支持并行加载（Promise.all loader），支持 redirect（分支）和 defer（等待异步结果）。State 就像 useOutletContext，在整个路由树中共享。

或者用更贴切的类比------XState 状态机。每个状态是一个节点，事件触发状态转换（边），可以有守卫条件（条件边），支持并行状态、历史状态（检查点），这和 LangGraph 的设计哲学几乎一模一样。

f.一句话总结

LangGraph 是 Agent 的「状态机引擎」------用图结构编排复杂工作流，让 AI 能循环、分支、并行、暂停，处理真实世界中非线性的复杂任务。

14.MCP（Model Context Protocol，模型上下文协议）

a.技术概念背景

AI Agent 需要连接各种外部系统------GitHub、数据库、文件系统、Slack、Jira...但每个工具的对接方式都不同：不同的 API 格式、不同的认证方式、不同的数据结构。开发者每集成一个工具就要写一套定制代码，N 个 AI 应用 × M 个工具 = N×M 套对接代码，组合爆炸。MCP 是 Anthropic（Claude 的公司）在 2024 年底提出的开放协议标准，定义了 AI 应用和外部工具之间的通信规范，让任何 AI 应用都能用统一的方式连接任何工具。

b.一句话说明

MCP 是 AI 工具对接的USB 标准接口------定义了 AI 应用和外部工具之间通信的统一协议，一次写好，处处接入。

c.打比方

以前每个手机品牌都有自己的充电线------iPhone 用 Lightning、三星用 Micro-USB、华为用某种定制接口。你出门要带三根线。USB-C 标准出来后，一根线充所有设备。MCP 做的是同样的事：以前 ChatGPT 接 GitHub 要写一套代码、Claude 接 GitHub 要写另一套、你自己的 Agent 接 GitHub 要写第三套。有了 MCP，GitHub 只需要提供一个 MCP Server，任何支持 MCP 的 AI 应用（MCP Client）都能直接连上，不用单独适配。

d.核心内容

MCP 的架构：

MCP Host（宿主）：AI 应用本身，如 VS Code Copilot、Claude Desktop、自定义 Agent
MCP Client（客户端）：宿主内部的协议客户端，负责与 Server 通信
MCP Server（服务端）：工具提供方实现的标准化接口，暴露工具能力

MCP Server 提供三种能力：

Tools：可被 AI 调用的操作（如 "create_issue"、"query_database"）
Resources：AI 可读取的数据源（如文件内容、数据库记录）
Prompts：预定义的 Prompt 模板（如 "用专业语气总结这段代码"）

MCP 解决的核心问题：N×M → N+M。以前 5 个 AI 应用 × 10 个工具 = 50 套对接代码。有了 MCP，5 个客户端 + 10 个服务端 = 15 套代码，各自独立开发。

当前生态：VS Code Copilot、Claude Desktop、Cursor、Windsurf 等主流 AI 工具已支持 MCP Client；社区已有数百个开源 MCP Server（GitHub、PostgreSQL、Slack、文件系统等）。

e.前端类比

可以类比为 LSP（Language Server Protocol，语言服务器协议） ------前端开发者非常熟悉的概念。以前每个编辑器要支持每种语言都要单独写插件：VS Code 支持 TypeScript 写一套、Vim 支持 TypeScript 再写一套。LSP 标准化后，TypeScript 只需写一个 Language Server，所有支持 LSP 的编辑器都能用。MCP 和 LSP 是完全相同的思路------LSP 统一了「编辑器 ↔ 编程语言」的协议，MCP 统一了「AI 应用 ↔ 外部工具」的协议。甚至 Anthropic 自己也承认 MCP 的灵感来自 LSP。

f.一句话总结

MCP 是 AI 工具生态的「USB-C / LSP」------用一个开放协议标准统一所有 AI 应用和外部工具的对接方式，让工具写一次、处处可用。

15.Skills（技能）

a.技术概念背景

Agent 有了大脑（LLM）、工具（Tools）和记忆（Memory），但当任务变复杂时，一个简单的 Prompt + 工具列表不够了。比如「帮我做一个竞品分析」------这个任务包含多个子步骤，每个子步骤需要不同的执行策略、不同的 Prompt 模板、不同的工具组合。Skills 就是把某个专业领域的完整执行方案打包成一个可复用的模块，Agent 需要时加载对应的 Skill，按其中的工作流执行。这个概念在 2024-2025 年随着 VS Code Copilot、AutoGPT 等工具的成熟而流行起来。

b.一句话说明

Skill 是 Agent 的预封装专业能力包------包含特定任务的完整执行方案（指令、工具配置、工作流），Agent 按需加载使用。

c.打比方

Agent 像一个万能员工 ，Skill 像他考过的各种职业证书。他有「财务分析师证书」（财务 Skill）------里面包含财务分析的标准流程、需要用到的工具（Excel/SAP）、专业术语规范。他有「UI 设计师证书」（设计 Skill）------包含设计流程、Figma/Sketch 工具、设计规范。每次接到任务，他先看需要哪张证书，然后按证书里的标准流程执行。没有对应证书（Skill），他只能靠通识能力应付。

d.核心内容

Skill 通常包含：

指令（Instructions）：详细的执行规则和 Prompt 模板，定义 Agent 在该领域应该怎么做
工具配置（Tools）：该 Skill 需要用到哪些工具，如何配合使用
工作流（Workflow）：步骤编排，先做什么后做什么
领域知识（Domain Knowledge）：专业术语、约定、最佳实践

Skill 的应用场景：

VS Code Copilot ：通过 SKILL.md 文件定义，如「测试技能」教 Agent 如何写单元测试、「API 设计技能」教 Agent 遵循 RESTful 规范
AutoGPT：通过 Skills 模块让 Agent 学会新能力（代码执行、网页浏览等）
企业 AI：把公司内部的 SOP（标准操作流程）封装成 Skill，新员工（新 Agent）加载即用

Skill vs Tool 的区别：

对比	Tool	Skill
粒度	单个原子操作（如"发邮件"）	完整的工作流方案
包含	一个函数/API	指令+工具组合+流程+知识
类比	一把螺丝刀	修电路的完整程序手册

e.前端类比

可以类比为 npm 中的 preset / scaffold 包 。Tool 像单个 npm 包（如 lodash、axios）------提供单一能力。Skill 像 create-react-app 或 eslint-config-airbnb------不只是一个工具，而是一整套预配置的最佳实践方案（脚手架模板 + 工具链配置 + 代码规范 + 目录结构标准）。你安装一个 preset，就获得了该领域的完整开发体验，不需要自己从零配置。Skill 对 Agent 的作用完全一样。

f.一句话总结

Skill 是 Agent 的「专业技能证书」------把特定领域的指令、工具、流程和知识打包成可复用模块，让 Agent 从「通才」即时切换为「该领域的专家」。