大白话讲解AI/LLM核心概念

|--------------|--------------------------------|--------------------------|
| 概念 | 一句话说明 | 解决什么问题 |
| Transformer | 2017年提出的深度学习架构,所有大模型的基础 | 并行处理序列数据,注意力机制 |
| Token | LLM 处理文本的最小单位(不等于字/词) | 理解计费、上下文窗口限制 |
| Embedding | 把文本变成数字向量 | 语义搜索、文档相似度比较 |
| Prompt | 给 LLM 的指令/输入 | 控制 LLM 输出 |
| Temperature | 控制输出随机性(0=确定,1=创意) | 不同场景需要不同创意程度 |
| RAG | 检索增强生成:先搜相关文档,再让 LLM 回答 | 让 LLM 基于你的数据回答,减少幻觉 |
| 向量数据库 | 存储和检索 Embedding 向量 | RAG 的核心存储层 |
| Fine-tuning | 用特定数据微调预训练模型 | 让模型更擅长特定领域 |
| Tool Calling | LLM 调用外部工具/API | Agent 的核心能力:LLM 可以执行实际操作 |
| Agent | LLM + 工具 + 循环推理 | 自主完成复杂多步骤任务 |
| ReAct | Reasoning + Acting 循环 | Agent 的核心模式:思考→行动→观察→再思考 |
| LangChain | LLM 应用开发框架 | 快速构建 Chain/Agent/RAG |
| LangGraph | 基于状态机的 Agent 编排框架 | 构建复杂的多步骤 AI 工作流 |
| MCP | Model Context Protocol,模型上下文协议 | 标准化 LLM 与外部工具的通信方式 |
| Skills(技能) | 把某个专业领域的完整执行方案打包成一个可复用的模块 | Agent 的预封装专业能力包 |

1.Transformer

a.技术概念背景

2017年之前,AI 处理语言(翻译、对话)用的是 RNN(循环神经网络)------像流水线工人,一个字接一个字处理,处理到第100个字时,前面的内容几乎忘光了,而且不能并行,训练极慢。Google 团队在 2017 年发表论文「Attention Is All You Need」,提出了 Transformer 架构,彻底替代了 RNN。

b.一句话说明

Transformer 是一种让 AI 能同时看完整段话、并自动找出词与词之间关联的模型架构。

c.打比方

想象你在看一本侦探小说。

RNN 的方式:你只能从头到尾一行一行读,读到第200页时,第3页提到的关键线索你已经印象模糊了。

Transformer 的方式:你把整本书摊开在一张巨大的桌子上,每读到一个句子,你的眼睛能瞬间扫到全书任何一个地方,自动找出「这个角色第3页做的事,和第200页的结局有什么关系」。

d.核心内容

它的核心机制叫自注意力(Self-Attention) :处理每一个字时,给其他所有字打一个「关联分数」,分数高的字影响力大。比如「小明把苹果递给小红,很开心」------处理「她」时,「小红」的关联分数最高,所以 AI 能知道「她」指的是小红。而且所有字同时计算,不用排队。

e.前端类比

可以类比为 React 的 Context + useMemo 组合。传统 RNN 像 props 逐层传递------信息一层层往下传,传到深层就丢失了。Transformer 的注意力机制像 Context------任何组件都能直接访问全局信息,不需要中间层传递。而 useMemo 根据依赖决定是否重新计算,类似注意力机制根据「关联分数」决定关注哪些词。

f.一句话总结

Transformer 让 AI 从「排队逐字处理」进化为「全文并行理解 + 智能关联」,是 ChatGPT、翻译、搜索等所有现代 AI 的底层引擎。

2.Token

a.技术概念背景

AI 大模型不能直接理解人类文字------「你好」对它来说只是像素或字符编码,没有意义。模型需要把文字切成最小的处理单元,再映射成数字,才能计算。这个最小处理单元就是 Token。Token 的概念贯穿所有大模型的输入、处理和输出阶段,也是 API 计费的基本单位。

b.一句话说明

Token 是 AI 把人类文字切割后的最小语义碎片,是模型实际「看到」和「思考」的基本单位。

c.打比方

想象你在拼乐高。你不能直接拼一栋完整的房子------你需要先把它拆成一块块乐高积木(Token),每块积木有固定的形状和编号。AI 读文字也一样:先把「我喜欢编程」拆成积木块 →「我」「喜欢」「编」「程」(中文通常按字拆),英文 "unhappiness" → "un" "happiness"(按词根/子词拆)。模型处理的不是「文字」,而是这些编好号的积木块。

d.核心内容

Token 的切法由**分词器(Tokenizer)**决定,不同模型用不同策略。中文通常一个字≈一个 Token;英文一个常见单词≈一个 Token,长单词或生僻词会被拆成多个子词 Token。比如 GPT 中 "ChatGPT is great" ≈ 4 个 Token,而「人工智能很厉害」≈ 7 个 Token。Token 数量直接决定

  • 上下文窗口大小(如 GPT-4 支持 128K Token ≈ 一本小说的长度)
  • API 调用费用(按输入+输出 Token 计费)
  • 模型能「记住」多少对话内容

e.一句话总结

Token 是 AI 的「字母表」------把人类语言拆成机器能处理的最小碎片,Token 数量决定了模型能理解多长的内容、响应多快、花多少钱。

3.Embeding

a.技术概念背景

Token 解决了「把文字拆成碎片」的问题,但碎片本身只是一个编号(比如「猫」= Token #8821)。AI 需要理解「猫」和「狗」很相似、「猫」和「汽车」差很远,光靠编号做不到------8821 和 8822 并不代表语义相近。Embedding 就是把每个 Token 的编号转成一组有意义的数字向量,让语义相近的词在数学空间中靠得更近。这个概念从 2013 年 Word2Vec 就有了,到 Transformer 时代变得更加强大和核心。

b.一句话说明

Embedding 是把词语转成一组坐标数字,让 AI 能用数学方式理解「这两个词意思有多接近」。

c.打比方

想象你在地图上标注城市。北京和上海虽然名字完全不同,但在地图上很近(都是中国大城市);北京和巴黎在地图上很远。Embedding 就是给每个词画一张「语义地图」------「国王」和「王后」在地图上很近,「国王」和「冰箱」在地图上很远。更神奇的是,这张地图能做「语义算术」:国王 - 男 + 女 ≈ 王后。

d.核心内容

每个 Token 被转成一个高维向量(一长串数字),比如 GPT 中每个 Token 变成 1536 个数字。这些数字不是随意的------模型在海量文本上训练后,自动学会了:

  • 意思相近的词 → 向量方向接近(余弦相似度高)
  • 意思不同的词 → 向量方向差异大
  • 语义关系能通过向量运算表达

Embedding 是 Transformer 的第一步------所有文字先变成向量,然后自注意力机制才能在向量之间计算关联分数。也是 RAG(检索增强生成)、语义搜索的核心:把问题和文档都变成向量,比较向量距离就能找到最相关的内容。

e.一句话总结

Embedding 是 AI 的「语义坐标系」------把每个词从一个无意义的编号变成一组有意义的数字,让机器能用数学距离衡量语义的远近。

4.Prompt

a.技术概念背景

大模型本身是一个通用的「语言预测引擎」------给它一段开头,它预测下一个词。但同一个模型面对不同任务(写代码、翻译、聊天、分析数据),你不需要训练不同的模型,只需要换一段输入文字来引导它。这段引导文字就是 Prompt。Prompt 工程在 2022 年 ChatGPT 爆发后成为热门领域,因为人们发现同一个模型,Prompt 好坏直接决定输出质量的天壤之别。

b.一句话说明

Prompt 是你给 AI 的指令文本,决定了 AI 以什么角色、什么方式、回答什么问题。

c.打比方

想象你请了一位什么都会的大厨。你不能只说「做饭」------他不知道做中餐还是西餐、几个人吃、有啥忌口。你得说「做一桌四川菜,4个人,不要太辣,有一位吃素」。这段话就是 Prompt。说得越具体,大厅做出来的菜越合你心意;说得太模糊,他随便炒一盘你可能不满意。高级玩法还能说「你是一位米其林三星主厨,按照法式料理的摆盘标准」------这就是给 AI 设定角色。

d.核心内容

Prompt 由几部分组成:

  • System Prompt(系统提示):定义 AI 的角色和行为规则,对用户不可见。如 "你是一个专业的前端工程师"
  • User Prompt(用户提示):用户输入的具体问题或指令
  • Few-shot 示例:给几个「输入→输出」的例子,让 AI 模仿格式
  • 上下文:提供背景信息(如代码片段、文档内容)

Prompt 的质量技巧包括:明确角色、给出格式要求、提供示例、分步骤引导(Chain of Thought)。差的 Prompt:「帮我写个函数」;好的 Prompt:「用 TypeScript 写一个防抖函数,参数是回调函数和延迟毫秒数,返回防抖后的函数,支持取消」。

e.前端类比

可以类比为组件的 Props 。React 组件本身是通用的逻辑,Props 决定它如何渲染。<Button> 是模型,{type: 'primary', size: 'large', onClick: handleSubmit, children: '提交'} 就是 Prompt。不同的 Props 让同一个组件呈现完全不同的效果。System Prompt 类似 defaultProps(默认行为),User Prompt 是运行时传入的 Props,Few-shot 示例类似 Storybook 里的 Story(告诉组件应该长什么样)。

f.一句话总结

Prompt 是人类与 AI 对话的「接口协议」------你的指令越清晰、结构越好,AI 的输出就越精准,就像给组件传入精确的 Props 一样。

5.Temperature

a.技术概念背景

大模型生成每一个词时,其实是在计算「下一个词是什么」的概率分布------比如「今天天气真」后面,「好」的概率 60%、「热」的概率 25%、「奇怪」的概率 5%。但模型到底是选概率最高的那个,还是偶尔冒险选概率低的?这个「冒险程度」由 Temperature 参数控制。它是 LLM API 调用中最常用的参数之一,范围通常是 0~2。

b.一句话说明

Temperature 控制 AI 回答的随机性/创造性------越低越确定保守,越高越随机大胆。

c.打比方

想象一个选择题只有 A/B/C/D 四个选项,AI 觉得 A 最有可能。Temperature = 0 :每次都选 A,100% 确定,不带任何创造力,就像一个死板的考试机器。Temperature = 0.7 :大概率选 A,偶尔选 B,小概率选 C,像一个你正常聊天的朋友,既靠谱又有惊喜。Temperature = 2.0:ABCD 差不多随机选,像喝醉了的朋友,说啥都可能,偶尔蹦出天才想法,也可能胡说八道。

d.核心内容

Temperature 作用在概率分布的 softmax 函数上:

  • Temperature = 0:贪婪解码,永远选概率最高的词。输出完全确定、可重复。适合代码生成、数据提取、事实问答
  • Temperature 0.3~0.7:轻微随机,保持连贯的同时引入多样性。适合日常对话、翻译、总结
  • Temperature 1.0~2.0:高随机性,概率分布被「拉平」,低概率词也有较大机会被选中。适合创意写作、头脑风暴

本质是:Temperature 越高,概率分布越「平坦」(各选项概率更接近);越低,概率分布越「尖锐」(最优选项碾压其它)。

e.一句话总结

Temperature 是 AI 的「创造力旋钮」------调低出稳定精确的答案,调高出灵感四溅的创意,0.7 是大多数场景的甜点值。

6.RAG(Retrieval-Augmented Generation,检索增强生成)

a.技术概念背景

大模型有一个致命弱点:它的知识是训练时「冻结」的。GPT-4 训练数据截止到某个日期,之后发生的事它完全不知道;你公司内部的文档、产品数据更不可能在它的训练集里。如果你问它「我们公司上周的销售数据」,它只能瞎编(幻觉)。RAG 是 2020 年由 Meta AI 提出的方案,2023-2024 年成为企业 AI 落地最主流的架构模式。

b.一句话说明

RAG 是让 AI 先搜索再回答的架构------回答之前先从你的知识库里找到相关内容,再基于这些内容生成答案。

c.打比方

想象你在面试一个什么都懂的候选人,但他的知识停止在去年。你问他「我们项目最新的 API 文档在哪」,他只能猜。普通 LLM = 闭卷考试,全靠记忆(训练数据),记不住就编。RAG = 开卷考试,AI 先翻你给的参考资料(知识库),找到最相关的几页,然后基于这些页面组织出准确的答案。翻书是「检索」,写答案是「生成」,合在一起就是 RAG。

d.核心内容

RAG 的工作流程三步走:

  1. 索引(Index):把你的文档(PDF、网页、数据库)切成小块,每块通过 Embedding 转成向量,存入向量数据库(如 Pinecone、Milvus)
  2. 检索(Retrieve):用户提问时,把问题也转成向量,在向量数据库中找到最相似的 Top-K 个文档片段
  3. 生成(Generate):把检索到的文档片段 + 用户问题一起塞进 Prompt,让大模型基于这些真实内容生成回答

核心优势:不需要重新训练模型、知识可实时更新、答案可追溯来源、大幅减少幻觉。

e.前端类比

以类比为 SSR + 数据预取(getServerSideProps) 模式。纯 CSR(客户端渲染)= 纯 LLM,所有内容靠客户端(模型记忆)自己生成,数据可能过时或缺失。SSR + getServerSideProps = RAG,页面渲染前先从数据库/API 预取最新数据(检索),再把数据注入组件 props(塞进 Prompt),最终渲染出包含实时数据的页面(生成准确答案)。数据源可以随时更新,不需要重新部署(不需要重新训练模型)。

f.一句话总结

RAG 让 AI 从「全靠记忆的闭卷学霸」变成「会查资料的开卷高手」------先检索你的知识库,再基于真实内容生成答案,是企业 AI 落地的核心架构。

7.向量数据库(Vector Database)

a.技术概念背景

传统数据库(MySQL、PostgreSQL)擅长精确匹配:WHERE name = '张三'。但 AI 时代的核心需求是语义搜索------用户搜「如何退货」,要能找到内容里写的「商品退回流程」,虽然关键词完全不同但意思一样。传统数据库做不到这一点。向量数据库专门为存储和搜索 Embedding 向量设计,2023 年随着 RAG 的爆发成为 AI 基础设施的关键一环,代表产品有 Pinecone、Milvus、Weaviate、Chroma 等。

b.一句话说明

向量数据库是专门存储和快速搜索 Embedding 向量的数据库,核心能力是「找到意思最接近的内容」。

c.打比方

传统数据库像图书馆的索引卡片柜 ------你必须知道精确的书名或作者才能找到书。向量数据库像一个无形的「相似书墙」------所有书按内容相似度排列在一个空间里,你说一句「我想看讲时间旅行的科幻小说」,它立刻把附近最相关的几本拿给你,即使书名里没有「时间旅行」这几个字。它比较的不是文字匹配,而是内容含义的「距离」。

d.核心内容

向量数据库的核心操作:

  • 存储:把文本通过 Embedding 模型转成高维向量(如 1536 维),连同原文一起存入
  • 相似性搜索:输入一个查询向量,用距离算法(余弦相似度、欧氏距离)找出最近的 K 个向量
  • 近似最近邻(ANN):为了在百万级甚至亿级向量中毫秒级返回结果,使用 HNSW、IVF 等索引算法,牺牲微小精度换取极大速度

与传统数据库的核心区别:传统 DB 做精确匹配 (等于/大于/包含),向量 DB 做近似匹配(语义最接近的 Top-K)。两者通常配合使用,不是替代关系。

主流方案:

  • 专用向量数据库:Pinecone、Milvus、Qdrant、Weaviate
  • 传统数据库 + 向量扩展:PostgreSQL + pgvector、Redis + Vector Search

e.一句话总结

向量数据库是 AI 的「语义搜索引擎」------不搜关键词,搜含义,是 RAG 检索环节的核心基础设施。

8.Fine-tuning(微调)

a.技术概念背景

大模型(如 GPT-4、Llama)的预训练成本极高------需要数千张 GPU、数月时间、数百万美元,吃下整个互联网的数据。但预训练出来的模型是「通才」,对你的特定业务(医疗术语、法律条款、你公司的代码风格)可能不够精准。Fine-tuning 就是在预训练好的大模型基础上,用你自己的小数据集继续训练,让模型变成你领域的「专才」。成本比从零训练低几个数量级,是企业定制 AI 的主流方式之一。

b.一句话说明

Fine-tuning 是在已有大模型的基础上,用少量专业数据再训练,让它学会你特定领域的知识和风格。

c.打比方

预训练好的大模型像一个刚毕业的全科医学生 ------什么都学过,但都不精。Fine-tuning 就是让他去皮肤科规培3个月------不用重新读大学(预训练),只需要看大量皮肤病案例(你的数据集),他就能变成皮肤科专家。规培的数据量远小于医学院全部课程,但效果对皮肤科来说好得多。

d.核心内容

Fine-tuning 的几种常见方式:
  • 全参数微调(Full Fine-tuning):调整模型所有参数,效果最好,但需要大量 GPU 显存和数据
  • LoRA / QLoRA:只调整模型中很小一部分参数(低秩适配器),显存需求降低 10 倍以上,是目前最流行的方式
  • 指令微调(Instruction Tuning):用「指令→回答」格式的数据训练,让模型学会遵循指令(ChatGPT 就是 GPT 经过指令微调 + RLHF 的产物)
Fine-tuning vs RAG 的选择
  • RAG:知识经常更新、需要引用来源、数据量大 → 用 RAG
  • Fine-tuning:需要改变模型的风格/格式/专业术语、数据相对固定 → 用 Fine-tuning
  • 实际项目中两者经常组合使用

e.前端类比

可以类比为继承 + 覆写(extends + override) 。基础大模型像一个功能完备的 UI 组件库(如 Ant Design),Fine-tuning 就是你 extends 这个组件库后,override 部分样式和行为来适配你的业务主题。你不用从零写一个组件库(预训练),只需要写一个 theme 配置或覆写少量组件(少量数据微调),就能得到完全贴合你业务的定制版。LoRA 更像 CSS Variables------只改几个变量就能改变全局风格,而不需要重写所有样式。

f.一句话总结

Fine-tuning 是用少量专业数据把「通才模型」调教成「领域专家」------不用从零训练,只需在巨人的肩膀上做小幅定制。

9.Tool Calling(工具调用 / Function Calling)

a.技术概念背景

大模型本质上只会「生成文字」------它不能真正查数据库、不能发邮件、不能调 API、不能操作文件。但现实中的 AI 应用需要这些能力:查天气、搜航班、执行代码、操作你的系统。Tool Calling 是 2023 年 OpenAI 率先推出的能力(最初叫 Function Calling),让模型在对话中决定何时该调用哪个外部工具,并生成正确的调用参数,从而打通 AI 与真实世界的桥梁。

b.一句话说明

Tool Calling 是让 AI 自己判断该调用哪个外部工具、传什么参数,从而执行真实操作的能力。

c.打比方

大模型本身像一个坐在办公桌前的超级智囊 ------他什么知识都有,但手脚被绑住了,只能动嘴说话。Tool Calling 就是给他配了一部电话和一本通讯录。你说「帮我查下北京明天的天气」,他不再瞎猜,而是翻通讯录找到「天气查询热线」,拨通电话报出「北京, 明天」,拿到真实数据后再告诉你。他自己决定打哪个电话、说什么,你只需要描述需求。

d.核心内容

Tool Calling 的工作流程:

  1. 定义工具:开发者预先注册工具列表(函数名、参数描述、用途说明),告诉模型有哪些「可用工具」
  2. 模型决策:用户提问后,模型判断是否需要工具、该用哪个、参数是什么,输出一段结构化的 JSON 调用
  3. 执行工具:开发者的代码接收 JSON,调用真实的 API/函数,拿到结果
  4. 整合回答:把工具执行结果返回给模型,模型基于结果生成最终自然语言回答

模型不执行工具,只是「决定调用什么 + 生成参数」,实际执行由你的后端代码负责。这是安全设计------AI 只动脑,不动手。

Tool Calling 是构建 AI Agent 的基础。Agent = 大模型 + 多个工具 + 自主决策循环。

e.前端类比

可以类比为 事件系统(Event Emitter / 自定义事件) 。组件本身不直接操作外部系统------它 dispatch 一个自定义事件(如 {type: 'SEND_EMAIL', payload: {to: 'user@xx.com', subject: '...'}}),外层的事件监听器接收后执行真实操作(调邮件 API)。Tool Calling 的模型就像组件------它只负责 dispatch 结构化的调用意图(JSON),你的后端监听器负责真正执行。模型不碰真实 API,就像 React 组件不直接操作 DOM 一样。

f.一句话总结

Tool Calling 给 AI 装上了「手和脚」------模型自主决定调用什么工具、传什么参数,你的代码负责执行,是 AI 从「聊天机器人」进化为「能干活的 Agent」的关键能力。

10.Agent(AI 智能体)

a.技术概念背景

普通的 LLM 对话是「一问一答」模式------你问一个问题,AI 回答一次就结束了。但现实中很多任务需要多步骤、自主决策 :比如「帮我调研竞品,写一份分析报告,发给团队」------这需要搜索网页、读取内容、对比分析、生成文档、发送邮件,一步的输出是下一步的输入。Agent 就是让 AI 自主规划步骤、调用工具、根据结果决定下一步的架构,2024-2025 年成为 AI 领域最热门的方向,代表框架有 LangChain、AutoGPT、CrewAI。

b.一句话说明

Agent 是一个能自主思考、规划、执行多步任务的 AI 系统------它不只是回答问题,而是像一个真正的助手一样完成整个工作流。

c.打比方

普通 LLM 像一个只能接听电话的客服 ------你问一句他答一句,挂了电话就啥也不做。Agent 像一个能独立工作的私人助理------你说「帮我安排下周的商务出差」,他会自己:①查航班 ②比较酒店 ③检查你的日程冲突 ④订机票 ⑤发确认邮件给你。每一步他都自己判断做什么、用什么工具,中间遇到问题会调整方案,直到任务完成。你只给了一个目标,他自己搞定全部执行。

d.核心内容

Agent 的核心三要素:
  • 大脑(LLM):推理和决策引擎,负责理解任务、制定计划、判断下一步做什么
  • 工具(Tools):Agent 可调用的能力,如搜索引擎、代码执行、数据库查询、API 调用(通过 Tool Calling 实现)
  • 记忆(Memory):短期记忆(当前对话上下文)和长期记忆(持久化的知识),让 Agent 记住之前做了什么
Agent 的运行循环(ReAct 模式):
复制代码
观察现状 → 思考(推理下一步该做什么) → 行动(调用工具) → 观察结果 → 继续思考 → ... 直到任务完成
Agent 常见架构
  • 单 Agent:一个 Agent 独自完成任务
  • 多 Agent(Multi-Agent):多个专业 Agent 协作,如「产品经理 Agent」+ 「程序员 Agent」+ 「测试 Agent」组队完成项目

e.一句话总结

Agent = LLM(大脑)+ Tools(手脚)+ Memory(记忆)+ 自主循环(思考→行动→观察),是 AI 从「聊天工具」进化为「能独立完成复杂任务的数字员工」的终极形态。

11.ReAct(Reasoning + Acting)

a.技术概念背景

早期让 AI 做复杂任务有两条路线:一条是 Chain-of-Thought(CoT)------让模型纯推理,一步步思考,但不能调用工具,只能在脑子里「想」;另一条是 Tool Use------让模型直接调用工具,但没有推理过程,不知道为什么要调这个工具。2022 年 Google 和 Princeton 大学联合发表了 ReAct 论文,把这两条路线合二为一------先想清楚再动手做,做完再想下一步,形成了 Agent 最经典的运行范式。

b.一句话说明

ReAct 是让 AI 每一步都先推理再行动的决策模式------思考为什么要做 → 执行具体操作 → 观察结果 → 继续思考,循环往复。

c.打比方

想象你在做一道没见过的菜。纯推理(CoT)模式 :你坐在沙发上在脑子里想「我觉得需要盐、油、蒜...应该先炒蒜...」但你根本没进厨房,不知道冰箱里有没有蒜。纯行动模式 :你冲进厨房随便抓东西就往锅里扔,不想后果。ReAct 模式 :你 「这道菜需要蒜」→ 去冰箱看 (行动)→ 发现没蒜 (观察)→ 「那用葱姜代替吧」→ 继续做。每一步都有理由、有行动、有反馈,灵活调整。

d.核心内容

ReAct 的固定循环(三步一轮):

复制代码
Thought(推理): 我需要查一下用户的订单状态
Action(行动):  调用 query_order(order_id="12345")
Observation(观察): 订单状态为"已发货",快递号 SF1234567

Thought(推理): 用户还问了预计到达时间,我需要查快递
Action(行动):  调用 track_delivery(tracking_no="SF1234567")
Observation(观察): 预计明天 14:00 送达

Thought(推理): 信息齐全了,可以回复用户了
Final Answer: 您的订单已发货,快递号 SF1234567,预计明天 14:00 送达。

ReAct 的关键优势:

  • 可解释:每步推理都写出来,知道 AI 为什么做这个决定
  • 可纠错:观察到的结果不对,AI 能在下一轮调整策略
  • 可控制:开发者能看到完整的推理链,方便调试

ReAct 是目前几乎所有 Agent 框架(LangChain、LlamaIndex、AutoGPT)的默认执行模式。

e.一句话总结

ReAct 让 AI 像人一样「三思而后行」------每一步先推理 why、再执行 what、再观察 result,是 Agent 自主完成复杂任务的核心决策循环。

12.LangChain

a.技术概念背景

直接用 OpenAI API 调大模型,只能做最基础的一问一答。但真实的 AI 应用需要:对接不同模型(GPT/Claude/Llama)、管理 Prompt 模板、串联多步骤推理、集成向量数据库做 RAG、让模型调用工具、维护对话记忆... 每个都要自己写一堆胶水代码。LangChain 是 2022 年底由 Harrison Chase 开源的 Python/JS 框架,把这些通用能力封装成标准化的模块和链式调用,迅速成为 LLM 应用开发最流行的框架(GitHub 90K+ star)。

b.一句话说明

LangChain 是构建 LLM 应用的开发框架------把模型调用、Prompt 管理、工具集成、记忆、RAG 等能力模块化,像搭积木一样组合。

c.打比方

如果大模型是发动机 ,那 LangChain 就是整车工厂的生产线。你不需要自己焊底盘(写 API 对接代码)、装轮子(搞向量数据库连接)、接线路(串联多步骤流程)------生产线上每个工位(模块)都准备好了,你只需要选配置、组装、下线。想换个发动机品牌(从 GPT 换 Claude)?只需要换一个插头(切换模型提供商),其他不用改。

d.核心内容

LangChain 的核心模块:
  • Models:统一接口对接各种 LLM(OpenAI、Anthropic、本地模型等),切换模型不改业务代码
  • Prompts:Prompt 模板引擎,支持变量插入、Few-shot 示例管理
  • Chains:把多个步骤串成链,如「提取关键词 → 搜索 → 总结」,一步的输出自动传给下一步
  • Agents:内置 ReAct 等决策循环,让模型自主选择工具和步骤
  • Memory:对话记忆管理,支持短期/长期/摘要式记忆
  • Retrievers:对接向量数据库做 RAG 检索
LangChain 生态
  • LangChain:核心框架
  • LangSmith:调试和监控平台(类似 AI 应用的 DevTools)
  • LangGraph:基于图结构的 Agent 编排工具(比 Chain 更灵活)
  • LangServe:一键部署 Chain/Agent 为 REST API

e.前端类比

可以类比为 Next.js 之于 React 。React 本身只是渲染库(就像 LLM 本身只是模型 API),但做一个完整的 Web 应用,你需要路由、SSR、数据预取、API Routes、中间件... Next.js 把这些全封装好了。LangChain 做的是一样的事------LLM API 只是基础能力,LangChain 封装了 RAG、Agent、Memory、工具调用等所有构建 AI 应用需要的东西。Chain 像 Next.js 的 middleware 链,Agent 像它的 API Routes + Server Actions,Memory 像 Session/Cookie 管理。

f.一句话总结

angChain 是 LLM 应用的「Next.js」------把模型调用、RAG、Agent、记忆等能力标准化和模块化,让开发者专注业务逻辑而非底层对接。

13.LangGraph

a.技术概念背景

LangChain 的 Chain(链)是线性的:A → B → C,一步接一步。但现实中的 Agent 任务很少是直线流程------可能需要条件分支 (如果搜索没结果就换个关键词重搜)、循环 (反复修改直到用户满意)、并行 (同时搜多个数据源)、人类审批(关键步骤等人确认再继续)。LangGraph 是 LangChain 团队在 2024 年推出的子框架,用**有向图(Graph)**替代线性链,节点是步骤、边是条件/路由,能表达任意复杂的 Agent 工作流。

b.一句话说明

LangGraph 是用图结构编排 Agent 工作流的框架------把复杂的 AI 任务拆成节点和边,支持循环、分支、并行和人机协作。

c.打比方

LangChain 的 Chain 像流水线 ------零件从头到尾走一遍就出来了,如果中间某步出错,整条线停摆。LangGraph 像城市交通网络------每个路口(节点)是一个工作步骤,路口有红绿灯和路标(条件判断),决定车往哪个方向走。发现前方堵车(步骤失败)可以自动绕路(分支),需要加油(外部输入)可以进服务站暂停(人类审批),有些路可以同时走(并行执行)。

d.核心内容

LangGraph 的核心概念:
  • 节点(Node):每个节点是一个函数/步骤,如「调用 LLM」「搜索知识库」「发邮件」
  • 边(Edge):定义节点之间的连接,可以是无条件的(总是走)、有条件的(根据上一步结果决定走哪条边)
  • 状态(State):贯穿整个图的共享数据,每个节点可以读写状态,像全局 store
  • 检查点(Checkpoint):自动保存图执行到哪一步的状态,支持暂停/恢复/回滚
LangGraph vs LangChain 的关键区别
特性 LangChain Chain LangGraph
流程结构 线性(A→B→C) 任意图(分支/循环/并行)
循环支持 不支持 原生支持
人类介入 困难 内置 interrupt 机制
状态管理 简单传递 全局 State + 检查点
适合场景 简单流水线 复杂 Agent 工作流

典型应用:多轮对话 Agent、代码生成→测试→修复循环、需要人类审批的自动化流程、多 Agent 协作。

e.前端类比

可以类比为 React Router v6 的嵌套路由 + Loader 。LangChain Chain 像早期 React Router 的扁平路由------路径是线性的。LangGraph 像 v6 的嵌套路由------每个路由节点(Node)有自己的 loader(执行逻辑),根据 URL 参数/条件决定走哪条路由(条件边),支持并行加载(Promise.all loader),支持 redirect(分支)和 defer(等待异步结果)。State 就像 useOutletContext,在整个路由树中共享。

或者用更贴切的类比------XState 状态机。每个状态是一个节点,事件触发状态转换(边),可以有守卫条件(条件边),支持并行状态、历史状态(检查点),这和 LangGraph 的设计哲学几乎一模一样。

f.一句话总结

LangGraph 是 Agent 的「状态机引擎」------用图结构编排复杂工作流,让 AI 能循环、分支、并行、暂停,处理真实世界中非线性的复杂任务。

14.MCP(Model Context Protocol,模型上下文协议)

a.技术概念背景

AI Agent 需要连接各种外部系统------GitHub、数据库、文件系统、Slack、Jira...但每个工具的对接方式都不同:不同的 API 格式、不同的认证方式、不同的数据结构。开发者每集成一个工具就要写一套定制代码,N 个 AI 应用 × M 个工具 = N×M 套对接代码,组合爆炸。MCP 是 Anthropic(Claude 的公司)在 2024 年底提出的开放协议标准,定义了 AI 应用和外部工具之间的通信规范,让任何 AI 应用都能用统一的方式连接任何工具。

b.一句话说明

MCP 是 AI 工具对接的USB 标准接口------定义了 AI 应用和外部工具之间通信的统一协议,一次写好,处处接入。

c.打比方

以前每个手机品牌都有自己的充电线------iPhone 用 Lightning、三星用 Micro-USB、华为用某种定制接口。你出门要带三根线。USB-C 标准出来后,一根线充所有设备。MCP 做的是同样的事:以前 ChatGPT 接 GitHub 要写一套代码、Claude 接 GitHub 要写另一套、你自己的 Agent 接 GitHub 要写第三套。有了 MCP,GitHub 只需要提供一个 MCP Server,任何支持 MCP 的 AI 应用(MCP Client)都能直接连上,不用单独适配。

d.核心内容

MCP 的架构:
  • MCP Host(宿主):AI 应用本身,如 VS Code Copilot、Claude Desktop、自定义 Agent
  • MCP Client(客户端):宿主内部的协议客户端,负责与 Server 通信
  • MCP Server(服务端):工具提供方实现的标准化接口,暴露工具能力
MCP Server 提供三种能力:
  • Tools:可被 AI 调用的操作(如 "create_issue"、"query_database")
  • Resources:AI 可读取的数据源(如文件内容、数据库记录)
  • Prompts:预定义的 Prompt 模板(如 "用专业语气总结这段代码")

MCP 解决的核心问题:N×M → N+M。以前 5 个 AI 应用 × 10 个工具 = 50 套对接代码。有了 MCP,5 个客户端 + 10 个服务端 = 15 套代码,各自独立开发。

当前生态:VS Code Copilot、Claude Desktop、Cursor、Windsurf 等主流 AI 工具已支持 MCP Client;社区已有数百个开源 MCP Server(GitHub、PostgreSQL、Slack、文件系统等)。

e.前端类比

可以类比为 LSP(Language Server Protocol,语言服务器协议) ------前端开发者非常熟悉的概念。以前每个编辑器要支持每种语言都要单独写插件:VS Code 支持 TypeScript 写一套、Vim 支持 TypeScript 再写一套。LSP 标准化后,TypeScript 只需写一个 Language Server,所有支持 LSP 的编辑器都能用。MCP 和 LSP 是完全相同的思路------LSP 统一了「编辑器 ↔ 编程语言」的协议,MCP 统一了「AI 应用 ↔ 外部工具」的协议。甚至 Anthropic 自己也承认 MCP 的灵感来自 LSP。

f.一句话总结

MCP 是 AI 工具生态的「USB-C / LSP」------用一个开放协议标准统一所有 AI 应用和外部工具的对接方式,让工具写一次、处处可用。

15.Skills(技能)

a.技术概念背景

Agent 有了大脑(LLM)、工具(Tools)和记忆(Memory),但当任务变复杂时,一个简单的 Prompt + 工具列表不够了。比如「帮我做一个竞品分析」------这个任务包含多个子步骤,每个子步骤需要不同的执行策略、不同的 Prompt 模板、不同的工具组合。Skills 就是把某个专业领域的完整执行方案打包成一个可复用的模块,Agent 需要时加载对应的 Skill,按其中的工作流执行。这个概念在 2024-2025 年随着 VS Code Copilot、AutoGPT 等工具的成熟而流行起来。

b.一句话说明

Skill 是 Agent 的预封装专业能力包------包含特定任务的完整执行方案(指令、工具配置、工作流),Agent 按需加载使用。

c.打比方

Agent 像一个万能员工 ,Skill 像他考过的各种职业证书。他有「财务分析师证书」(财务 Skill)------里面包含财务分析的标准流程、需要用到的工具(Excel/SAP)、专业术语规范。他有「UI 设计师证书」(设计 Skill)------包含设计流程、Figma/Sketch 工具、设计规范。每次接到任务,他先看需要哪张证书,然后按证书里的标准流程执行。没有对应证书(Skill),他只能靠通识能力应付。

d.核心内容

Skill 通常包含:
  • 指令(Instructions):详细的执行规则和 Prompt 模板,定义 Agent 在该领域应该怎么做
  • 工具配置(Tools):该 Skill 需要用到哪些工具,如何配合使用
  • 工作流(Workflow):步骤编排,先做什么后做什么
  • 领域知识(Domain Knowledge):专业术语、约定、最佳实践
Skill 的应用场景
  • VS Code Copilot :通过 SKILL.md 文件定义,如「测试技能」教 Agent 如何写单元测试、「API 设计技能」教 Agent 遵循 RESTful 规范
  • AutoGPT:通过 Skills 模块让 Agent 学会新能力(代码执行、网页浏览等)
  • 企业 AI:把公司内部的 SOP(标准操作流程)封装成 Skill,新员工(新 Agent)加载即用

Skill vs Tool 的区别

对比 Tool Skill
粒度 单个原子操作(如"发邮件") 完整的工作流方案
包含 一个函数/API 指令+工具组合+流程+知识
类比 一把螺丝刀 修电路的完整程序手册

e.前端类比

可以类比为 npm 中的 preset / scaffold 包 。Tool 像单个 npm 包(如 lodashaxios)------提供单一能力。Skill 像 create-react-appeslint-config-airbnb------不只是一个工具,而是一整套预配置的最佳实践方案(脚手架模板 + 工具链配置 + 代码规范 + 目录结构标准)。你安装一个 preset,就获得了该领域的完整开发体验,不需要自己从零配置。Skill 对 Agent 的作用完全一样。

f.一句话总结

Skill 是 Agent 的「专业技能证书」------把特定领域的指令、工具、流程和知识打包成可复用模块,让 Agent 从「通才」即时切换为「该领域的专家」。

相关推荐
温九味闻醉2 小时前
关于腾讯广告算法大赛2025项目分析1 - dataset.py
人工智能·算法·机器学习
White-Legend2 小时前
第三波GPT5.4 日400刀
人工智能·ai编程
. . . . .2 小时前
Claude Code Hooks的原理、触发执行机制以及如何编写 Hooks
人工智能
w_t_y_y2 小时前
codex(一)下载安装&使用
人工智能
唐兴通个人2 小时前
唐兴通应邀为平安财产险北京分公司高层主讲《新媒体营销》专项培训,引领保险业AI时代内容营销变革
人工智能
朗心心理2 小时前
朗心科技:以数智化引领心理健康服务新标杆
大数据·人工智能·科技·心理健康·朗心科技·数智化心理育人·一站式心理中心建设
LaughingZhu2 小时前
Product Hunt 每日热榜 | 2026-03-23
数据库·人工智能·经验分享·神经网络·chatgpt
一个帅气昵称啊3 小时前
基于.NET AgentFramework开发OpenClaw智能体框架
人工智能·自然语言处理·c#·.net·openclaw