AI Agent 相关知识扫盲：16 个概念+11张图+38个开源项目推荐

最近半年 AI Agent 这词到处都是，GitHub 上相关项目动不动就几十万 Star，朋友圈天天这个炸了那个爆火😂。但真要问一句「Agent 到底是什么？」，很多人答不上来，今天我就来扫个盲。

我这一年主要拿 Claude Code 改代码，Agent 用得多。这篇把这些概念理一理：从最基础的 Token，到多 Agent 协作，一共 16 个概念，自底向上分成 5 层。每个概念配一张图，再配几个按 GitHub Star / Fork 热度筛过的代表项目，看完能对 Agent 有个完整的认识。

先放一张全景图：

为什么要分层？因为 Agent 这些概念是一层一层垒起来的，下面的不懂，上面的就悬空。比如不懂 Token，就理解不了为什么会有上下文窗口这个限制。从底往上看一遍，整个脉络就清楚了。

第一层：基础底座

这一层是地基，看着不起眼，但后面会反复用到。三个概念。

Token：AI 只认数字

模型不认汉字也不认英文，它只认数字。你输入的一段话，会被分词器切成一个个小单元（叫 Token），每个对应一个数字，模型干的活就是对这些数字做运算。

Token 直接影响三件事：上下文能塞多少、API 怎么计费、回复有多快。这也是为什么 Claude Code 要弄个 CLAUDE.md 文件------把项目架构浓缩成几百行，而不是把整个代码库都塞进去，怕的就是上下文被无关内容占满。

要数 Token 的话，tiktoken（OpenAI 出的）最方便。想看更通用的分词器实现，也可以顺手看看 Hugging Face Tokenizers 和 SentencePiece。

训练：从通才到专家

你可能会好奇，为什么同一个模型，写代码的时候很聪明，问它冷门问题就开始瞎编？这跟训练有关。

训练分两步。第一步叫预训练，拿海量的通用数据（网页、书、代码）喂给它，让它学会语言和常识。这一步最烧钱，几万张显卡跑上几个月。第二步叫微调，用规模小但更专业的数据接着练，比如想让模型擅长写代码，就拿大量优质代码来微调。

打个比方，预训练像读本科，知识面广但都浅；微调像读研究生，在一个方向上钻深。

微调框架里 LLaMA-Factory（约 72K Star）最火，支持 LLaMA、Qwen 这些主流模型。偏训练加速可以看 Unsloth，偏 RLHF / SFT 流程可以看 TRL。

幻觉：它不是故意骗你

你大概也被 AI 一本正经地忽悠过。我问过一个模型，Spring 里有没有处理消息重试的注解，它信誓旦旦给了我一个 @AsyncRetryable，参数、用法讲得头头是道------结果加进代码编译就报错，这注解压根不存在。

这就是幻觉。原因在于大模型本质上是个概率预测器，它算的是「下一个词最可能是什么」，而不是「正确答案是什么」。所以它有时候会编出看起来挺合理、其实是错的内容。它不是坏了，是天生就这么运作。用的时候自己验证一下，别全信。

第二层：能力扩展

底座有了，模型已经是个合格的聊天机器人。但要变成能干活的 Agent，它得有记忆、会用工具、能查资料。这些能力基本都在这一层。

Context Engineering：2025 -26年比较火的概念

最近一年有个变化：大家不太提 Prompt Engineering（提示词工程）了，开始说 Context Engineering（上下文工程）。

以前的提示词工程，关心的是「这句话怎么写」。但 Agent 面对的是复杂任务，它需要的不只是一句提示词，而是整个信息环境：项目背景、之前做过什么决定、有哪些工具能用、输出要什么格式、有什么安全约束。把这些都系统地准备好，就是上下文工程。Maven 有份报告说得挺到位：大部分 Agent 失败，不是因为模型不行，是上下文没喂对。

RAG：让 AI 开卷考试

问大模型一个公司内部的问题，它经常瞎编，因为训练数据里没有你们公司的资料。

RAG（检索增强生成）的思路很简单：让它回答之前先查资料，相当于开卷考试。流程是------提问 → 把文本转成向量 → 在向量库里找最相关的内容 → 把找到的拼进提示词 → 交给模型生成回答。

RAG 也分代，最新的叫 Agentic RAG，不再傻乎乎检索一次就回答，而是让一个 Agent 来决定要不要查、查什么、要不要多查几轮。

框架标杆是 LlamaIndex（约 50K Star），主打深度文档理解的有 RAGFlow（约 83K Star），传统检索问答工程里 Haystack 也值得看。

记忆

你发现没，每开一个新的对话，AI 都不记得你是谁，上次聊的全忘。Agent 要干活就得有记忆：短期记忆管当前这摊事（太长会自动摘要），长期记忆把你的偏好存下来，下次直接用。相当于给它配了个笔记本，省得每次重新自我介绍。

Mem0（约 59K Star）专门做这个。如果想看更完整的长期记忆 / Agent 状态管理，可以看 Letta；偏记忆服务化可以看 Zep。

Tool Use：Agent 的手

Claude 是怎么「看到」你代码文件的？它不是自己打开文件看，而是调了一个叫 Read 的工具。这就是 Tool Use，也叫 Function Calling。

这里有个关键点：模型自己不执行函数，它只是决定「该调哪个函数」，真正执行的是外面的程序。理解了这个，下面 MCP 才好懂。

Computer Use / Browser Use：Agent 的眼睛

有些事没有 API 可以调，得像人一样去看屏幕、点按钮、填表单。Computer Use 让 Agent 能看屏幕截图、模拟鼠标键盘；Browser Use 更专注，专门操作浏览器。browser-use（约 99K Star）这个项目，Star 数比很多 Agent 框架都高，因为只要人能在浏览器里干的事，它都能干。工程里还经常搭配 Playwright 做浏览器自动化和回归验证。

MCP：统一接口

接一个新工具就得写一套代码，今天接数据库写一套，明天接文件系统又写一套，挺烦的。MCP（Model Context Protocol）就是来解决这个的，相当于 Function Calling 的标准化版本。

它的架构分三层：Host 是 AI 应用（比如 Claude Code），Client 负责在 Host 内部和外部通信，Server 是提供具体能力的工具服务。配的时候，就是声明每个 Server 能干啥。

MCP 管的是 Agent 怎么连工具，服务器合集可以看 awesome-mcp-servers（约 89K Star），官方服务器合集是 modelcontextprotocol/servers（约 87K Star）。至于 Agent 之间怎么通信，那是第四层 A2A 的事。

第三层：智能核心

能力和工具都有了，这层看 Agent 怎么把它们串起来完成任务。

Agent：从对话到执行

普通聊天是你问一句、它答一句。Agent 是你给个任务，它自己拆解、自己执行、自己检查，搞完给你结果。

一句话：Agent = 模型 + 规划 + 记忆 + 工具调用。它不是聊天框，是个能自己干活的角色。

跟普通对话对比一下：

	普通对话	Agent
交互	一问一答	给任务，自己搞定
工具	没有	能调外部工具
拆解	不拆，直接答	自己拆成多步
反馈	没有	做完看结果，不行重来

OpenClaw（约 379K Star）就是典型的 Agent。写代码这块，Claude Code 和 Cursor 是主流；如果想看 SDK 层怎么封装 Agent，可以看 OpenAI Agents SDK、Pydantic AI。

CoT 和推理模型：先想再答

CoT（思维链）就是让模型在给答案之前，先把推理过程写出来，逼它一步步想，别直接跳到结论。对数学、写代码这种需要多步推理的事，效果明显。

2024 年 OpenAI 的 o1 把这事推进了一步，出现了推理模型（o1、DeepSeek R1、Claude 的 extended thinking）------把长链推理直接练进模型里，不用你再写「一步一步想」，它自己就会。DeepSeek-R1 是开源推理模型的代表。

ReAct：想一步做一步

Agent 怎么完成一个复杂任务？不是一口气干完，而是「想一想、做一步、看看结果、再想下一步」，循环往复。

你可能会说，这不就是平时调试代码的流程吗？差不多，区别在于这个循环是 Agent 自己跑的，不用你在旁边一步步指挥。

编排框架里 LangGraph（约 35K Star）比较成熟。它背后的 LangChain 生态更大，但 LangGraph 更贴近 Agent 的状态机和循环编排。

反思

人做完题会检查一遍，Agent 也该会。反思就是生成之后再评估，根据反馈修正。分两种：一种是自己审自己，适合检查格式、有没有改错地方；另一种是丢进真实工具里验证，比如跑测试、编译看有没有报错。

Skill：岗位手册

Skill 是结构化的知识包，给 Agent 补充某个领域的流程和工具。模型本身像个聪明但不懂具体流程的新人，Skill 就像是给它的岗位手册，看完就知道这事该怎么干。

第四层：协作

一个人能力再强也有上限，2026 年比较热的方向是让多个 Agent 一起干活。

Multi-Agent：组队干活

产品拆需求、前后端并行、测试验收，一个人理论上全能干，实际干不过来，Agent 也一样。常见的编排有三种：顺序的（一个接一个，像流水线）、并行的（同时干，最后汇总）、层级的（一个主管拆活、底下的人各干各的）。

框架里 CrewAI（约 54K Star）比较简单，AutoGen（微软的，约 59K Star）更灵活，MetaGPT（约 69K Star）专门做多 Agent 软件开发。还有个热度很高的新项目 Paperclip（约 71K Star），主打"零人公司"------把 Agent 组织成一家公司，连 CEO、预算、组织架构都有。它本质还是多 Agent 编排框架；而且这项目 3 个月涨到 7 万 Star。足以看出热度火爆。

A2A：Agent 之间的通信协议

MCP 解决了 Agent 怎么调工具，但没解决 Agent 怎么跟另一个 Agent 说话。Google 2025 年推出了 A2A 协议来补这块------让不同框架、不同公司做的 Agent 能互相发现、通信、协作。

一句话区分：MCP 是 Agent 连工具的接口（像 USB-C），A2A 是 Agent 连 Agent 的协议（像蓝牙）。A2A 仓库在 A2A Protocol（24K+ Stars）。

第五层：工程实践

光有概念，Agent 在生产环境里跑不稳，还得靠工程手段兜底。

开发方式这几年也在变，大概三个阶段：

Vibe Coding（氛围编程）：Karpathy 2025 年提的，用大白话描述要啥让 AI 写，适合做 demo。
Context Engineering（上下文工程）：系统地管上下文，写 CLAUDE.md、配记忆、接 MCP。
Agentic Engineering（Agent 工程化）：搭一套让 Agent 能稳定运行的工程底座，权限、沙箱、日志、测试都配上。

不想写代码也能搭 Agent 的话，Langflow（约 150K Star）、Dify（约 145K Star）和 Flowise（约 54K Star）可以可视化拖拽。

最后还有个概念叫 Loop Engineering（循环工程）。Claude Code 的负责人 Boris Cherny 说过一句话：「我现在不写提示词了，我的工作是写循环。」意思是把 Agent 干活看作一个循环------发现任务、分派、执行、验证、记录------工程师要设计的是这个循环本身。这套东西里干货和营销掺半，但「循环」这个视角确实给了个能落地的调试切入点。

概念和项目对照表

我按两个维度筛了一遍：先看项目和概念是否强相关，再看 GitHub Star / Fork 热度。Star 代表关注度，Fork 代表二次使用和改造的人多不多。数字是我写稿时从 GitHub API 查的，后面肯定会变，所以这里只保留到约数。

概念	推荐项目（按热度优先）	适合看什么	Star / Fork
Token / 分词	tiktoken	OpenAI 模型 Token 计算	约 18.5K / 1.5K
Token / 分词	SentencePiece	经典子词分词算法	约 11.9K / 1.4K
Token / 分词	Tokenizers	高性能通用 tokenizer	约 10.8K / 1.1K
训练 / 微调	LLaMA-Factory	一站式微调主流开源模型	约 72.2K / 8.8K
训练 / 微调	Unsloth	低成本、高速微调	约 66.6K / 6.0K
训练 / 微调	TRL	SFT、RLHF、偏好优化	约 18.7K / 2.8K
推理模型	DeepSeek-R1	开源推理模型代表	约 92.0K / 11.7K
RAG	RAGFlow	文档解析 + RAG 工作流	约 82.9K / 9.6K
RAG	LlamaIndex	数据连接、索引、检索编排	约 50.2K / 7.6K
RAG	Haystack	传统检索问答工程框架	约 25.6K / 2.9K
向量库 / 检索底座	Chroma	本地向量库和检索实验	约 28.4K / 2.3K
记忆	Mem0	Agent 长短期记忆	约 58.7K / 6.7K
记忆	Letta	长期记忆和有状态 Agent	约 23.4K / 2.5K
记忆	Zep	记忆服务化	约 4.7K / 0.6K
Tool Use / Agent SDK	OpenAI Agents SDK	Agent、工具调用、handoff 封装	约 27.2K / 4.2K
Tool Use / Agent SDK	Pydantic AI	类型安全的 Agent 开发	约 17.8K / 2.2K
MCP	awesome-mcp-servers	MCP Server 生态目录	约 89.3K / 11.7K
MCP	modelcontextprotocol/servers	官方 MCP Server 示例	约 87.3K / 11.0K
Browser Use	browser-use	Agent 操作浏览器	约 99.1K / 11.1K
Browser Use	Playwright	浏览器自动化和回归验证	约 91.1K / 5.9K
Browser Use	Selenium	经典浏览器自动化	约 34.2K / 8.7K
Agent	OpenClaw	端到端 Agent 产品形态	约 379.0K / 79.3K
Agent 框架	LangChain	LLM 应用生态入口	约 139.4K / 23.1K
Agent 框架	LangGraph	状态图、循环、可控 Agent	约 34.9K / 5.8K
Multi-Agent	Paperclip	"零人公司"、Agent 公司化编排	约 70.8K / 13.2K
Multi-Agent	MetaGPT	多 Agent 软件开发流程	约 68.8K / 8.8K
Multi-Agent	AutoGen	多 Agent 对话与协作	约 59.0K / 8.9K
Multi-Agent	CrewAI	角色分工式多 Agent	约 53.7K / 7.5K
A2A	A2A Protocol	Agent 之间通信协议	约 24.3K / 2.5K
评测 / 反思	promptfoo	Prompt 和 Agent 输出评测	约 22.3K / 2.0K
评测 / 反思	DeepEval	LLM / RAG / Agent 测试	约 16.2K / 1.5K
评测 / 反思	Ragas	RAG 质量评估	约 14.4K / 1.5K
可观测 / 反馈闭环	Langfuse	LLM 调用链路、反馈、评估	约 29.2K / 3.0K
可观测 / 反馈闭环	Phoenix	LLM 可观测和实验分析	约 10.2K / 0.9K
幻觉 / 护栏	Guardrails AI	输出校验、约束和护栏	约 7.0K / 0.6K
低代码 Agent	Langflow	可视化搭建 Agent / RAG	约 149.7K / 9.3K
低代码 Agent	Dify	企业级 LLM 应用平台	约 145.4K / 22.9K
低代码 Agent	Flowise	拖拽式 LLM 工作流	约 53.6K / 24.5K

最后

16 个概念过完了。如果只记一句话，就是上面那个：Agent = 模型 + 规划 + 记忆 + 工具调用，剩下那些概念都是在给这个公式添砖加瓦。

光看不动手没用，挑一个顺眼的项目装上跑跑，比看十篇文章都管用。

如果觉得这篇对你有用，欢迎关注「蝎子莱莱爱打怪」公众号， ------专注 AI 和即时通讯相关技术的分享和思考，不贩卖焦虑，只说真话、讲干货。