AI新词太多?把它们串成一条线就清楚了
2023年你学会了一个词:大模型。2024年又冒出来RAG、Agent、Function Calling。2025年多了一堆o1、reasoning、multimodal。2026年MCP、Skill、A2A接踵而至。
感觉像在追一部每周更新概念词典的连续剧,每个新词刚记住,下集又换了一批。
但这些词不是随机冒出来的。它们之间有一条明确的因果链------每一个新概念的出现,都在补前一个概念的短板。把这条线拉出来,所有"新词"就不再是零散的术语,而是同一个故事的不同章节。
起点:大模型很聪明,但有三个硬伤
2023年,LLM(大语言模型)把"AI能对话"这件事从实验室搬到了每个人的桌面上。GPT-4、Claude、Gemini 这些名字开始频繁出现在日常讨论里。
但大模型有三个它自己解决不了的问题:
知识有截止日期。 模型的"记忆力"来自训练数据,训练完成的那一刻之后发生的事,它一概不知。你问它"昨天发生了什么",它只能编一个看起来合理的回答------这就是所谓"幻觉"(hallucination)的来源之一。
只会说话,不会干活。 大模型能生成文本,但不能替你发邮件、查数据库、操作文件。它像一个只会写备忘录的助理------备忘录写得漂亮,但永远不会动手执行。
记不住上次聊了什么。 每次对话是独立的,上下文窗口(context window)有硬性上限。聊到第五轮,它可能已经忘了第一轮你说了什么。
这三个短板,直接催生了后面一连串新概念的诞生。
第一轮修补:给模型加"外挂"
RAG------让它能查资料再回答
RAG(检索增强生成,Retrieval-Augmented Generation)解决的是知识过期问题。原理不复杂:模型回答之前,先从外部知识库(文档、网页、数据库)里搜一遍相关内容,把搜到的信息塞进prompt里,再基于这些"新鲜资料"生成回答。
打个比方:大模型像个有扎实基础知识的毕业生,RAG给了它一个可以随时翻查的图书馆。遇到不确定的问题,先去图书馆查,而不是靠记忆硬编。
RAG很快成了企业应用AI的主流架构------因为企业的知识更新频率远高于模型训练频率,用RAG接入内部文档库比等模型重新训练现实得多。
Function Calling------让它能动手做事
Function Calling(函数调用)解决的是"只会说话不会干活"的问题。模型在对话中识别出需要执行某个操作时,调用预先定义好的函数------查天气、发邮件、读写数据库、调用其他API。
这跟"模型自己操作电脑"不是一回事。Function Calling更像给模型一份工具清单:它知道有哪些工具可以用、每个工具怎么用,但执行过程还是由外部系统完成,模型只负责判断"什么时候该用哪个工具"。
Fine-tuning / LoRA------让它更懂你的领域
微调(fine-tuning)解决的是通用模型在特定领域不够专业的问题。用领域数据继续训练模型,让它从"什么都懂一点"变成"某个方向特别强"。
LoRA(低秩适配)是微调的一种省钱方式------只更新模型参数的一小部分,效果接近全量微调,成本大幅降低。对大多数中小企业来说,LoRA已经够用。
第二轮跃迁:让它学会"思考"
Reasoning Model------先想再答
2024年底到2025年,OpenAI的o1/o3系列和DeepSeek R1把一个新概念推到了前台:reasoning model(推理模型)。
普通模型的回答方式是"看到问题→直接输出"。推理模型多了一步:看到问题→内部思考链→再输出。 这个内部思考过程是隐式的,用户看不到,但模型确实在"想"------把复杂问题拆成子步骤、验证中间结论、发现矛盾时重新规划。
这听起来像个小改动,实际影响很大。数学竞赛题(AIME)、编程挑战(SWE-bench)这类需要多步推导的场景,推理模型的得分飞跃式提升。DeepSeek R1在AIME 2026拿到91.67%,OpenAI o3在复杂数学证明上表现最强。
reasoning model的出现也解释了为什么2025年Agent开始真正实用------能规划多步骤任务的模型,才有资格驱动一个能自主行动的系统。
第三轮整合:从"聪明工具"到"自主行动"
Agent------自己规划、自己执行
Agent(智能体)不是新概念,但2025年才从概念走向实用。定义很简单:Agent = 在循环中运行工具以达成目标的LLM。
区别于直接调用模型问一个问题拿一个回答,Agent能:
- 把一个复杂目标拆解成多个子步骤
- 逐步执行,每一步判断结果是否符合预期
- 不符合就调整计划,继续尝试
- 直到目标完成才停止循环
最典型的落地场景是编码Agent。Claude Code 2025年底"安静发布",到2026年6月已经达到10亿美元年化收入------这证明Agent不只是概念,而是有真实付费需求的产品类别。
MCP------给工具接统一接口
Agent需要调用大量外部工具(搜索、文件操作、数据库查询),但每个AI应用都要为每个工具单独写适配层------碎片化严重,换个框架就得重写一遍。
MCP(模型上下文协议,Model Context Protocol)是Anthropic在2024年11月提出的开放协议,定义了AI模型与外部工具之间的标准通信方式。一个MCP Server写一次,所有支持MCP的Host(Claude、ChatGPT、VS Code、Cursor)都能直接用------不用逐个适配。
目前MCP已经获得主流AI开发工具的原生支持,成为事实标准。对普通用户来说,MCP的意义可能不太直观,但它的底层作用相当于"给AI工具生态装了一个USB-C统一接口"------工具开发者和AI应用开发者之间的对接成本大幅降低。
Skill------把能力打包复用
Skill(技能包)是把一组指令和工具权限封装成可复用的能力单元。跟MCP的区别:MCP是"外部工具的标准接口",Skill是"AI自身行为的操作手册"。MCP管的是"能调用什么",Skill管的是"怎么完成某个任务"。
对开发者来说,Skill的价值是减少重复------把高频操作流程封装一次,以后触发命令就能自动加载,不用每次手动写prompt描述步骤。
整条线拉出来看
把上面所有概念按出现时间和因果关系排成一条线:
yaml
2023 LLM(大模型)登场
├─ 知识过期 → 2024 RAG(检索增强)
├─ 只能说话 → 2024 Function Calling(函数调用)
├─ 不够专业 → 2024 Fine-tuning / LoRA(微调)
│
多步推理能力突破 → 2025 Reasoning Model(推理模型)
│
推理能力 + 工具调用 + 规划 → 2025-2026 Agent(智能体)
│ ├─ 工具对接碎片化 → 2026 MCP(统一工具协议)
│ └─ 能力复用需求 → 2026 Skill(可复用技能包)
这条线的逻辑是:每一个新概念都在修补上一个阶段的缺口,修补本身又暴露出新的缺口,催生下一轮创新。
LLM知识过期 → RAG补上 → 但RAG只能查资料不能干活 → Function Calling补上 → 但通用模型在专业领域不够强 → Fine-tuning补上 → 但复杂任务需要多步推理 → Reasoning Model补上 → 推理能力有了,可以驱动自主行动了 → Agent出现 → Agent需要大量工具对接,碎片化严重 → MCP标准化 → Agent高频操作需要复用 → Skill封装。
不是随机冒出来的新词,是一环扣一环的演进。
还没补上的缺口
这条演进线走到了2026年6月,仍然有几个明显的缺口:
Agent之间的协作。 一个Agent能干活了,但多个Agent怎么分工协作?A2A(Agent-to-Agent协议)是Google在2025年提出的概念,目前还在早期阶段,没有形成像MCP那样的广泛共识。
长期记忆。 模型的上下文窗口越来越大(从4K到128K再到200万),但"窗口内记忆"和"真正的长期记忆"不是一回事。窗口满了就忘,跨会话的知识沉淀还没有成熟的标准化方案。
安全边界。 Agent能自主行动之后,"它能干的事"和"它应该被允许干的事"之间的边界变得模糊。提示注入攻击(prompt injection)导致数据泄露的风险,在Agent场景比在对话场景更严重------因为它不仅能生成文本,还能执行操作。
这些缺口就是下一个阶段新概念的孵化器。A2A可能成熟,长期记忆方案可能标准化,安全框架可能成为行业共识------也可能冒出完全不同的解决方案。但不管具体形式是什么,它们都沿着同一条因果线在走。
怎么用这条线帮自己理解新概念
以后再碰到一个陌生的AI术语,别急着查词典。先问自己一个问题:它在修补哪个缺口?
- 如果是关于"知识"的 → 大概率在RAG这条线上演进(比如GraphRAG、Agentic RAG)
- 如果是关于"行动"的 → 大概率在Agent/工具这条线上演进(比如MCP的新扩展、A2A)
- 如果是关于"思考方式"的 → 大概率在reasoning这条线上演进(比如新的推理策略、规划框架)
- 如果是关于"效率/成本"的 → 大概率在部署/微调这条线上演进(比如新的量化方法、蒸馏技术)
这样归类之后,新词就不再是"又一个要背的术语",而是"这条线上新加的一个节点"------你只需要理解它比前一个节点多了什么、补了什么,就能快速定位。
🔑