给普通人的 AI 黑话翻译手册：一文看懂 LLM、RAG、Agent 到底是什么

这两年，人工智能像突然学会了"说人话"一样冲进了每个人的工作和生活。有人用它写文案，有人用它做表格、查资料、写代码、做客服。与此同时，一堆原本只在技术圈里流行的词，也开始频繁出现在产品发布会、行业新闻和公司汇报里：LLM、RAG、Embedding、向量数据库、微调、Agent、幻觉、上下文窗口......

很多人第一次看到这些词时，都会有一种共同感受：每个字都认识，连在一起就看不懂。

这篇文章就是写给这类读者的。你不需要会编程，也不需要有算法背景，只要把它当成一本"AI 黑话翻译手册"来看就行。我的目标不是把你训练成工程师，而是帮你建立一张足够清晰的地图：这些词分别是什么意思，它们在整套 AI 系统里干什么，彼此之间又是什么关系。

一、先把最基础的四个词分清：AI、机器学习、深度学习、神经网络

很多人一开始就被最基础的几个词绕晕了：人工智能、机器学习、深度学习、神经网络。它们不是并列关系，而更像一层层套着的盒子。

人工智能（AI） 是最大的那个框。凡是让机器表现出某种"像人一样"的智能能力，比如识别图片、理解语言、做判断、生成内容，都可以放进 AI 里。
机器学习（Machine Learning） 可以理解成：不给机器写死所有规则，而是让它从数据里自己学规律。传统编程更像"人先把规则写好"；机器学习更像"给机器很多例子，让它自己总结模式"。
深度学习（Deep Learning） 是机器学习里最火的一支。它依赖多层神经网络来学习复杂模式，所以叫"深度"。很多现代 AI 能力，比如语音识别、图像识别、大模型，背后都离不开深度学习。
神经网络（Neural Network） 则可以看成深度学习的骨架。它借用了"大脑神经元连接"的启发，用数学网络去完成"输入---加工---输出"的过程。

💡 只记一句话就够了：AI 是总称，机器学习是方法，深度学习是更强的一类方法，神经网络是深度学习的骨架。

graph TD subgraph AI [人工智能 AI] subgraph ML [机器学习 Machine Learning] subgraph DL [深度学习 Deep Learning] NN(("神经网络 Neural Network")) end end end style AI fill:#e1f5fe,stroke:#0288d1,stroke-width:2px style ML fill:#b3e5fc,stroke:#0288d1,stroke-width:2px style DL fill:#81d4fa,stroke:#0288d1,stroke-width:2px style NN fill:#4fc3f7,stroke:#0288d1,stroke-width:2px

二、生成式 AI 为什么会突然爆发？

过去很多 AI 系统主要只会"判断"，比如判断这封邮件是不是垃圾邮件、这张图里是不是有车、这笔交易有没有风险。它们更像"分类器"。

但这几年真正爆火的是 生成式 AI（Generative AI） 。它和以前 AI 最大的区别在于：以前很多系统只能告诉你"是什么"，现在它可以直接"写出来""画出来""做出来"。

你输入一句"帮我写一封道歉邮件"，它能给你整封信；你输入一句"画一张赛博朋克风的城市夜景"，它能直接生成图片；你给它一个需求，它甚至能写出一段代码。

所以，生成式 AI 的核心不是"更聪明地判断"，而是"更主动地创造内容"。

graph LR subgraph traditional [传统AI模型] A1["输入: 一张图片"] --> B1{"分类器"} --> C1["输出标签: 这是一只猫"] end subgraph generative [生成式AI] A2["输入 Prompt: 画一只赛博朋克的猫"] --> B2{"生成大模型"} --> C2["创造新内容: 一张赛博朋克猫的高清图"] end style traditional fill:#f5f5f5,stroke:#9e9e9e style generative fill:#f3e5f5,stroke:#9c27b0

三、NLP、LLM、多模态，这几个词差在哪？

1. NLP：让机器理解人类语言

自然语言处理（NLP） 是 AI 和计算机科学中的一个方向，目标是让机器理解、处理和生成人类语言。搜索引擎、语音助手、翻译软件、客服机器人，很多我们习以为常的能力，本质上都属于 NLP。

2. LLM：会读会写的大语言模型

LLM（Large Language Model，大语言模型） 是最近最常见的词之一。你可以把它想象成一个"读过很多东西、特别会组织语言的系统"。它擅长聊天、总结、翻译、写代码、改写文风、提取信息，甚至做一些初步推理。

但它也有局限：知识可能过时，不天然知道你的私有资料，而且有时会一本正经地胡说八道。

3. 多模态：不只懂文字，还会看图听音

现在越来越多模型不只处理文本，还能处理图片、音频、视频。这类模型通常被叫做 多模态模型（Multimodal） 。

💡 所以，如果说传统 LLM 更像"会读会写的人"，那多模态模型更像"既会读写，也会看、会听、会综合判断的人"。

graph LR A1["文本 Text"] --> B(("多模态大模型 Multimodal LLM")) A2["图像 Image"] --> B A3["音频 Audio"] --> B B --> C1["生成文字回答与推理"] B --> C2["生成全新的图像/语音"]

四、Prompt、Token、上下文窗口：为什么同一句话，问法不同结果差很多？

1. Prompt：你怎么问，决定它怎么答

Prompt 就是你给模型的输入，也就是提示词。提示词工程的本质，不是什么神秘咒语，而是：把任务说清楚，把边界讲明白，把结果定义好。

你说"帮我总结一下"，和你说"请用小白能看懂的语言，从背景、核心概念、例子、风险四部分总结，每部分不超过 120 字"，效果通常会差很多。前者太模糊，后者给了明确任务、目标读者和输出格式。

2. Token：AI 眼中的"文字颗粒"

模型处理输入时，会先把文本切成更小的单元，这些单元叫 Token。它不完全等于汉字，也不完全等于单词，但你可以把 token 理解成模型处理文字时的基本颗粒。

3. 上下文窗口：模型一次能看到多少内容

上下文窗口（Context Window） 指的是模型在单次请求里最多能处理多少 token。

你可以把它想象成模型面前的一张工作台。台子越大，一次能摊开的材料就越多；台子越小，就得先删减信息。为什么超长文档要切片？为什么对话太长模型会"忘事"？原因之一就在这里。

五、Embedding、向量数据库、语义搜索：RAG 之前必须懂的三件事

1. Embedding：把内容变成数字坐标

Embedding（向量嵌入） 是很多人第一次听会觉得很抽象的词。简单说，就是把一句话、一段文档甚至一张图片，转换成一串数字。数字本身你看不懂，但这些数字之间的距离，可以反映"语义上像不像"。

例如"苹果手机充电慢怎么办"和"iPhone 电池掉电快如何处理"这两句话，字面并不一样，但语义接近。Embedding 正是为了帮助系统发现这种"意思相近"。

2. 向量数据库：专门存这些坐标的地方

如果 Embedding 是把内容变成坐标，那么 向量数据库（Vector Database） 就是专门存这些坐标，并且能快速找出"谁最像谁"的数据库。

普通数据库更擅长精确查找，向量数据库更擅长找"语义相近"的内容。

3. 语义搜索：不是搜字面，而是搜意思

传统搜索偏关键词匹配；语义搜索则更进一步，它尝试理解"你真正想找什么"。

💡 所以，Embedding + 向量数据库 + 语义搜索，常常是现代 AI 检索系统的三件套。

六、RAG：为什么几乎成了企业 AI 的标配？

终于可以讲最常被提到的 RAG 了。

RAG（Retrieval-Augmented Generation，检索增强生成） ，你可以把它理解成：模型先别急着回答，先去查资料，再根据查到的资料作答。

你可以把 RAG 想成开卷考试系统。普通 LLM 更像"只靠自己记忆答题"；RAG 则是"先翻书，再作答"。这对企业尤其重要，因为企业里有大量模型训练时根本没见过的资料，比如公司制度、产品说明书、内部知识库、合同模板、项目文档。

RAG 的典型流程通常是：

sequenceDiagram actor 用户 participant 检索系统 participant 企业知识库 participant 大语言模型用户->>检索系统: 1. 提问："公司最新报销额度是多少？" 检索系统->>企业知识库: 2. 向量化检索相关内部文档企业知识库-->>检索系统: 3. 返回匹配片段：《员工手册.pdf》检索系统->>大语言模型: 4. 组装Prompt (原始问题 + 检索到的内部规则) 大语言模型-->>用户: 5. 基于文档内容生成精准回答

它的价值很直接：

补私有知识：让模型能用企业自己的资料回答问题
补新知识：资料更新后，不必重训整个模型
降幻觉：回答更容易"有据可依"

当然，RAG 也不是万能药。它可能搜不到关键资料，也可能搜到的片段不完整，或者模型虽然看到了资料，却没有正确引用。所以工程上还会继续讨论"文档切片""重排序""引用""评测"等问题。

七、微调、SFT、RLHF：这是在"改模型"，不是在"查资料"

很多人会把 RAG 和 微调（Fine-tuning） 混在一起。其实它们解决的是两类问题。

1. 微调：让模型更像你想要的样子

监督微调（SFT） 可以理解成：用示例输入和理想输出去继续训练模型，让它更可靠地产生你需要的风格和内容。

所以：

RAG 是在回答前给模型临时补资料（查资料）。
微调是把行为习惯"练进模型里"（改模型）。

适合微调的场景通常包括：固定输出格式、品牌语气、特定行业术语、稳定执行某类任务。但如果你的问题是"知识经常更新"，更适合 RAG，而不是微调。

2. RLHF：让模型更符合人类偏好

你可能还听过一个词：RLHF（Reinforcement Learning from Human Feedback，人类反馈强化学习） 。它可以简单理解成：利用人类偏好不断给模型"打分"，让模型慢慢学会什么样的回答更好、更自然、更符合人类习惯。

如果继续用"训练一个助理"来打比方：

graph LR A["预训练模型 读书破万卷"] -->|SFT 监督微调| B["专项训练模型 做标准模拟卷"] B -->|RLHF 人类反馈| C["偏好对齐模型 老师根据表现打分"] C --> D(("懂规矩、听话的 AI 助手")) style A fill:#fff3e0,stroke:#ff9800 style B fill:#e3f2fd,stroke:#2196f3 style C fill:#f3e5f5,stroke:#9c27b0 style D fill:#e8f5e9,stroke:#4caf50

八、Function Calling、Workflow、Agent：让 AI 不只是会说，还会做

1. Function Calling：模型开始学会调用工具

Function Calling（函数调用/工具调用） 的意思是：让模型不只是输出文字，还能去调用外部工具和系统，比如查数据库、调接口、搜订单、发邮件、写日历、执行代码。

这一步很关键，因为真实世界的很多任务，不是"会说"就够了，而是"得真的做"。模型相当于大脑，工具相当于手脚。

2. Workflow：先把流程钉住，再把模型放进去

很多企业一开始做 AI，最稳的路线不是直接上 Agent，而是先做 Workflow（工作流） 。也就是把流程先拆好、定好，再把模型嵌进其中某些步骤里。它的优点是稳定、可控、容易审计。

3. Agent：能规划、能调用工具、能多步完成任务的 AI

Agent（智能体） 是这两年另一个热词。它和普通聊天机器人的最大区别在于：聊天机器人通常是"你问一句，它答一句"；Agent 更像"你给一个目标，它自己拆步骤想办法完成"。

比如你说："帮我做一份某行业的竞品分析。"一个 Agent 可能会列提纲、搜资料、整理信息、生成表格、写总结，甚至在发现证据不够时回头继续查。

💡 但现实里最常见的情况其实不是"全都做成 Agent"，而是：Workflow 打底，Agent 只负责其中更灵活的部分。

graph TD subgraph workflow_sys [Workflow 固定工作流] W1["步骤1: 提取网页文本"] --> W2["步骤2: LLM翻译"] --> W3["步骤3: 存入数据库"] end subgraph agent_sys [Agent 智能体] A1(("Agent核心大脑")) <-->|"设定目标与拆解"| A2["自主规划"] A1 <-->|"执行"| A3["调用外部工具 / API"] A1 <-->|"记忆与反思"| A4["获取历史信息并调整策略"] end style workflow_sys fill:#f5f5f5,stroke:#9e9e9e style agent_sys fill:#e8eaf6,stroke:#3f51b5

九、幻觉、评测、护栏：为什么 AI 不是会回答就够了？

1. 幻觉：一本正经说错话

AI 幻觉（Hallucination） 指的是模型输出了看起来像真的、但其实不准确甚至完全错误的内容。这也是为什么很多人觉得 AI 很强，却又不敢完全信它。它厉害的地方在于表达流畅，危险的地方也在于此：它就算错了，也可能错得非常自信。

2. Evals：不评测，就不知道它到底行不行

很多 AI 产品演示时都很惊艳，但一到真实业务场景就容易翻车。于是就有了 Evals（评测） 。评测的核心不是"这次演示不错"，而是系统化地衡量准确率、幻觉率、检索命中率、格式稳定性、工具调用成功率等指标。

3. Guardrails：给 AI 装护栏

真实业务里，企业不会把 AI 裸奔上线。通常都会加各种 护栏（Guardrails） ，比如敏感信息过滤、高风险问题转人工、强制引用来源、限制工具权限、限制输出格式等。护栏的意义不是让模型变完美，而是让它在出错时别错得太离谱。

十、把这些词串起来，你就看懂现在的大多数 AI 应用了

如果你现在还是觉得词很多，不妨把它们拼成一张架构图：

graph TD User["用户输入 Prompt"] --> Token["Token化 & 受到上下文窗口限制"] Token -->|"如果需要查企业资料"| RAG["RAG 检索增强 Embedding + 向量数据库"] Token --> LLM RAG --> LLM LLM(("LLM / 多模态模型 系统核心大脑 经过SFT/RLHF微调")) LLM -->|"如果需要执行任务"| FC["Function Calling 工具调用"] FC --> Actions["Workflow 流程 / Agent 自主规划"] Actions --> Guard["Guardrails 护栏 敏感词过滤 / 拦截幻觉等"] LLM --> Guard Guard --> Output["产生最终的安全输出与执行结果"] style LLM fill:#e1bee7,stroke:#8e24aa,stroke-width:3px style RAG fill:#bbdefb,stroke:#1976d2 style FC fill:#c8e6c9,stroke:#388e3c style Guard fill:#ffcdd2,stroke:#d32f2f

你会发现，AI 并不是某一个神奇按钮，而更像一整套拼装起来的系统工程。

结语：理解术语，不是为了显得专业，而是为了少被忽悠

今天的 AI 圈非常热闹，也非常容易制造概念泡沫。很多时候，术语一多，普通读者就容易被带着跑：好像只要产品里有 LLM、有 RAG、有 Agent，就一定很先进。但其实不是。真正重要的从来不是"用了多少热词"，而是：它到底解决了什么问题，稳定不稳定，成本高不高，是否真的比旧方案更有效。

所以，理解这些术语最大的价值，不是让你去背定义，而是让你在面对一切 AI 方案、AI 新闻和 AI 产品时，能多问几个关键问题：

这是在查资料，还是在改模型？
这是在回答问题，还是能执行任务？
它有没有接外部知识？
有没有做安全控制？
有没有做过评测？

当你开始这样看 AI，你就已经比很多只会复读流行词的人，更接近真正的理解了。

📚 延伸阅读

如果您对 AI 技术的实践细节、更多提效工具和落地案例感兴趣，推荐您进一步阅读这篇非常详细的实战汇总文档：

👉 AI 提效指北：从入门到实践

本文内容致力于用最平白的话翻译复杂的 AI 概念，希望能帮到在 AI 时代探索的你！如果觉得有帮助，欢迎点赞收藏。