30｜什么时候需要 RAG：直接 Prompt/微调/RAG 的决策

欢迎来到 卷 4：知识与数据 。

在前面的章节里，我们赋予了 AI 思考的框架（Prompt）和行动的手脚（MCP/Skills）。但如果现在你问 AI："咱们公司昨天发布的新产品，退款政策是什么？"它一定会胡编乱造。

为什么？因为它脑子里只有它被"训练"时（通常是一年甚至更久以前）互联网上的公开数据，它完全不知道你们公司的内部机密和最新动态。

为了给 AI 补充知识，行业里有三种主流方法：直接塞进 Prompt（上下文注入） 、微调（Fine-tuning） 和 RAG（检索增强生成） 。

这三者到底有什么区别？新手最容易犯的错，就是一上来就喊着要"微调"一个模型。本篇，我们就用大白话彻底讲透它们的适用场景，帮你省下几十万的冤枉钱。

1. 核心概念比喻：考试开卷 vs 闭卷

假设 AI 是一个准备参加考试的高中生，现在他要考你们公司的"内部业务知识"。

方法一：直接 Prompt（上下文注入）------ 考前死记硬背

做法：你把公司的业务手册复制粘贴到聊天框（Prompt）里，对他说："根据下面这段长长的内容，回答我的问题......"
优点：最简单，零成本，立马见效。现在的模型上下文窗口极大（能塞进几十本书），基本够用。
缺点：每次问问题都要把这几十本书重新塞进去一遍（Token 成本爆炸，回答变慢）。而且，如果手册更新了，你得手动重新复制粘贴。

方法二：微调（Fine-tuning）------ 闭卷考试，重塑大脑

做法：你花几十万把公司的所有资料喂给大模型，让它在显卡阵列上"重新学习"一个月。训练出一个专属于你们公司的"定制版模型"。考试时不带任何资料（闭卷），全凭脑子里的记忆回答。
优点：它不仅记住了知识，还学会了你们公司说话的"语气和格式"（比如客服专用的温柔话术）。
致命弱点 ：
1. 极难更新（时效性差）：如果退款政策明天变了，你难道要再花几十万重新训练一次模型？
2. 幻觉严重（不可追溯）：当它回答问题时，它是凭"直觉"说出来的。如果你问它"你这句退款规则是哪一页规定的？"，它根本答不上来，甚至会自己编造一个页码。

方法三：RAG（检索增强生成）------ 开卷考试，带图书馆进考场

全称：Retrieval-Augmented Generation。
做法：你把公司资料全部放进一个"外挂数据库"里（也就是图书馆）。当考官提问时，AI 并不是凭记忆回答，而是：
1. 先去数据库里**检索（Retrieval）**出相关的几页资料。
2. 把这几页资料带入上下文（Augmented）。
3. 最后根据这几页资料总结**生成（Generation）**答案。
优点：
1. 永不胡编（可追溯） ：AI 可以明确告诉你："我的答案来自《退款手册》第 3 页第 2 行"。（这在企业级应用中是最核心的要求）。
2. 秒级更新（时效性极强）：如果退款政策变了，你只需要在数据库里把旧文件替换掉。下一秒 AI 就能用最新的政策回答问题，完全不需要重新训练。
3. 权限控制：你可以规定，普通员工提问时，AI 只能检索"公开文档库"；老板提问时，AI 还能检索"财务数据库"。（微调模型做不到这一点，因为它把所有秘密都记在脑子里了）。

2. 决策的核心指标：你需要的是"知识"还是"技能"？

很多老板一拍脑袋："我们要微调一个懂我们业务的模型！"这通常是把"记忆事实"和"学习风格"搞混了。

如果你需要 AI 记住具体的事实、数字、政策（知识） ➡️ 必须用 RAG。大模型是用来推理的，不是用来当数据库的。把事实硬塞进模型参数里，就像用跑车去拉板砖一样低效且昂贵。
如果你需要 AI 改变说话的方式、输出特定的代码格式、或者学习某种极其垂直的诊断逻辑（技能/风格） ➡️ 才需要微调。微调是用来改变行为模式的。

最佳实践（业界共识） ：RAG 负责事实，微调负责风格。在 95% 的企业落地场景中，你根本不需要微调，一个"强大的通用大模型 + RAG 知识库"就能解决所有问题。

3. 本篇产出：知识补充选型决策树（项目版）

当你拿到一个"需要 AI 懂特定知识"的需求时，请严格按照以下决策树来选择技术方案：
小于 10 万字
几十万字到海量
很少更新（如经典算法原理）
经常更新（如每日新闻/价格表）
要求极高且 Prompt 无法搞定
一般/通过 Prompt 约束即可
需求: 需要 AI 了解特定知识
知识量有多大?
知识更新频繁吗?
直接走 RAG
直接写进 System Prompt 里
对 AI 的语气/特定输出格式要求高吗?
微调（Fine-tuning）+ RAG
仅使用 RAG 或直接 Prompt

决策补充说明：

优先尝试"直接 Prompt"：如果你的文档只有十几页，千万别去搞什么 RAG 或微调。现在 Claude 3.5 Sonnet 或 GPT-4o 的上下文窗口极大，把文档全塞进提示词，不仅成本低，而且理解最准确（因为不需要切分片段）。
知识量极大或经常变动时，上 RAG：当你的文档有成百上千篇，或者每天都在更新时，RAG 是唯一可行的工业级方案。
把微调作为最后手段：除非你是要做垂直领域的"特定文风模仿（比如模仿林黛玉写诗）"或者"让小模型学会复杂的特定 JSON 输出格式以降低推理成本"，否则不要轻易碰微调。

4. 总结与复盘

**微调（Fine-tuning）**是给 AI 做"脑部手术"，改变它的性格和技能习惯，但很难更新记忆，且容易产生幻觉。
直接 Prompt 是"考前发小抄"，简单粗暴，适合小量、短期的知识补充。
RAG（检索增强生成） 是给 AI 配备了一个"可以随时查阅的外部图书馆"。它保证了知识的实时更新 、可追溯性 和权限隔离，是目前 AI 落地企业业务最核心的架构。

下一步路线提示 ：

既然 RAG 是企业接入专属知识的最佳方案，那这个"外部图书馆"到底是怎么建起来的？公司里有 Word、PDF、网页、甚至是代码库，它们怎么才能变成 AI 能听懂的格式？下一篇，我们将进入实操前奏：《知识采集：文档、网页、代码库、数据库怎么进知识库》。