这是一个面向普通人的RAG教程。你不需要懂机器学习，也不需要懂数学，只要能理解图书馆，就能理解RAG。

第一章什么是RAG

RAG全称：

text 复制代码

Retrieval-Augmented Generation
检索增强生成

核心思想：

text 复制代码

先找资料
再回答问题

而不是：

text 复制代码

直接靠模型记忆回答

例如：

用户：

text 复制代码

盗窃多少钱判刑？

RAG：

text 复制代码

先查刑法库
↓
找到相关条文
↓
交给Qwen
↓
生成答案

第二章图书馆角色对照表

RAG组件	图书馆角色	职责
原始文档	图书	知识来源
Chunk切分器	拆书员	把书拆成知识卡片
Chunk	知识卡片	最小知识单位
Embedding	分类专家	理解内容并确定语义位置
向量(Vector)	地图坐标	知识卡片的位置
FAISS	馆藏索引系统	根据位置找书
Query	用户借书需求	用户的问题
Q向量	用户当前位置	用户需求在地图上的位置
Similarity Search	测距系统	计算距离
TopK	第一轮候选书	最接近的50本
Reranker	资深馆员	重新排序
Context	顾问桌面	能放下的资料
Qwen/LLM	专家顾问	阅读资料并回答
Prompt	工作制度	规定顾问如何工作

第三章入库流程（向量化流程）

这是正向流程。

即：

text 复制代码

文档
↓
知识库

第一步拆书

一本书：

text 复制代码

中华人民共和国刑法

50万字。

不能直接处理。

于是：

text 复制代码

拆书员

开始工作。

拆成：

text 复制代码

Chunk1
盗窃罪

Chunk2
诈骗罪

Chunk3
故意伤害罪

Chunk4
抢劫罪

得到：

text 复制代码

知识卡片

第二步 Embedding

分类专家开始工作。

读取：

text 复制代码

Chunk1

盗窃公私财物，
数额较大的...

Embedding理解：

text 复制代码

这是盗窃罪相关

然后生成：

text 复制代码

C1

[0.23,-0.81,0.55,...]

这不是答案。

这是：

text 复制代码

语义坐标

继续：

text 复制代码

Chunk2

诈骗罪

↓

text 复制代码

C2

[0.31,-0.66,0.42,...]

所有Chunk都完成。

第三步保存到FAISS

FAISS保存：

text 复制代码

向量
↓
Chunk

例如：

text 复制代码

C1
↓
Chunk1

C2
↓
Chunk2

C3
↓
Chunk3

图书馆理解：

text 复制代码

坐标
↓
书架位置

例如：

text 复制代码

法律区A
第3层
第15本

至此：

text 复制代码

知识库建立完成

第四章什么是Embedding

很多人误解：

text 复制代码

Embedding
=
压缩工具

错误。

Embedding真正作用：

text 复制代码

理解语义
建立坐标

例如：

text 复制代码

偷手机

窃取手机

非法占有他人手机

Embedding会认为：

text 复制代码

意思接近

于是坐标靠近。

这才是Embedding最重要的能力。

第五章查询流程（RAG回答流程）

这是反向流程。

即：

text 复制代码

用户问题
↓
答案

第一步用户提问

用户：

text 复制代码

偷手机判几年？

第二步 Embedding生成Q

Embedding再次工作。

注意：

这次不是处理Chunk。

而是处理问题。

问题：

text 复制代码

偷手机判几年？

↓

text 复制代码

Q

[0.25,-0.80,0.57,...]

这个Q叫：

text 复制代码

Query Vector
问题向量

图书馆理解：

text 复制代码

用户站在地图上的位置

第三步 FAISS检索

FAISS收到：

text 复制代码

开始测距。

例如：

text 复制代码

Q ↔ C1 = 0.95

Q ↔ C2 = 0.91

Q ↔ C3 = 0.42

Q ↔ C4 = 0.01

得到：

text 复制代码

Top50

图书馆理解：

text 复制代码

最接近的50本书

第四步 Reranker

Reranker开始工作。

FAISS返回：

text 复制代码

盗窃罪量刑

盗窃罪历史沿革

盗窃罪立案标准

诈骗罪量刑

Reranker发现：

用户问：

text 复制代码

判几年

重点应该是：

text 复制代码

量刑

于是重新排序：

text 复制代码

1 盗窃罪量刑

2 司法解释

3 立案标准

4 历史沿革

得到：

text 复制代码

Top8

图书馆理解：

text 复制代码

最值得给顾问看的8本书

第五步 Qwen回答

Qwen终于开始工作。

看到：

text 复制代码

刑法264条

司法解释

量刑标准

然后总结：

text 复制代码

根据刑法264条...

生成最终答案。

第六章 FAISS到底干什么

很多人误解：

text 复制代码

FAISS懂法律

错误。

FAISS实际上只懂：

text 复制代码

向量

它不知道：

text 复制代码

盗窃罪

诈骗罪

Python

是什么意思。

它只知道：

text 复制代码

Q

离谁最近

因此：

text 复制代码

FAISS
=
仓库管理员

第七章为什么知识明明在库里却回答不出来

这是RAG最常见问题。

情况1

text 复制代码

Embedding理解错问题

例如：

text 复制代码

偷手机

没有定位到：

text 复制代码

盗窃罪区域

结果：

text 复制代码

Q偏了

情况2

text 复制代码

FAISS召回失败

正确Chunk没进Top50。

情况3

text 复制代码

Reranker排序失败

正确答案排第35名。

最终只保留前8名。

情况4

text 复制代码

Qwen理解失败

资料已经给了。

但模型能力不足。

第八章谁最重要

很多人认为：

text 复制代码

Qwen最重要

其实不一定。

法律库、技术文档库、企业知识库：

大约可以理解为：

text 复制代码

Chunk切分
≈ 30%

Embedding
≈ 30%

Reranker
≈ 20%

LLM
≈ 20%

所以：

text 复制代码

找不到资料

通常不是Qwen的问题。

而是：

text 复制代码

Chunk

Embedding

FAISS

Reranker

中的某一步出了问题。

最终一句话总结

RAG其实就是一个图书馆：

text 复制代码

拆书员
↓
把书拆成知识卡片

Embedding分类专家
↓
给知识卡片建立语义地图

FAISS管理员
↓
根据用户位置找附近的书

Reranker资深馆员
↓
从候选书中挑最相关的

Qwen专家顾问
↓
阅读这些书并回答用户

理解了这套图书馆模型，你就理解了90%以上的RAG工作原理。

以后遇到：

text 复制代码

知识明明在库里
为什么答不出来？

不要先怀疑Qwen。

先检查：

text 复制代码

问题
↓
Q向量
↓
FAISS Top50
↓
Reranker Top8

看看正确的那本书，究竟是在什么地方被弄丢了。

RAG原理完全教程（对照图书馆版）

第一章 什么是RAG

第二章 图书馆角色对照表

第三章 入库流程（向量化流程）

第一步 拆书

第二步 Embedding

第三步 保存到FAISS

第四章 什么是Embedding

第五章 查询流程（RAG回答流程）

第一步 用户提问

第二步 Embedding生成Q

第三步 FAISS检索

第四步 Reranker

第五步 Qwen回答

第六章 FAISS到底干什么

第七章 为什么知识明明在库里却回答不出来

第八章 谁最重要

最终一句话总结

第一章什么是RAG

第二章图书馆角色对照表

第三章入库流程（向量化流程）

第一步拆书

第三步保存到FAISS

第四章什么是Embedding

第五章查询流程（RAG回答流程）

第一步用户提问

第七章为什么知识明明在库里却回答不出来

第八章谁最重要