什么是RAG？ - 技术栈

大模型看不见哪些数据？
1.知识截至日期之前的的数据

2. 私有数据

3. 实时数据

因为大模型的数据是静态的，封闭的，但是业务是动态的，私有的

当然，我们可以把数据放入prompt里面

但是context window是有限的，全部放进去费token，还会稀释注意力

所以提出了RAG

RAG的核心思路是：先检索，再回答

就是不把所有的数据都塞进prompt，而是在每次回答之前，先检索最相关的几段，只把这几段放入prompt

RAG名字的含义：
Retrieval(检索)：从知识库找出和当前问题最相关的内容

Augmented（增强）：加入prompt

Generation（生成）：大模型基于增强后的上下文生成回答

1. 离线阶段

把私有数据处理成大模型能快速检索的格式，存进向量数据库

2. 在线阶段

传统的关键词搜索是逐字匹配，只能找到完全一样的，而向量库是语义搜索，可以找到意思差不多的，准确率高得多

RAG本质上就是一个特殊的工具

当大模型认为这个问题需要访问私有数据时，就会通过Function Call下达指令调用知识库检索工具

agent执行这个工具调用，就是触发了RAG的在线流程

将结果回传给大模型

向量数据库是为了在海量数据中，毫秒级找到最相似的topk条

秘诀是**ANN（Approximate Nearest Neighbor，近似最近邻）**搜索

不保证找到绝对最相似的，而是差不多最相似的

使用HNSW（Hierarchical Navigable Small World,分层可导航小世界图）

把向量组织成一个多层的结构

高层（稀疏层）：只有少量节点，负责大范围快速跳转

低层（稠密层）：精细定位最终的近邻候选