RAG基础介绍 - 技术栈

引言：

在项目开发中，我经常会用到大模型，但是模型回答很通用，无法针对我的私有代码库。这是几乎所有大模型的痛点：知识截止到训练数据 ，且**无法访问私有/实时信息。**那么有没有一种方法可以解决这个痛点呢？答案是rag------检索增强生成

什么是RAG?

RAG就是拿着资料找答案

想象一下一个考试场景，使用LLM/RAG的人作为出题者，而LLM和RAG则是考生，但是LLM参加的是闭卷考，知识储备是考试前的记忆，而RAG则是开卷考，提前知道了考试的范围，知识储备是考试时带的相关资料；显而易见，RAG相比LLM更适合开卷考试（个性化问题）

RAG 的核心流程

RAG 的核心流程=(分片+索引)+（召回+重排+生成答案），可以简单地分为准备阶段和生成答案的阶段，也可以再细分为以下三个阶段

rag流程示意图：https://excalidraw.com/#json=VQCvUuoxWxwJYr4L4GGa9,xce_iqT4shKuqA04ijfdow
阶段一：索引 (Indexing) ------ 准备参考书

把文档切分成小块 (Chunking) -> 用 Embedding 模型转为向量（语义坐标） -> 存入向量数据库 (如 Chroma, Milvus, Qdrant)

阶段二：检索（Retrieval）------翻到相关章节

把用户问题也变成向量->在向量数据库里找最相似的 top-k 个文档块->取回这些文档块作为"参考资料"

阶段三:增强与生成（Augmentation & Generation）------开卷作答

让LLM根据top-k文档块总结出最合适的回答

复制代码

# Indexing：离线准备
chunks = split(documents)          # 文档切块
vectors = embed(chunks)            # 每块转向量
store(vectors, chunks)             # 存入向量库（向量 -> 文本块）

# Retrieval + Generation：在线问答
q_vec = embed(question)            # 问题转向量
top_chunks = search_similar(q_vec, k=3)  # 相似度检索 top-k
prompt = "参考资料：\n" + top_chunks + "\n\n问题：" + question
answer = llm(prompt)               # 大模型基于资料生成答案

总结：

RAG 的本质是：检索把相关内容找出来，生成负责把内容说清楚。

当你希望 AI 回答"可追溯、更可靠、能用你的私有知识"时，RAG 往往是最简单、最实用的方案。

使用LLM的小tips:

在问问题之前加上下面的prompt，可以避免LLM乱编

你只能基于"参考资料"回答；如果资料不足，请回答"资料不足，无法确定"。