RAG（Retriever-Augmented Generation）检索增强生成

(14 条消息) 大家觉得做一个大模型检索增强生成（RAG）系统，最难搞定的是那部分工作？ - 知乎

**一种将检索与生成相结合的人工智能模型架构，**是目前大语言模型（LLM）落地应用中最主流的技术架构。

RAG 的运作可以分为两个阶段：数据准备（Indexing） 和 检索生成（Inference）。

为了让机器读懂知识库文档：

注释：

Chunk：用来做 embedding 和检索的小知识片段，是 RAG 的核心单位。
FAISS（Facebook AI Similarity Search）： 由 Meta （原 Facebook） AI Research 团队开源的一个库，它是目前世界上最流行、最强悍的向量搜索引擎 。

FAISS vs. 向量数据库（Vector DB）：
- **FAISS 是库：**是一个底层工具包，需要写 Python/C++ 代码来调用它，数据存在内存或本地文件中，它不管数据的增删改查（CRUD）管理，只管算得快。
- 向量数据库（如 Milvus， Chroma， Weaviate）是一个完整的系统 ：它们很多底层其实就是封装了 FAISS或者类似的算法，但外层提供了服务器、API、数据持久化、权限管理等功能，让你像用 MySQL 一样用它。
- 总结关系： 如果你想自己造车，就用 FAISS; 如果你想直接开车，就用向量数据库。但在做 RAG 实验或轻量级应用时，直接用 FAISS或 LangChain 里的 FAISS 包装器是最简单的。

当用户提问时发生的动作：

提问编码（embedding）： 将用户的问题也转化为向量。
语义检索（Retrieve）： 在向量库中寻找与"问题向量"距离最近的几个"文档片段向量"。
提示构建（Augment）： 将 <用户问题> + <检索到的相关片段> 拼装成一个新的 Prompt。

Prompt 示例： "你是一个助手。请仅根据以下背景信息回答用户的问题：[检索片段 1， 2， 3...]。用户问题：[...]"
生成回答（Generate）： LLM 阅读 Prompt，根据提供的背景信息生成最终答案。

这是开发者最常纠结的选择。可以用"考试"来打比方：

基础 RAG 容易遇到检索不准的问题，目前业界正在向进阶架构演进：

混合检索（Hybrid Search）： 结合关键词检索（BM25）和向量检索（Embedding），兼顾精确匹配和语义理解。
重排序（Rerank）： 在检索出前 50 个片段后，用一个高精度的 Rerank 模型（如 BGE-Reranker）对它们进行精细打分，只把最相关的 Top 5 给大模型。
GraphRAG： 利用知识图谱（Knowledge Graph）捕捉实体间的复杂关系，适合回答由于碎片化导致难以总结的全局性问题。
Self-RAG / Agentic RAG： 让模型自己判断"检索到的内容够不够回答问题"，如果不够，自动重写查询词再次检索，甚至调用搜索引擎。

"主流的数据清洗方式很难通吃多样的半结构化数据，很大情况下还是需要人工审核每一个文档，把一次性处理做不好的挑出来重新处理。"(14 条消息) 大家觉得做一个大模型检索增强生成（RAG）系统，最难搞定的是那部分工作？ - 知乎

主流的文档预处理框架：