RAG基础入门 - 技术栈

RAG（Retrieval AUgmented Generation）检索增强生成技术，利用外部文档提升生成结果的质量。为大模型提供了从特定数据源检索到的信息，以此来修正和补充生成的答案。可以总结为一个公式：RAG=检索技术+LLM提示。

基本原理： 在生产回答时，先从知识库中检索相关文档，将检索到的文档与原始问题一起输入LLM，LLM基于文档内容生成最终答案。

通用的基础大模型存在一些问题：

RAG标准流程由索引（Indexing）、检索（Retriever）和生成（Generation）三个核心阶段组成。

1.索引阶段： 通过处理多种来源多种格式的文档提取其中文本，将其切分为标准长度的文本块（chunk），并进行嵌入向量化。

2.检索阶段： 用户输入的查询（query）被转化为向量表示，通过相似度匹配从向量数据库中检索出最相关的文本块。

3.生成阶段： 检索相关文本与原始查询共同构成提示词（Prompt），输入大语言模型，生成精确且具备上下文关联的回答。

RAG工作分为两条线：

1.文档准备

文档预处理建议：

2.文档切片： 为了适应大模型语言模型的上下文昌都限制，并提升检索的精确度和效率。

切片方式：

一般选择方式： 按照符号和字符长度一块切分，一般200-500字/段，长度太小，上下文不完整，检索不准，长度太大，无关信息过度，干扰判断。

3.文档向量化： 将将切分后的文本进行向量数字化，便于计算问题和文档的相似性。

RAG的核心价值：