AI 基础设施 RAG工程

RAG检索增强生成，提升大模型的实时性和准确性

RAG的工程挑战

1.chunk切片策略，过大过小多影响效果

2.query改写，用户提问往往不完整

3.混合检索，单一方式不稳定

4.精排，必须带rerank，否则召回噪声太大

5.上下文冲突，多文档合并会造成冲突

6.支持长上下文，vllm，pagedattention等技术必备

RAG本质上是给大模型外挂一个知识库，让模型能访问外部文档，实时信息和私有数据，大模型具有能力，RAG具有知识

RAG核心流程

1.Embedding（把文本向量化）

2.vector db （存储与检索）

3.Retrieve （召回）

4.rerank（精排）

5.context Assembly（构建上下文）

6.generation（生成回答）

向量本质上是将文本映射到高纬度空间的坐标，模型通过距离来衡量文本间的语义相似度，语义相近的文本距离更近

高维向量表达能力强，但检索成本高，低维向量存储检索快，但表达能力有限

通用RAG 1024最佳平衡

千万级别数据，建议低纬提升性能（512）

不同类型的embedding

文本嵌入，用于文档检索知识库RAG

指令嵌入，优化问题，文档相似度

多模态嵌入，多模态检索

token embedding，transformer输入层权重

向量数据库选型

Milvus 企业集群十亿向量 graphSQ，filter强，插件丰富

Qdrant 高性能云原生快速落地 rest实现高并发，实时更新

PGvector 适配现有系统百万级

让模型读懂海量文本的关键在于将非结构化的文档转化为易检索的向量，通常包括，文档分片，向量化，索引构建

RAG是否成功的关键在于数据是否干净，检索是否命中，提示是否正确

数据清洗是RAG能否成功的关键

权限控制必须合理，用户只能看到自己的文档

选择合适的嵌入模型

领域相关性高于维度

RAG的本质是数据治理，检索策略，提示词工程，性能优化，可观测性，持续评估与迭代

RAG如果不能观测每一个环节，就不能判断其优劣，

系统级指标：rag端到端延时，LLm请求延时，并发能力，向量库内存占用，索引占用

检索级指标：检索召回率，检索相关度，索引文档是否命中正确主题，向量相似度平均值，差不多任何有意义文档的比例

语义质量指标：LLM输出的语义质量，是否引用了文档，是否回答了问题，是否使用了上下文相关性

rag日志应当包含语义级别日志，不只是技术日志，

分布式追踪，帮助定位性能瓶颈，参数传递

rag可用观测性工具deepeval，ragas

传统rag的不足，是否检索的判断，检索结果质量评估，查询重写，多步推理，

agentic rag引入可决策的智能体，判断何时需要检索，是否需要重写query，判断检索结果是否足够好，自动多轮推理

agentic rag的核心是决策循环

rag实践经验

chunk策略，学生文章800至1200字符，技术文章400至800字符，binlog/sop文档300至600字符，15％至20％overlap