AI 基础设施 RAG工程

RAG检索增强生成,提升大模型的实时性和准确性

RAG的工程挑战

1.chunk切片策略,过大过小多影响效果

2.query改写,用户提问往往不完整

3.混合检索,单一方式不稳定

4.精排,必须带rerank,否则召回噪声太大

5.上下文冲突,多文档合并会造成冲突

6.支持长上下文,vllm,pagedattention等技术必备

RAG本质上是给大模型外挂一个知识库,让模型能访问外部文档,实时信息和私有数据,大模型具有能力,RAG具有知识

RAG核心流程

1.Embedding(把文本向量化)

2.vector db (存储与检索)

3.Retrieve (召回)

4.rerank(精排)

5.context Assembly(构建上下文)

6.generation(生成回答)

向量本质上是将文本映射到高纬度空间的坐标,模型通过距离来衡量文本间的语义相似度,语义相近的文本距离更近

高维向量表达能力强,但检索成本高,低维向量存储检索快,但表达能力有限

通用RAG 1024最佳平衡

千万级别数据,建议低纬提升性能(512)

不同类型的embedding

文本嵌入,用于文档检索知识库RAG

指令嵌入,优化问题,文档相似度

多模态嵌入,多模态检索

token embedding,transformer输入层权重

向量数据库选型

Milvus 企业集群 十亿向量 graphSQ,filter强,插件丰富

Qdrant 高性能云原生快速落地 rest实现高并发,实时更新

PGvector 适配现有系统 百万级

让模型读懂海量文本的关键在于将非结构化的文档转化为易检索的向量,通常包括,文档分片,向量化,索引构建

RAG是否成功的关键在于数据是否干净,检索是否命中,提示是否正确

数据清洗是RAG能否成功的关键

权限控制必须合理,用户只能看到自己的文档

选择合适的嵌入模型

领域相关性高于维度

RAG的本质是数据治理,检索策略,提示词工程,性能优化,可观测性,持续评估与迭代

RAG如果不能观测每一个环节,就不能判断其优劣,

系统级指标:rag端到端延时,LLm请求延时,并发能力,向量库内存占用,索引占用

检索级指标:检索召回率,检索相关度,索引文档是否命中正确主题,向量相似度平均值,差不多任何有意义文档的比例

语义质量指标:LLM输出的语义质量,是否引用了文档,是否回答了问题,是否使用了上下文相关性

rag日志应当包含语义级别日志,不只是技术日志,

分布式追踪,帮助定位性能瓶颈,参数传递

rag可用观测性工具deepeval,ragas

传统rag的不足,是否检索的判断,检索结果质量评估,查询重写,多步推理,

agentic rag引入可决策的智能体,判断何时需要检索,是否需要重写query,判断检索结果是否足够好,自动多轮推理

agentic rag的核心是决策循环

rag实践经验

chunk策略,学生文章800至1200字符,技术文章400至800字符,binlog/sop文档300至600字符,15%至20%overlap

相关推荐
Terrence Shen5 小时前
关于传统软件工程后端技术和当代AI智能体agent构建的harness engineering的一点思考
人工智能·软件工程
冬奇Lab5 小时前
RAG 系列(二十二):长上下文 vs RAG——要不要 RAG
人工智能·llm
福客AI智能客服5 小时前
电商AI客服进入物流场景,服务响应开始靠近履约环节
人工智能·ai智能客服机器人
闵孚龙5 小时前
Claude Code Ultraplan 远程多代理规划全解析:AI Agent、CCR远程容器、异步规划、状态机、计划传送与企业级自动化治理
运维·人工智能·自动化
冬奇Lab5 小时前
一天一个开源项目(第105篇):Academic Research Skills - 学术研究全流程 AI 代理套件,及其工作流设计的启示
人工智能·开源·资讯
冬奇Lab5 小时前
RAG 系列(二十一):性能优化——又快又省钱
人工智能·llm
Robot_Nav5 小时前
深度学习与强化学习面试八股文知识点汇总
人工智能·深度学习·强化学习
Z1Y492Vn3ZYD9et3B066 小时前
李彦宏:今年小龙虾明年可能螃蟹,AI的杀手级产品还没定型
人工智能
金融大 k6 小时前
Python 全球指数监控面板:TickDB + REST + WebSocket 完整方案
python·websocket
啊哈哈121386 小时前
系统设计复盘:为什么 Agent 的 ReAct 循环必须内嵌确定性保护层——以 FitMind 健康助手的路由与步骤控制为例
人工智能·python·react