AI 基础设施 RAG工程

RAG检索增强生成,提升大模型的实时性和准确性

RAG的工程挑战

1.chunk切片策略,过大过小多影响效果

2.query改写,用户提问往往不完整

3.混合检索,单一方式不稳定

4.精排,必须带rerank,否则召回噪声太大

5.上下文冲突,多文档合并会造成冲突

6.支持长上下文,vllm,pagedattention等技术必备

RAG本质上是给大模型外挂一个知识库,让模型能访问外部文档,实时信息和私有数据,大模型具有能力,RAG具有知识

RAG核心流程

1.Embedding(把文本向量化)

2.vector db (存储与检索)

3.Retrieve (召回)

4.rerank(精排)

5.context Assembly(构建上下文)

6.generation(生成回答)

向量本质上是将文本映射到高纬度空间的坐标,模型通过距离来衡量文本间的语义相似度,语义相近的文本距离更近

高维向量表达能力强,但检索成本高,低维向量存储检索快,但表达能力有限

通用RAG 1024最佳平衡

千万级别数据,建议低纬提升性能(512)

不同类型的embedding

文本嵌入,用于文档检索知识库RAG

指令嵌入,优化问题,文档相似度

多模态嵌入,多模态检索

token embedding,transformer输入层权重

向量数据库选型

Milvus 企业集群 十亿向量 graphSQ,filter强,插件丰富

Qdrant 高性能云原生快速落地 rest实现高并发,实时更新

PGvector 适配现有系统 百万级

让模型读懂海量文本的关键在于将非结构化的文档转化为易检索的向量,通常包括,文档分片,向量化,索引构建

RAG是否成功的关键在于数据是否干净,检索是否命中,提示是否正确

数据清洗是RAG能否成功的关键

权限控制必须合理,用户只能看到自己的文档

选择合适的嵌入模型

领域相关性高于维度

RAG的本质是数据治理,检索策略,提示词工程,性能优化,可观测性,持续评估与迭代

RAG如果不能观测每一个环节,就不能判断其优劣,

系统级指标:rag端到端延时,LLm请求延时,并发能力,向量库内存占用,索引占用

检索级指标:检索召回率,检索相关度,索引文档是否命中正确主题,向量相似度平均值,差不多任何有意义文档的比例

语义质量指标:LLM输出的语义质量,是否引用了文档,是否回答了问题,是否使用了上下文相关性

rag日志应当包含语义级别日志,不只是技术日志,

分布式追踪,帮助定位性能瓶颈,参数传递

rag可用观测性工具deepeval,ragas

传统rag的不足,是否检索的判断,检索结果质量评估,查询重写,多步推理,

agentic rag引入可决策的智能体,判断何时需要检索,是否需要重写query,判断检索结果是否足够好,自动多轮推理

agentic rag的核心是决策循环

rag实践经验

chunk策略,学生文章800至1200字符,技术文章400至800字符,binlog/sop文档300至600字符,15%至20%overlap

相关推荐
程序员Shawn16 分钟前
【深度学习 | 第三篇】-卷积神经网络
人工智能·深度学习·cnn
vkv558830 分钟前
我做了一个自媒体多平台发布工具:支持 AI 生成、账号管理、自动登录与批量发布
人工智能·媒体
Lenyiin32 分钟前
《Python 修炼全景指南:一》从环境搭建到第一个程序
开发语言·python
IT_陈寒1 小时前
React hooks依赖数组这个坑差点把我埋了
前端·人工智能·后端
涛声依旧393161 小时前
Python项目实战:学生信息管理系统
开发语言·python·数据挖掘
我科绝伦(Huanhuan Zhou)1 小时前
分享一个服务故障自愈系统
运维·人工智能·自动化
做个文艺程序员1 小时前
Spring AI + Qwen3.5 实现多步 Agent:从工具调用到自主任务拆解的踩坑全记录
java·人工智能·spring
kcuwu.1 小时前
Python进阶:生成器与协程,高效并发编程的核心实践
windows·python·php
XiaoQiao6669991 小时前
python 简单题目练手【详解版】【1】
开发语言·python
波动几何1 小时前
极简万能通用AI Agent:universal-agent
人工智能