AI 基础设施 RAG工程

RAG检索增强生成,提升大模型的实时性和准确性

RAG的工程挑战

1.chunk切片策略,过大过小多影响效果

2.query改写,用户提问往往不完整

3.混合检索,单一方式不稳定

4.精排,必须带rerank,否则召回噪声太大

5.上下文冲突,多文档合并会造成冲突

6.支持长上下文,vllm,pagedattention等技术必备

RAG本质上是给大模型外挂一个知识库,让模型能访问外部文档,实时信息和私有数据,大模型具有能力,RAG具有知识

RAG核心流程

1.Embedding(把文本向量化)

2.vector db (存储与检索)

3.Retrieve (召回)

4.rerank(精排)

5.context Assembly(构建上下文)

6.generation(生成回答)

向量本质上是将文本映射到高纬度空间的坐标,模型通过距离来衡量文本间的语义相似度,语义相近的文本距离更近

高维向量表达能力强,但检索成本高,低维向量存储检索快,但表达能力有限

通用RAG 1024最佳平衡

千万级别数据,建议低纬提升性能(512)

不同类型的embedding

文本嵌入,用于文档检索知识库RAG

指令嵌入,优化问题,文档相似度

多模态嵌入,多模态检索

token embedding,transformer输入层权重

向量数据库选型

Milvus 企业集群 十亿向量 graphSQ,filter强,插件丰富

Qdrant 高性能云原生快速落地 rest实现高并发,实时更新

PGvector 适配现有系统 百万级

让模型读懂海量文本的关键在于将非结构化的文档转化为易检索的向量,通常包括,文档分片,向量化,索引构建

RAG是否成功的关键在于数据是否干净,检索是否命中,提示是否正确

数据清洗是RAG能否成功的关键

权限控制必须合理,用户只能看到自己的文档

选择合适的嵌入模型

领域相关性高于维度

RAG的本质是数据治理,检索策略,提示词工程,性能优化,可观测性,持续评估与迭代

RAG如果不能观测每一个环节,就不能判断其优劣,

系统级指标:rag端到端延时,LLm请求延时,并发能力,向量库内存占用,索引占用

检索级指标:检索召回率,检索相关度,索引文档是否命中正确主题,向量相似度平均值,差不多任何有意义文档的比例

语义质量指标:LLM输出的语义质量,是否引用了文档,是否回答了问题,是否使用了上下文相关性

rag日志应当包含语义级别日志,不只是技术日志,

分布式追踪,帮助定位性能瓶颈,参数传递

rag可用观测性工具deepeval,ragas

传统rag的不足,是否检索的判断,检索结果质量评估,查询重写,多步推理,

agentic rag引入可决策的智能体,判断何时需要检索,是否需要重写query,判断检索结果是否足够好,自动多轮推理

agentic rag的核心是决策循环

rag实践经验

chunk策略,学生文章800至1200字符,技术文章400至800字符,binlog/sop文档300至600字符,15%至20%overlap

相关推荐
V_vvVz2 小时前
Infoseek:以智能舆情监测,为企业品牌筑牢安全防线
大数据·人工智能·科技
人工智能培训2 小时前
数字孪生在航空领域的应用方法及案例
人工智能·机器学习·知识图谱·数字孪生·企业ai培训
l112206032 小时前
GEO 优化公司选品指南:江苏一网推的阶梯式服务核心竞争力
大数据·人工智能
格林威2 小时前
工业相机图像高速存储(C++版):直接IO存储方法,附海康相机实战代码!
开发语言·c++·人工智能·数码相机·计算机视觉·视觉检测·工业相机
aZhe的全栈知识分享2 小时前
OpenClaw(龙虾)太难装?这份保姆级教程让你 3 分钟搞定
前端·人工智能·后端
东离与糖宝2 小时前
315警示:AI接口被恶意调用?Java高并发+限流+鉴权防护实战
java·人工智能
Bruce_Liuxiaowei2 小时前
深入浅出:清理 OpenClaw 会话记录的完整操作解析
人工智能·大模型·智能体·openclaw
曾阿伦2 小时前
Python项目管理从Poetry迁移到uv:极速体验与实操指南
开发语言·python·uv
用户4815930195912 小时前
买东西总是刚下单就降价?本文以 **`price-watch`(商品降价监控器)** 为例,手把手带你写一个真正有用的 OpenClaw Skill,从零开始到
人工智能