AI 基础设施 RAG工程

RAG检索增强生成,提升大模型的实时性和准确性

RAG的工程挑战

1.chunk切片策略,过大过小多影响效果

2.query改写,用户提问往往不完整

3.混合检索,单一方式不稳定

4.精排,必须带rerank,否则召回噪声太大

5.上下文冲突,多文档合并会造成冲突

6.支持长上下文,vllm,pagedattention等技术必备

RAG本质上是给大模型外挂一个知识库,让模型能访问外部文档,实时信息和私有数据,大模型具有能力,RAG具有知识

RAG核心流程

1.Embedding(把文本向量化)

2.vector db (存储与检索)

3.Retrieve (召回)

4.rerank(精排)

5.context Assembly(构建上下文)

6.generation(生成回答)

向量本质上是将文本映射到高纬度空间的坐标,模型通过距离来衡量文本间的语义相似度,语义相近的文本距离更近

高维向量表达能力强,但检索成本高,低维向量存储检索快,但表达能力有限

通用RAG 1024最佳平衡

千万级别数据,建议低纬提升性能(512)

不同类型的embedding

文本嵌入,用于文档检索知识库RAG

指令嵌入,优化问题,文档相似度

多模态嵌入,多模态检索

token embedding,transformer输入层权重

向量数据库选型

Milvus 企业集群 十亿向量 graphSQ,filter强,插件丰富

Qdrant 高性能云原生快速落地 rest实现高并发,实时更新

PGvector 适配现有系统 百万级

让模型读懂海量文本的关键在于将非结构化的文档转化为易检索的向量,通常包括,文档分片,向量化,索引构建

RAG是否成功的关键在于数据是否干净,检索是否命中,提示是否正确

数据清洗是RAG能否成功的关键

权限控制必须合理,用户只能看到自己的文档

选择合适的嵌入模型

领域相关性高于维度

RAG的本质是数据治理,检索策略,提示词工程,性能优化,可观测性,持续评估与迭代

RAG如果不能观测每一个环节,就不能判断其优劣,

系统级指标:rag端到端延时,LLm请求延时,并发能力,向量库内存占用,索引占用

检索级指标:检索召回率,检索相关度,索引文档是否命中正确主题,向量相似度平均值,差不多任何有意义文档的比例

语义质量指标:LLM输出的语义质量,是否引用了文档,是否回答了问题,是否使用了上下文相关性

rag日志应当包含语义级别日志,不只是技术日志,

分布式追踪,帮助定位性能瓶颈,参数传递

rag可用观测性工具deepeval,ragas

传统rag的不足,是否检索的判断,检索结果质量评估,查询重写,多步推理,

agentic rag引入可决策的智能体,判断何时需要检索,是否需要重写query,判断检索结果是否足够好,自动多轮推理

agentic rag的核心是决策循环

rag实践经验

chunk策略,学生文章800至1200字符,技术文章400至800字符,binlog/sop文档300至600字符,15%至20%overlap

相关推荐
2501_945837432 小时前
OpenAI Codex:重新定义软件工程的 AI 智能体
人工智能
直奔標竿2 小时前
Java开发者AI转型第二十三课!Spring AI个人知识库实战(二):异步ETL流水线搭建与避坑指南
java·人工智能·spring boot·后端·spring
zandy10112 小时前
重新定义AI测试——衡石科技从“用例通过“到“可信质量防线“的工程实践
人工智能·科技
奇思智算2 小时前
小白AI创作GPU算力平台测评:多平台对比与选择指南
大数据·人工智能·gpu算力·智星云·gpu算力租用
【 】4232 小时前
从迭代器到生成器
python·迭代器·生成器
AC赳赳老秦2 小时前
网安工程师提效:用 OpenClaw 实现漏洞扫描报告生成、安全巡检自动化、日志合规审计
java·开发语言·前端·javascript·python·deepseek·openclaw
墨染天姬2 小时前
[AI]OPENAI的PPO算法
人工智能·算法
sheji1052 小时前
割草机器人行业市场分析报告
大数据·人工智能·microsoft
xixixi777772 小时前
AI安全周记:AI驱动攻击占比50%、PQC国标落地、ShinyHunters连环袭击——面对1:25的攻防成本鸿沟,防守方还能撑多久?
人工智能·安全·ai·大模型·aigc·量子计算·供应链
你数过天上的星星吗2 小时前
Python学习笔记二(函数、类与对象)
笔记·python·学习