rag检索增强生成-概念版

文章目录

RAG

RAG(retrieval augmented generation)(检索增强生成)。

是目前应用最多,最可实现的一种方案。

rag主要用到哪些技术

1、切片要聪明:别只会按字数切,要按语义/段落切,加 Overlap。

2、检索要混合:向量 + 关键词,缺一不可。

3、结果要重排:加一个 Rerank 模型,是提升准确率性价比最高的手段。

rag中的主要指标

只说查的更准了、更快了、节省token等太low了。

优秀的 RAG 系统 = 高召回 (Recall > 0.9) + 高精排 (Precision > 0.8) + 无幻觉 (Faithfulness > 0.9) + 低延迟 (< 3s)

rag系统的效果及指标

有具体的量化指标。

1、检索质量指标

2、生成质量指标

3、系统性能指标

1、检索质量指标
指标名称 含义 计算公式/逻辑 目标值
Hit Rate @ K (命中率) 前 K 个检索结果中,至少有一个是正确答案的比例。 \\frac{\\text{命中次数}}{\\text{总查询数}} > 0.90
MRR @ K (平均倒数排名) 衡量第一个正确答案排在哪里。排得越靠前分数越高。 \\frac{1}{N} \\sum \\frac{1}{\\text{rank}_i} (若第1个就命中得1分,第3个命中得0.33分) > 0.80
NDCG @ K (归一化折损累计增益) 考虑了相关性等级(如:完全相关=3分,部分相关=1分)。不仅看有没有,还看排序质量。 复杂的加权求和公式 (业界标准) > 0.85
Context Precision (上下文精确度) 检索到的内容中,真正有用的信息是否集中在前面?(RAGAS 指标) 基于黄金答案中事实的分布计算 > 0.80
Context Recall (上下文召回率) 地面真实答案中的事实,有多少比例出现在了检索到的上下文中? \\frac{\\text{检索到的事实数}}{\\text{地面真实事实总数}} > 0.90
2、生成质量指标
指标名称 含义 评判逻辑 (由 LLM 判断) 目标值
Faithfulness (忠实度/无幻觉) 生成的答案是否完全基于检索到的上下文?有没有瞎编? "答案中的每个陈述都能在上下文中找到依据吗?" > 0.90 (关键!)
Answer Relevance (答案相关性) 生成的答案是否直接回答了用户的问题?有没有答非所问? "这个答案是否解决了用户的疑问?" > 0.85
Answer Correctness (答案正确性) 生成的答案与标准答案 (Ground Truth) 的语义相似度。 对比生成答案与标准答案的语义向量距离或事实重叠度。 > 0.80
Context Utilization (上下文利用率) 模型是否有效利用了提供的长上下文? 检查模型是否忽略了关键信息。 -
3、系统性能指标
指标名称 含义 测量方法 参考标准 (本地/云端)
Latency (端到端延迟) 从用户发送请求到收到第一个字 (TTFT) 及完整回答的时间。 End_Time - Start_Time TTFT: < 1s Total: < 3-5s
Throughput (吞吐量) 系统每秒能处理多少个并发请求 (QPS)。 压测工具 (如 Locust, JMeter) 视硬件而定,需满足业务峰值
Token Cost (成本) 每次问答消耗的 Input/Output Token 数量及金额。 统计日志中的 Token 用量 越低越好 (优化切片长度可降低成本)
Error Rate (错误率) 检索失败、超时、模型报错的比例。 \\frac{\\text{失败请求数}}{\\text{总请求数}} < 0.1%
Index Freshness (数据新鲜度) 新文档上传后,多久能被检索到。 记录上传时间戳与可检索时间戳的差值 分钟级 或 秒级

指标示例

1、检索质量指标

核心逻辑:强调从"纯向量"到"混合检索+重排序"的显著提升。

2、生成质量指标

3、系统性能指标

指标示例-1、检索质量指标
场景/优化前 优化后目标值 (简历写法) 简历话术示例 (可以直接抄)
命中率 (Hit Rate @ 5) (原: 65%) 88% - 92% "引入混合检索 (Hybrid Search) 策略,将 Top-5 召回命中率从 65% 提升至 89%,有效解决了专有名词和代码片段检索丢失的问题。"
平均倒数排名 (MRR @ 5) (原: 0.45) 0.75 - 0.82 "部署 BGE-Reranker 重排序模型,将关键文档的平均排名 (MRR@5) 从 0.45 优化至 0.78,确保最相关信息始终位于上下文窗口前列。"
上下文精确度 (Context Precision) (原: 0.50) 0.80 - 0.85 "通过优化切片策略(父子索引)及重排序,将 RAGAS Context Precision 指标提升至 0.83,大幅减少了无关噪声对大模型的干扰。"
长尾问题召回率 提升 40%+ "针对复杂多跳查询,设计查询重写 (Query Rewriting) 模块,使长尾问题的检索召回率相对提升 42%。"
指标示例-2、生成质量指标
场景/优化前 优化后目标值 (简历写法) 简历话术示例 (可以直接抄)
忠实度/无幻觉 (Faithfulness) (原: 0.65) 0.88 - 0.93 "构建基于 RAGAS 的自动化评估流水线,通过提示词工程优化及严格上下文约束,将模型回答的 Faithfulness (无幻觉率) 从 0.65 稳定在 0.91。"
答案相关性 (Answer Relevance) (原: 0.70) 0.85 - 0.90 "优化生成端 Prompt 模板,引入'思维链 (CoT)'机制,使 Answer Relevance 评分提升至 0.88,显著减少答非所问的情况。"
答案正确率 (Answer Correctness) (原: 60%) 82% - 86% "在垂直领域测试集(500+ 用例)上,系统最终 答案语义正确率达到 85%,满足生产环境交付标准。"
用户满意度 (隐式指标) 4.6 / 5.0 "上线后收集用户反馈,点赞率 (Thumbs-up Rate) 达到 92%,平均用户评分 4.6/5.0。"
指标示例-3、系统性能指标
场景/配置 优化后目标值 (简历写法) 简历话术示例 (可以直接抄)
首字延迟 (TTFT) (原: 2.5s) < 800ms "通过 vLLM 推理加速及缓存策略优化,将首字生成时间 (TTFT) 从 2.5s 降低至 600ms,实现类人流畅交互体验。"
端到端响应时间 (原: 8s) < 2.5s "优化检索链路并行处理及切片粒度,将平均端到端响应时间控制在 2.2秒 以内 (P95 < 3s)。"
并发吞吐量 (QPS) 20 - 50 QPS (单卡/小集群) "设计异步检索架构,在单张 A10/A800 显卡支持下,系统稳定支撑 35 QPS 的并发请求,满足业务高峰期需求。"
成本优化 降低 40% - 60% "通过引入小模型重排序及动态切片策略,减少无效 Token 输入,使单次问答的 Token 消耗成本降低 55%。"
数据新鲜度 < 1 分钟 "搭建实时数据管道,实现新文档上传后 30秒内 完成解析、向量化并可被检索,保障信息时效性。"
相关推荐
Miku162 小时前
开源项目 superpowers 深度解读:把 AI Coding Agent 变成遵守工程流程的协作伙伴
agent·ai编程·claude
AI_Ming2 小时前
程序员转行学习 AI 大模型: 第一次如何调用大模型API | 附完整可运行代码
aigc·openai·ai编程
甜城瑞庄的核桃2 小时前
Claude Code 工程化实战:从工具使用者到 Agent 构建者的进阶之路
人工智能·机器学习·aigc·ai编程
超爱柠檬3 小时前
工作流(Workflow)—— 可视化 AI 应用编排
openai·ai编程
张拭心3 小时前
什么是 Harness Engineering,为什么最近都在说它
前端·ai编程·前端工程化
云和数据.ChenGuang3 小时前
PromptTemplate和ChatPromptTemplate的区别是什么呢?
人工智能·langchain·ai编程·chatprompt·langgraph·langsmith
码视野3 小时前
#Cursor加Specs编程,3小时上线一个有管理后台和移动端的检举举报全流程平台(完全开源)
spring boot·小程序·ai编程
阿泽·黑核3 小时前
2026年IDE的智能体编程革命
ai编程·vibe coding
安全渗透Hacker4 小时前
阿里云百炼 + VS Code + Kilo 完整实战教程
人工智能·阿里云·ai·云计算·ai编程