RAG-day11

一、RAG 常见面试必问:三种检索误区

1. 只依赖向量检索

问题:只靠语义匹配,遇到专业名词、法规编号、固定关键词,搜不到、匹配不准。解决:必须搭配 ES 关键词稀疏检索,做混合检索。

2. 分块越大越好 / 越小越好

  • 块太大:内容杂乱,无关信息多
  • 块太小:一句话被切碎,语义不完整正确:根据文档类型,选递归 / 父子 / 重叠分块,适中切分。

3. 把所有检索结果都喂给大模型

问题:不做重排、不做压缩,垃圾内容也塞进去,容易跑偏、出幻觉。正确:加 Rerank 重排 + 上下文压缩,只留高相关内容。

二、RAG 上下文窗口限制(很好懂)

每一个大模型都有最大能容纳的文字长度 ,叫上下文窗口。意思就是:一次不能塞无限多文档,塞多了模型处理不了、还浪费费用。所以必须做:重排筛选 + 上下文压缩,精简内容再输入。

三、RAG 对话记忆能力(多轮对话)

用户不是只问一句,会连续追问、关联上一句问题。比如:先问 "乌干达鲜鱼标准",再问 "那检疫要求呢"。模型要记住上文对话内容,才能理解省略的问句。实现方式:把历史对话一起拼进去,作为上下文传给大模型。

四、RAG 本地部署 vs 在线调用

在线调用

调用网上现成大模型(通用大模型接口)优点:省事、不用自己运维缺点:有网络依赖、数据有外传风险

本地私有化部署

把大模型、向量库、RAG 全部部署在自己服务器 / 电脑优点:数据不外泄、内网可用、隐私安全缺点:需要机器配置高、要自己维护

五、RAG 适合做什么、不适合做什么

适合

  1. 企业私有文档、规章、法规、手册问答
  2. 知识库客服、内部资料查询
  3. 行业固定知识答疑、文档解析

不适合

  1. 需要实时最新热点新闻
  2. 纯创意写作、无资料支撑的脑洞内容
  3. 复杂数学推理、专业深度科研论证

六、RAG 整体优化总结(极简 5 条背会就能面试)

  1. 分块策略选对,不偏大也不偏小
  2. 用 ES + 向量 混合检索,兼顾关键词和语义
  3. 加 Rerank 重排,精选高相关内容
  4. Query 改写 + 上下文压缩,精简输入
  5. 多轮对话带入历史上下文,理解连贯提问
相关推荐
px不是xp4 小时前
【灶台导航】 RAG系统的容错设计:从向量搜索到关键词降级,一个都不能少
javascript·微信小程序·notepad++·rag
少许极端1 天前
AI修炼记3-RAG
人工智能·ai·原型模式·rag
wuxinyan1231 天前
工业级大模型学习之路011:RAG 零基础入门教程(第七篇):查询优化技术
人工智能·学习·rag
有调App1 天前
BGE Reranker-v2-m3多场景落地:支持RAG增强、搜索引擎后处理、对话系统意图澄清
信息检索·rag·ai应用·文本重排序
程序员三明治1 天前
【AI】一文讲清 RAG:从大模型局限到企业级知识库落地流程
java·人工智能·后端·ai·大模型·llm·rag
夜影风1 天前
RAG入门:用LangChain搭建你的第一个知识库问答系统
人工智能·langchain·rag
zander2581 天前
RAG基础介绍
rag
木子七2 天前
Llamaindex框架
ai·rag·llamaindex
冲上云霄的Jayden2 天前
RAG:文档与 TextSegment 的编码和更新:把“分块身份稳定性”设计对
chunk·rag·textsegment