一、RAG 常见面试必问:三种检索误区
1. 只依赖向量检索
问题:只靠语义匹配,遇到专业名词、法规编号、固定关键词,搜不到、匹配不准。解决:必须搭配 ES 关键词稀疏检索,做混合检索。
2. 分块越大越好 / 越小越好
- 块太大:内容杂乱,无关信息多
- 块太小:一句话被切碎,语义不完整正确:根据文档类型,选递归 / 父子 / 重叠分块,适中切分。
3. 把所有检索结果都喂给大模型
问题:不做重排、不做压缩,垃圾内容也塞进去,容易跑偏、出幻觉。正确:加 Rerank 重排 + 上下文压缩,只留高相关内容。
二、RAG 上下文窗口限制(很好懂)
每一个大模型都有最大能容纳的文字长度 ,叫上下文窗口。意思就是:一次不能塞无限多文档,塞多了模型处理不了、还浪费费用。所以必须做:重排筛选 + 上下文压缩,精简内容再输入。
三、RAG 对话记忆能力(多轮对话)
用户不是只问一句,会连续追问、关联上一句问题。比如:先问 "乌干达鲜鱼标准",再问 "那检疫要求呢"。模型要记住上文对话内容,才能理解省略的问句。实现方式:把历史对话一起拼进去,作为上下文传给大模型。
四、RAG 本地部署 vs 在线调用
在线调用
调用网上现成大模型(通用大模型接口)优点:省事、不用自己运维缺点:有网络依赖、数据有外传风险
本地私有化部署
把大模型、向量库、RAG 全部部署在自己服务器 / 电脑优点:数据不外泄、内网可用、隐私安全缺点:需要机器配置高、要自己维护
五、RAG 适合做什么、不适合做什么
适合
- 企业私有文档、规章、法规、手册问答
- 知识库客服、内部资料查询
- 行业固定知识答疑、文档解析
不适合
- 需要实时最新热点新闻
- 纯创意写作、无资料支撑的脑洞内容
- 复杂数学推理、专业深度科研论证
六、RAG 整体优化总结(极简 5 条背会就能面试)
- 分块策略选对,不偏大也不偏小
- 用 ES + 向量 混合检索,兼顾关键词和语义
- 加 Rerank 重排,精选高相关内容
- Query 改写 + 上下文压缩,精简输入
- 多轮对话带入历史上下文,理解连贯提问