RAG-day11

Komorebi_99992026-05-13 12:11

一、RAG 常见面试必问：三种检索误区

1. 只依赖向量检索

问题：只靠语义匹配，遇到专业名词、法规编号、固定关键词，搜不到、匹配不准。解决：必须搭配 ES 关键词稀疏检索，做混合检索。

2. 分块越大越好 / 越小越好

块太大：内容杂乱，无关信息多
块太小：一句话被切碎，语义不完整正确：根据文档类型，选递归 / 父子 / 重叠分块，适中切分。

3. 把所有检索结果都喂给大模型

问题：不做重排、不做压缩，垃圾内容也塞进去，容易跑偏、出幻觉。正确：加 Rerank 重排 + 上下文压缩，只留高相关内容。

二、RAG 上下文窗口限制（很好懂）

每一个大模型都有最大能容纳的文字长度 ，叫上下文窗口。意思就是：一次不能塞无限多文档，塞多了模型处理不了、还浪费费用。所以必须做：重排筛选 + 上下文压缩，精简内容再输入。

三、RAG 对话记忆能力（多轮对话）

用户不是只问一句，会连续追问、关联上一句问题。比如：先问 "乌干达鲜鱼标准"，再问 "那检疫要求呢"。模型要记住上文对话内容，才能理解省略的问句。实现方式：把历史对话一起拼进去，作为上下文传给大模型。

四、RAG 本地部署 vs 在线调用

在线调用

调用网上现成大模型（通用大模型接口）优点：省事、不用自己运维缺点：有网络依赖、数据有外传风险

本地私有化部署

把大模型、向量库、RAG 全部部署在自己服务器 / 电脑优点：数据不外泄、内网可用、隐私安全缺点：需要机器配置高、要自己维护

五、RAG 适合做什么、不适合做什么

适合

企业私有文档、规章、法规、手册问答
知识库客服、内部资料查询
行业固定知识答疑、文档解析

不适合

需要实时最新热点新闻
纯创意写作、无资料支撑的脑洞内容
复杂数学推理、专业深度科研论证

六、RAG 整体优化总结（极简 5 条背会就能面试）

分块策略选对，不偏大也不偏小
用 ES + 向量混合检索，兼顾关键词和语义
加 Rerank 重排，精选高相关内容
Query 改写 + 上下文压缩，精简输入
多轮对话带入历史上下文，理解连贯提问

上一篇：Invoice Ninja 自建教程：开源发票和账单管理系统

下一篇：边缘计算 + 机器视觉 | BRAV-7821让农产品智能分拣真正落地

热门推荐

01GitHub 镜像站点 022026 年 AI 编程工具终极横评：Cursor vs Claude Code vs Copilot vs Windsurf 03Codex 下载安装指南：Windows 和 macOS 官方版下载 04【踩坑记录 | 第一篇】微软商店无法使用时，如何手动安装 OpenAI Codex？附`.msix`文件系统错误解决方法 05【AI】2026 年具身智能模型和世界模型总结 06裂开！ChatGPT 居然开始要手机号验证，附详细解决方法 07CC-Switch & Claude 基于 Linux 服务器安装使用指南 08CC-Switch 下载、安装与使用配置指南【2026.5.29】09Codex 接入 DeepSeek API 完整配置文档 10几个好用的ip纯净度检测网站