RAG-day11

一、RAG 常见面试必问:三种检索误区

1. 只依赖向量检索

问题:只靠语义匹配,遇到专业名词、法规编号、固定关键词,搜不到、匹配不准。解决:必须搭配 ES 关键词稀疏检索,做混合检索。

2. 分块越大越好 / 越小越好

  • 块太大:内容杂乱,无关信息多
  • 块太小:一句话被切碎,语义不完整正确:根据文档类型,选递归 / 父子 / 重叠分块,适中切分。

3. 把所有检索结果都喂给大模型

问题:不做重排、不做压缩,垃圾内容也塞进去,容易跑偏、出幻觉。正确:加 Rerank 重排 + 上下文压缩,只留高相关内容。

二、RAG 上下文窗口限制(很好懂)

每一个大模型都有最大能容纳的文字长度 ,叫上下文窗口。意思就是:一次不能塞无限多文档,塞多了模型处理不了、还浪费费用。所以必须做:重排筛选 + 上下文压缩,精简内容再输入。

三、RAG 对话记忆能力(多轮对话)

用户不是只问一句,会连续追问、关联上一句问题。比如:先问 "乌干达鲜鱼标准",再问 "那检疫要求呢"。模型要记住上文对话内容,才能理解省略的问句。实现方式:把历史对话一起拼进去,作为上下文传给大模型。

四、RAG 本地部署 vs 在线调用

在线调用

调用网上现成大模型(通用大模型接口)优点:省事、不用自己运维缺点:有网络依赖、数据有外传风险

本地私有化部署

把大模型、向量库、RAG 全部部署在自己服务器 / 电脑优点:数据不外泄、内网可用、隐私安全缺点:需要机器配置高、要自己维护

五、RAG 适合做什么、不适合做什么

适合

  1. 企业私有文档、规章、法规、手册问答
  2. 知识库客服、内部资料查询
  3. 行业固定知识答疑、文档解析

不适合

  1. 需要实时最新热点新闻
  2. 纯创意写作、无资料支撑的脑洞内容
  3. 复杂数学推理、专业深度科研论证

六、RAG 整体优化总结(极简 5 条背会就能面试)

  1. 分块策略选对,不偏大也不偏小
  2. 用 ES + 向量 混合检索,兼顾关键词和语义
  3. 加 Rerank 重排,精选高相关内容
  4. Query 改写 + 上下文压缩,精简输入
  5. 多轮对话带入历史上下文,理解连贯提问
相关推荐
秋名山码民7 天前
Graph RAG 深度解析:从向量检索到知识推理的技术演进
大数据·人工智能·rag
Artech7 天前
[MAF预定义的AIContextProvider-01]TextSearchProvider——RAG在MAF中的实现
ai·agent·rag·maf
染指11107 天前
26.RAG进阶(Advanced RAG)-假设性问题索引
人工智能·windows·agent·rag·advanced rag
SXJR8 天前
spring boot + langchain4j +milvus实现向量存储
java·spring boot·后端·大模型·milvus·rag·langchain4j
deephub8 天前
Flash-KMeans:快速且内存高效的精确 K-Means,可在单张 GPU 进行亿级数据的聚类
人工智能·机器学习·kmeans·聚类·rag
四六的六8 天前
WebView里跑RAG——浏览器内知识检索增强实战
前端·实战·个人开发·webview·ai大模型·rag·webview内嵌开发
Attachment George8 天前
山东大学软件学院-项目实训-个人开发日志(十):材料问答链路开发——文档解析、OCR兜底与持续追问完善
python·ai·langchain·kotlin·rag
knight_9___8 天前
AI Agent 是什么?
人工智能·python·agent·rag·mcp
程序员三明治8 天前
【AI】从文本到向量:理解Embedding的作用
java·人工智能·后端·llm·元数据·rag·向量化
不爱洗脚的小滕9 天前
【Agent】如何为 AI Agent 设计高可用的 Tools
人工智能·aigc·ai编程·rag