我把RAG召回率从60%提到90%,就改了这两件事

💪🏻 1. Python基础专栏,基础知识一网打尽,9.9元买不了吃亏,买不了上当。 Python从入门到精通

💪🏻 2. AI编程变现手册,从学会AI编程到实现变现都可以

😁 3. 毕业设计专栏,毕业季咱们不慌忙,几千款毕业设计等你选。

❤️ 4. DeepSeek+RPA提效从入门到变现实战

❤️5. 欢迎访问我的免费工具站

❤️ 6. Java高并发编程入门,打卡学习Java高并发。 Java高并发编程入门

文章目录

上线第一周,用户反馈就来了:

"我明明传了文档进去,问它怎么什么都不知道?"

我去排查,知识库里有内容,向量索引也建了,ES服务也正常跑着。但用户一问,系统要么答非所问,要么直接说"暂无相关内容"。

召回率只有60%。

作为一个写了10年Java的人,我当时的第一反应是:这不就是数据库查不到记录的问题嘛------要么数据没入库,要么查询条件写错了。

结果排查下来,两个都有问题。


问题一:内容切得太碎,语义断了

我们当时的切分策略很简单------控制chunk大小,防止向量维度超限。结果一篇2000字的文档被切成了七八个片段,每片就两三百字。

问题来了:一个完整的知识点,被切成了三片。

用Java来类比就是:你把一个完整的业务对象UserInfo拆成了三张表,然后忘了写JOIN------查出来的每条记录都是残的,根本用不了。

用户问"如何申请退款",知识库里有完整的退款流程,但被切成了"退款条件"、"退款步骤"、"退款到账时间"三片。向量检索命中了"退款步骤"那片,但上下文不完整,LLM拿到之后生成的答案逻辑混乱。

解决方案:切分字段拆成两个。

复制代码
originContent:保留完整语义,最大2000字
embeddingContent:压缩到450字以内,只保留核心语义

向量化用embeddingContent(小),返回给LLM用originContent(大)。

检索用小的,回答用大的。

改完之后效果立竿见影------召回到的内容片段语义完整了,LLM"看懂了",答案质量直接上去了。


问题二:只靠向量检索,精确匹配全挂

向量检索的优势是语义相似,但它有个天然缺陷:对精确词汇不友好。

还是用Java类比:向量检索就像MyBatis里的模糊查询LIKE '%keyword%',找近似的很强,但你要精确匹配一个字段值,它就未必靠得住。

用户问专有名词时,向量检索可能给你召回一堆语义相似但不精确的内容。

解决方案:加入BM25全文检索,两路融合。

向量检索负责语义模糊匹配,BM25负责关键词精确匹配,用RRF算法融合打分:

复制代码
向量分数权重:0.7
全文检索权重:0.3

两个通道互补,语义相似和精确匹配都能覆盖到。

就像MySQL里既建了普通索引又建了全文索引,根据查询条件自动选择最优路径。


最终结果

两个改动加起来,召回率从60%提到了90%。

其中切分策略的改动效果最明显,贡献了大部分提升。混合检索是锦上添花,但对专有名词场景来说是刚需。


可以直接用的结论

如果你的RAG召回率上不去,先查这两个地方:

1. 切分粒度 :chunk不是越小越好。切分之前先想清楚:你的知识点最小完整单元是多大?用这个大小做originContent,再压缩一版做embeddingContent

2. 检索方式:纯向量检索只适合语义模糊场景。有专有名词、精确匹配需求的,混合检索几乎是标配。成本低,效果好,直接上。


这两个问题是我在实际项目中遇到的,不是理论,是真实踩过的坑。

你的RAG系统有没有类似的问题?欢迎来星球聊聊,我们一起看。

相关推荐
Warson_L14 小时前
Python `Annotated` 与 LangGraph Reducer 学习笔记
python
韩师傅14 小时前
海天线算法的前世今生
python·计算机视觉
韩师傅14 小时前
当你的甲方设备过烂,要如何快速出效果?
python·计算机视觉
Warson_L14 小时前
LangGraph的MessageState and HumanMessage
python
韩师傅15 小时前
当你的甲方吐槽天空不够蓝,你应该如何应对
python·计算机视觉
Warson_L15 小时前
python的类&继承
python
Warson_L15 小时前
类型标注/type annotation
python
ThreeS18 小时前
手搓MiniVLA全实战教程-一步一步用pytorch解释原理与思路
人工智能·python
金銀銅鐵19 小时前
[Python] 模 n 乘法的逆元计算器
python·数学·游戏