企业AI知识库落地踩坑记录

前言

随着大模型技术的发展，越来越多企业开始尝试搭建属于自己的AI知识库。从客服问答到产品查询，从内部文档检索到智能报价助手，RAG（Retrieval-Augmented Generation，检索增强生成）已经成为企业落地大模型最常见的方案。

很多开发者在刚接触RAG时会认为：

把文档导入知识库 → 生成向量 → 接入大模型

这样就完成了。

但在实际项目中我发现，事情远没有这么简单。

明明文档里有答案，模型却检索不到；明明产品参数写得很清楚，模型回答却张冠李戴；甚至有时候检索结果完全不相关。

经过一段时间的项目实践后，我发现影响RAG效果的关键因素往往不是模型本身，而是文档处理与检索策略。

本文结合实际项目经验，分享几个提高RAG知识库效果的实用技巧。

一、不要盲目按照固定字数切分文档

很多教程都会推荐类似这样的配置：

复制代码

chunk_size=500
chunk_overlap=100

这种方式确实简单，但在企业场景中往往效果并不好。

例如一份产品参数文档：

复制代码

产品型号：ABC100

额定电压：220V

工作压力：0.8MPa

适用介质：空气

如果系统按照固定字数切分，可能会变成：

复制代码

产品型号：ABC100

额定电压：220V

以及：

复制代码

工作压力：0.8MPa

适用介质：空气

当用户提问：

ABC100的工作压力是多少？

系统可能无法正确召回完整信息。

因此在实际项目中，我更推荐按照文档结构进行切分，例如：

一级标题
二级标题
产品模块
参数表格
章节内容

这样能够保证同一业务信息尽可能保留在同一个Chunk中。

二、向量化之前一定要清洗文档

很多人把PDF直接上传知识库。

实际上这是非常容易踩坑的地方。

尤其是以下几种情况：

PDF乱码

OCR识别后出现：

复制代码

额定功率：22OV

把数字0识别成字母O。

页眉页脚污染

例如：

复制代码

XX公司技术手册
第12页

这些内容在每一页都会重复出现。

大量重复内容会影响Embedding效果。

表格丢失

很多产品手册的核心内容都在表格里。

如果解析工具处理不好，可能变成：

复制代码

型号 功率 电压

ABC100 220 220

甚至直接丢失字段关系。

因此在正式向量化之前，建议先进行：

去除页眉页脚
清理无效内容
修复OCR错误
表格结构转换

这一步往往比选择哪个Embedding模型更重要。

三、TopK并不是越大越好

很多开发者发现检索效果不好时，第一个操作就是：

增加TopK

例如：

复制代码

top_k=20

甚至：

复制代码

top_k=50

实际上这样做经常会带来反效果。

因为：

TopK过小

可能遗漏关键内容。

TopK过大

会引入大量噪声信息。

例如用户提问：

CONC1600型号支持哪些接口？

如果检索返回：

CONC1600
CONC1200
CONC800
CONC300

十几条结果同时进入上下文。

模型反而更容易混淆。

实际项目中我测试下来：

FAQ场景：Top3~5
产品知识库：Top5~8
综合知识库：Top8~10

通常效果比较稳定。

四、增加Rerank重排序模型

很多知识库项目只做了Embedding检索。

实际上Embedding只负责：

找到可能相关的内容

并不保证排序最准确。

例如：

用户提问：

产品最大工作压力是多少？

系统可能同时召回：

工作压力
测试压力
最大允许压力

这些内容都很相似。

此时就需要Rerank模型进行二次排序。

流程如下：

复制代码

用户问题

↓

Embedding召回

↓

Top10候选结果

↓

Rerank重排序

↓

Top3高相关结果

↓

大模型生成答案

在实际项目中加入Rerank之后，检索准确率提升非常明显。

尤其是在产品说明书和技术文档场景下效果更加突出。

五、建立问题日志机制

很多人认为：

知识库上线以后就结束了。

实际上真正的优化才刚刚开始。

我比较推荐记录以下数据：

用户提问内容

例如：

复制代码

这个型号支持哪些协议？

检索结果

查看召回是否正确。

最终回答

观察是否存在幻觉。

用户反馈

例如：

回答正确
回答错误
未解决

通过持续分析这些日志，可以发现：

哪些问题知识库没有覆盖
哪些文档需要补充
哪些Chunk切分不合理
哪些业务逻辑存在漏洞

很多优化方向其实都来自真实用户的问题，而不是开发者自己的想象。

六、不要迷信大模型能力

很多开发者喜欢不断更换模型：

GPT
Claude
DeepSeek
Qwen

希望通过更强的模型解决问题。

但实际项目经验告诉我：

一个结构合理、检索准确的知识库，往往比单纯更换模型更有效。

模型负责理解和生成。

知识库负责提供正确的信息。

如果检索阶段已经出现偏差，再强的模型也无法保证答案正确。

总结

在RAG项目中，真正影响效果的往往不是模型参数，而是知识库建设本身。

结合实际项目经验，我认为最值得关注的几个方向分别是：

合理设计文档切分策略
向量化前进行文档清洗
控制合适的TopK数量
引入Rerank重排序机制
建立持续优化反馈体系

RAG并不是简单的"上传文档+调用大模型"。

它更像一个持续迭代的工程。

只有不断优化检索质量和知识组织方式，才能真正发挥大模型在企业场景中的价值。