怎么优化RAG的检索效果？

独自破碎E2026-01-14 13:10

主要可以从以下几个方面考虑：

1.保证知识库中的原始文档内容准确、结构清晰、格式规范，尽量减少水印、不相关图片等噪音。

2.由于过小的切片可能会导致语义不完整 ，过大的切片又可能会引入过多的无关信息，因此，需要采用合适的文档切片策略，避免固定的长度切分导致语义断裂。

3.为了后续进行更精准地过滤和检索，可以考虑对文档切片添加来源、日期、类别、标签等元数据。

4.使用大模型把用户的原始查询改写得更清晰、详细和规范一些，这样可以提高后续检索的准确性。

5.像关键词检索 和向量检索都有不同的优势，可以将两者进行结合，比如先用向量检索召回语义相关的文档，然后再使用关键词检索进行精确匹配。