大模型的召回率

soldierluo2026-01-17 23:42

召回率

什么是召回率：大模型在回答问题时，需要从知识库中提取相关信息进行分析，从超大数据量的知识库中提取有效的能力就叫召回率，召回率越高说明提取有效信息的能力越强，否则越弱。

为什么会有召回率：因为知识库的数据量及其庞大，且大模型的信息处理能力非常有限，单次仅能处理几万十几万字符的数据量，所以必须找到与查询问题关联度最高的信息来输入给大模型进行处理，否则就无法有效利用知识库信息。

优点是什么：优点是可以大幅降低注入大模型的信息量从而降级计算成本，提高处理效率。

缺点是什么：缺点是由于召回的信息量有限制，注入大模型的信息不足，信息完整度不足，从而导致输出的分析不全面、不完整，从而得出错误结论。

如何解决召回缺点带来的问题：首先是增加召回数量上限，比如dify中的召回片段数topK最大只有10，也就是最多只能召回10个片段的切片信息注入到大模型中进行处理，很明显大量的场景需要注入的信息量都远远大于这个上限，缺点是计算成本会上升。其次是保证召回信息的准确度，确保召回的信息是与查询的问题高度关联的信息，而不会将关联度低的信息注入大模型形成噪音，从而导致分析结果偏离实际预期。