如何评价RAGAS的效果

传统指标为什么不能用：

复制代码

其中有三大核心原因：
（1）BLEU/ROUGE只比较字面重叠，不懂语义。
（2）其完全无视上下文。
（3）无法检测幻觉，RAG最核心的风险。

为了解决上述问题，引入了RAGAS指标来评判RAG的三个核心维度。

复制代码

具体做法是把 问题+检索文档+模型生成的答案 作为输入。
（1）让LLM将生成的答案拆成一条条独立的声明。
（2）将这些声明逐条跟文档对比，看有没有被文档支持。
（3）算分：被支持的声明/总声明数。
如果文档本身有错误，那么这里是改变不了它的正确性的，一切根据文档，哪怕是错的文档也是忠诚的。

复制代码

具体输入是 问题+生成的答案。
（1）LLM从生成的答案反向生成N个问题。
（2）算反向问题与原始问题的余弦相似度。
（3）算平均的相似度。

复制代码

具体输入是原始问题与文档。
（1）让LLM从文档里挑出文档里真正有用的句子。
（2）得分为有用句子/文档的总句子数。