如何评价RAGAS的效果

文章目录

传统指标为什么不能用:

复制代码
其中有三大核心原因:
(1)BLEU/ROUGE只比较字面重叠,不懂语义。
(2)其完全无视上下文。
(3)无法检测幻觉,RAG最核心的风险。

为了解决上述问题,引入了RAGAS指标来评判RAG的三个核心维度。

忠实度:

复制代码
具体做法是把 问题+检索文档+模型生成的答案 作为输入。
(1)让LLM将生成的答案拆成一条条独立的声明。
(2)将这些声明逐条跟文档对比,看有没有被文档支持。
(3)算分:被支持的声明/总声明数。
如果文档本身有错误,那么这里是改变不了它的正确性的,一切根据文档,哪怕是错的文档也是忠诚的。

答案相关性:

复制代码
具体输入是 问题+生成的答案。
(1)LLM从生成的答案反向生成N个问题。
(2)算反向问题与原始问题的余弦相似度。
(3)算平均的相似度。

文档相关性:

复制代码
具体输入是原始问题与文档。
(1)让LLM从文档里挑出文档里真正有用的句子。
(2)得分为有用句子/文档的总句子数。