基于 RAGAS 的检索增强效果评估实战

大家好,我是雨飞。

RAGAS (R etrieval A ugmented G eneration Assessment), 是一个关于检索增加效果评估的框架。最近尝试了使用这个框架自动评估大模型检索增强的效果。由于官方文档写的比较简单,而且使用的是 GPT 的API,最近,GPT4 相关的 API 不太稳定,因此尝试了自己定制 LLM 去进行评估。

本文主要使用的向量模型是 BGE,然后实现了自己调用 LLM 去进行评估的全流程,API调用部分做了删减,替换之后,代码可以正常执行。 代码测试基于 ragas 版本 0.0.19

新建数据集

RAGAS 需要使用 HuggingFace 标准的 dataset 的格式,因此我们可以根据现有的格式去构建自己的数据集或者读取 HF 上现有的数据集。

读取 HF 上的数据集

python 复制代码
from datasets import load_dataset
 
fiqa_eval = load_dataset("explodinggradients/fiqa", "ragas_eval")['baseline']
fiqa_eval

自己定义数据集

数据集包含下面四个列:

  • question: list[str], 这个是 RAG 系统中希望评测的问题。

  • answer: list[str],由 RAG 系统生成,并提供给用户的答案,也就是需要评测的答案。

  • contexts: list[list[str]], 传入 LLM 并回答问题的上下文。

  • ground_truths: list[list[str]]],问题的真实答案,这个在线评估的时候,可以忽略,因为我们无法有效获取真实的答案数据。

python 复制代码
from datasets import Dataset

questions, answers, contexts, ground_truths = [], [], [], []
# The dataset in the format of ragas which the metrics will use to score the RAG pipeline with
evalsets = {
              "question": questions,
              "answer": answers,
              "contexts": contexts,
              "ground_truths": ground_truths
            }
evalsets = Dataset.from_dict(evalsets)

导入外部依赖

将我们使用的langchain、ragas以及bge和一些基础的包都导入。

python 复制代码
import typing as t
import os
from typing import List
from datasets import load_dataset, load_from_disk
from ragas.metrics import faithfulness, context_recall, context_precision
from ragas.metrics import AnswerRelevancy
from ragas import evaluate
from ragas.llms import BaseRagasLLM
from langchain.schema import LLMResult
from langchain.schema import Generation
from langchain.callbacks.base import Callbacks
from langchain.schema.embeddings import Embeddings
from FlagEmbedding import FlagModel

自定义 LLM

自定义 LLM 需要导入 ragas 中的 BaseRagasLLM 这个类,然后复写相关的 generate 方法 和 llm 方法。在这里值得注意的是,如果我们采用 API 调用,base_llm 变量实际只是为了复写 llm 方法而添加的,并没有实际意义。如果是传递了模型本身,则 llm 方法会返回这个模型。

另外,在 generate 方法中,输入的 prompts 实际上的类型是 langchain 中的 ChatPromptTemplate ,因此我们在获取实际的字符串时需要按照指定的格式进行获取,同时最后返回的结果要包装成 LLMResult 的形式。

python 复制代码
class MyLLM(BaseRagasLLM):

    def __init__(self, llm):
        self.base_llm = llm

    @property
    def llm(self):
        return self.base_llm

    def generate(
            self,
            prompts: List[str],
            n: int = 1,
            temperature: float = 0,
            callbacks: t.Optional[Callbacks] = None,
    ) -> LLMResult:
        generations = []
        llm_output = {}
        token_total = 0
        for prompt in prompts:
            content = prompt.messages[0].content
            text = api.main(content)  // 修改为自己的API方式调用即可
            generations.append([Generation(text=text)])
            token_total += len(text)
        llm_output['token_total'] = token_total

        return LLMResult(generations=generations, llm_output=llm_output)

自定义 Embedding

有一些指标,比如问题相关性,需要对 llm 生成的问题和原始问题计算相似度,这里我们使用自定义的 BGE 模型去计算 embedding。同样,需要继承 langchain 中的 Embeddings,然后复写几个方法就可以。

python 复制代码
class BaaiEmbedding(Embeddings):

    def __init__(self,model_path, max_length=512, batch_size=256):
        self.model = FlagModel(model_path, query_instruction_for_retrieval="为这个句子生成表示以用于检索相关文章:")
        self.max_length = max_length
        self.batch_size = batch_size

    def embed_documents(self, texts: List[str]) -> List[List[float]]:
        return self.model.encode_corpus(texts, self.batch_size, self.max_length).tolist()

    def embed_query(self, text: str) -> List[float]:
        return self.model.encode_queries(text, self.batch_size, self.max_length).tolist()

最终代码

评价的时候就比较简单了,可以直接把需要的指标传递到 evaluate 类中,但是需要注意将对应指标的 llm 替换为我们自定义的 llm。

从实际体验的结果来说,整个框架的调用还算比较简单,但是如果想自己定制一些组件则需要对其中的代码比较熟悉才可以。而且这个代码和 langchain 耦合程度比较多,好多东西比较冗余,一旦出现了问题可能不好定位。但好在,从目前的使用来看,没发现这方面的问题。

python 复制代码
import typing as t
import os
from typing import List
from datasets import load_dataset, load_from_disk
from ragas.metrics import faithfulness, context_recall, context_precision
from ragas.metrics import AnswerRelevancy
from ragas import evaluate
from ragas.llms import BaseRagasLLM
from langchain.schema import LLMResult
from langchain.schema import Generation
from langchain.callbacks.base import Callbacks
from langchain.schema.embeddings import Embeddings
from FlagEmbedding import FlagModel


class MyLLM(BaseRagasLLM):

    def __init__(self, llm):
        self.base_llm = llm

    @property
    def llm(self):
        return self.base_llm

    def generate(
            self,
            prompts: List[str],
            n: int = 1,
            temperature: float = 0,
            callbacks: t.Optional[Callbacks] = None,
    ) -> LLMResult:
        generations = []
        llm_output = {}
        token_total = 0
        for prompt in prompts:
            content = prompt.messages[0].content
            text = api.main(content)  // 修改为自己的API方式调用即可
            generations.append([Generation(text=text)])
            token_total += len(text)
        llm_output['token_total'] = token_total

        return LLMResult(generations=generations, llm_output=llm_output)


class BaaiEmbedding(Embeddings):

    def __init__(self,model_path, max_length=512, batch_size=256):
        self.model = FlagModel(model_path, query_instruction_for_retrieval="为这个句子生成表示以用于检索相关文章:")
        self.max_length = max_length
        self.batch_size = batch_size

    def embed_documents(self, texts: List[str]) -> List[List[float]]:
        return self.model.encode_corpus(texts, self.batch_size, self.max_length).tolist()

    def embed_query(self, text: str) -> List[float]:
        return self.model.encode_queries(text, self.batch_size, self.max_length).tolist()

# fiqa_eval = load_dataset("explodinggradients/fiqa", "ragas_eval")
fiqa_eval = load_from_disk("./fiqa_eval")
print(fiqa_eval)

my_llm = MyLLM("")
ans_relevancy = AnswerRelevancy(embeddings=BaaiEmbedding())
faithfulness.llm = my_llm
context_recall.llm = my_llm
context_precision.llm = my_llm
ans_relevancy.llm = my_llm

result = evaluate(
    fiqa_eval["baseline"].select(range(3)),
    metrics=[context_recall, context_precision, ans_relevancy, faithfulness]

)

df = result.to_pandas()
print(df.head())
df.to_csv("result.csv", index=False)

RAGSA 官方的项目为:github.com/explodinggr...

BGE 官方的项目为:github.com/FlagOpen/Fl...

雨飞同行

  • 雨飞
  • 主业是推荐算法
  • 希望通过自媒体开启自己不上班只工作的美好愿景
  • 微信:1060687688
  • 欢迎和我交朋友🫰

好了,我写完了,有启发的欢迎点赞评论🫰。新的一天,愿阳光洒在你的脸上。

相关推荐
木头左29 分钟前
逻辑回归的Python实现与优化
python·算法·逻辑回归
lifallen4 小时前
Paimon LSM Tree Compaction 策略
java·大数据·数据结构·数据库·算法·lsm-tree
web_Hsir7 小时前
vue3.2 前端动态分页算法
前端·算法
地平线开发者9 小时前
征程 6M 部署 Omnidet 感知模型
算法·自动驾驶
秋说9 小时前
【PTA数据结构 | C语言版】线性表循环右移
c语言·数据结构·算法
EdisonZhou10 小时前
多Agent协作入门:群组聊天-AgentGroupChat
llm·aigc·.net core
浩瀚星辰202410 小时前
图论基础算法:DFS、BFS、并查集与拓扑排序的Java实现
java·算法·深度优先·图论
oioihoii12 小时前
C++随机打乱函数:简化源码与原理深度剖析
开发语言·c++·算法
不知名。。。。。。。。13 小时前
分治算法---快排
算法
minji...13 小时前
数据结构 算法复杂度(1)
c语言·开发语言·数据结构·算法