大家好,我是雨飞。
RAGAS (R etrieval A ugmented G eneration Assessment), 是一个关于检索增加效果评估的框架。最近尝试了使用这个框架自动评估大模型检索增强的效果。由于官方文档写的比较简单,而且使用的是 GPT 的API,最近,GPT4 相关的 API 不太稳定,因此尝试了自己定制 LLM 去进行评估。
本文主要使用的向量模型是 BGE,然后实现了自己调用 LLM 去进行评估的全流程,API调用部分做了删减,替换之后,代码可以正常执行。 代码测试基于 ragas 版本 0.0.19
新建数据集
RAGAS 需要使用 HuggingFace 标准的 dataset 的格式,因此我们可以根据现有的格式去构建自己的数据集或者读取 HF 上现有的数据集。
读取 HF 上的数据集
python
from datasets import load_dataset
fiqa_eval = load_dataset("explodinggradients/fiqa", "ragas_eval")['baseline']
fiqa_eval
自己定义数据集
数据集包含下面四个列:
-
question: list[str], 这个是 RAG 系统中希望评测的问题。
-
answer: list[str],由 RAG 系统生成,并提供给用户的答案,也就是需要评测的答案。
-
contexts: list[list[str]], 传入 LLM 并回答问题的上下文。
-
ground_truths: list[list[str]]],问题的真实答案,这个在线评估的时候,可以忽略,因为我们无法有效获取真实的答案数据。
python
from datasets import Dataset
questions, answers, contexts, ground_truths = [], [], [], []
# The dataset in the format of ragas which the metrics will use to score the RAG pipeline with
evalsets = {
"question": questions,
"answer": answers,
"contexts": contexts,
"ground_truths": ground_truths
}
evalsets = Dataset.from_dict(evalsets)
导入外部依赖
将我们使用的langchain、ragas以及bge和一些基础的包都导入。
python
import typing as t
import os
from typing import List
from datasets import load_dataset, load_from_disk
from ragas.metrics import faithfulness, context_recall, context_precision
from ragas.metrics import AnswerRelevancy
from ragas import evaluate
from ragas.llms import BaseRagasLLM
from langchain.schema import LLMResult
from langchain.schema import Generation
from langchain.callbacks.base import Callbacks
from langchain.schema.embeddings import Embeddings
from FlagEmbedding import FlagModel
自定义 LLM
自定义 LLM 需要导入 ragas 中的 BaseRagasLLM 这个类,然后复写相关的 generate 方法 和 llm 方法。在这里值得注意的是,如果我们采用 API 调用,base_llm 变量实际只是为了复写 llm 方法而添加的,并没有实际意义。如果是传递了模型本身,则 llm 方法会返回这个模型。
另外,在 generate 方法中,输入的 prompts 实际上的类型是 langchain 中的 ChatPromptTemplate ,因此我们在获取实际的字符串时需要按照指定的格式进行获取,同时最后返回的结果要包装成 LLMResult 的形式。
python
class MyLLM(BaseRagasLLM):
def __init__(self, llm):
self.base_llm = llm
@property
def llm(self):
return self.base_llm
def generate(
self,
prompts: List[str],
n: int = 1,
temperature: float = 0,
callbacks: t.Optional[Callbacks] = None,
) -> LLMResult:
generations = []
llm_output = {}
token_total = 0
for prompt in prompts:
content = prompt.messages[0].content
text = api.main(content) // 修改为自己的API方式调用即可
generations.append([Generation(text=text)])
token_total += len(text)
llm_output['token_total'] = token_total
return LLMResult(generations=generations, llm_output=llm_output)
自定义 Embedding
有一些指标,比如问题相关性,需要对 llm 生成的问题和原始问题计算相似度,这里我们使用自定义的 BGE 模型去计算 embedding。同样,需要继承 langchain 中的 Embeddings,然后复写几个方法就可以。
python
class BaaiEmbedding(Embeddings):
def __init__(self,model_path, max_length=512, batch_size=256):
self.model = FlagModel(model_path, query_instruction_for_retrieval="为这个句子生成表示以用于检索相关文章:")
self.max_length = max_length
self.batch_size = batch_size
def embed_documents(self, texts: List[str]) -> List[List[float]]:
return self.model.encode_corpus(texts, self.batch_size, self.max_length).tolist()
def embed_query(self, text: str) -> List[float]:
return self.model.encode_queries(text, self.batch_size, self.max_length).tolist()
最终代码
评价的时候就比较简单了,可以直接把需要的指标传递到 evaluate 类中,但是需要注意将对应指标的 llm 替换为我们自定义的 llm。
从实际体验的结果来说,整个框架的调用还算比较简单,但是如果想自己定制一些组件则需要对其中的代码比较熟悉才可以。而且这个代码和 langchain 耦合程度比较多,好多东西比较冗余,一旦出现了问题可能不好定位。但好在,从目前的使用来看,没发现这方面的问题。
python
import typing as t
import os
from typing import List
from datasets import load_dataset, load_from_disk
from ragas.metrics import faithfulness, context_recall, context_precision
from ragas.metrics import AnswerRelevancy
from ragas import evaluate
from ragas.llms import BaseRagasLLM
from langchain.schema import LLMResult
from langchain.schema import Generation
from langchain.callbacks.base import Callbacks
from langchain.schema.embeddings import Embeddings
from FlagEmbedding import FlagModel
class MyLLM(BaseRagasLLM):
def __init__(self, llm):
self.base_llm = llm
@property
def llm(self):
return self.base_llm
def generate(
self,
prompts: List[str],
n: int = 1,
temperature: float = 0,
callbacks: t.Optional[Callbacks] = None,
) -> LLMResult:
generations = []
llm_output = {}
token_total = 0
for prompt in prompts:
content = prompt.messages[0].content
text = api.main(content) // 修改为自己的API方式调用即可
generations.append([Generation(text=text)])
token_total += len(text)
llm_output['token_total'] = token_total
return LLMResult(generations=generations, llm_output=llm_output)
class BaaiEmbedding(Embeddings):
def __init__(self,model_path, max_length=512, batch_size=256):
self.model = FlagModel(model_path, query_instruction_for_retrieval="为这个句子生成表示以用于检索相关文章:")
self.max_length = max_length
self.batch_size = batch_size
def embed_documents(self, texts: List[str]) -> List[List[float]]:
return self.model.encode_corpus(texts, self.batch_size, self.max_length).tolist()
def embed_query(self, text: str) -> List[float]:
return self.model.encode_queries(text, self.batch_size, self.max_length).tolist()
# fiqa_eval = load_dataset("explodinggradients/fiqa", "ragas_eval")
fiqa_eval = load_from_disk("./fiqa_eval")
print(fiqa_eval)
my_llm = MyLLM("")
ans_relevancy = AnswerRelevancy(embeddings=BaaiEmbedding())
faithfulness.llm = my_llm
context_recall.llm = my_llm
context_precision.llm = my_llm
ans_relevancy.llm = my_llm
result = evaluate(
fiqa_eval["baseline"].select(range(3)),
metrics=[context_recall, context_precision, ans_relevancy, faithfulness]
)
df = result.to_pandas()
print(df.head())
df.to_csv("result.csv", index=False)
RAGSA 官方的项目为:github.com/explodinggr...
BGE 官方的项目为:github.com/FlagOpen/Fl...
雨飞同行
- 雨飞
- 主业是推荐算法
- 希望通过自媒体开启自己不上班只工作的美好愿景
- 微信:1060687688
- 欢迎和我交朋友🫰
好了,我写完了,有启发的欢迎点赞评论🫰。新的一天,愿阳光洒在你的脸上。