【GPT入门】第38课 RAG评估指标概述

这里写自定义目录标题

一、RAG评估指标

二、ragas 评估

2.1 ragas介绍

复制代码
开源地址:https://github.com/explodinggradients/ragas
官方文档:https://docs.ragas.io/en/stable/

从文本生成和文本召回两个维度,进行分析:

准确性
生成内容的准确性 :评估生成的文本是否准确回答了问题,是否与相关知识源的信息一致。例如,在回答历史事件问题时,生成的内容应准确反映事件的时间、地点、人物等关键信息。
检索结果的准确性 :考查检索模块能否准确地从知识源中找到与问题相关的信息。比如,当用户询问某一科学理论时,检索系统应能精准定位到包含该理论详细解释的相关文献。
相关性
生成内容与问题的相关性 :判断生成的文本与用户提问的主题和意图是否紧密相关。生成的回答不应偏离问题的核心,要围绕问题的关键要点展开。
检索结果与问题的相关性:衡量检索出的知识与问题的匹配程度。检索结果应直接或间接地与问题所涉及的领域、概念等相关,有助于生成准确且相关的回答。

三、trulens

相关推荐
周周爱喝粥呀18 小时前
LLM 中的自回归模型与非自回归模型:GPT 和 BERT 的区别
人工智能·gpt·ai·回归
共绩算力18 小时前
DeepSeek V3.2 迈向 GPT-5 级别性能的路径:稀疏注意力、大规模强化学习与上下文重用
人工智能·gpt·共绩算力
百***243718 小时前
GPT-5.2 vs DeepSeek-V3.2 全维度对比:一步API适配下的研发选型指南
gpt
百***243719 小时前
GPT-5.2与DeepSeek-V3.2选型指南:一步API通用下的全维度技术对比
gpt
维度攻城狮19 小时前
科研提速!Zotero Awesome GPT 搭配本地 Ollama 模型使用指南
gpt·zotero·ollama·awesome gpt
victory04312 天前
同一prompt下 doubao qwen gpt kimi的模型训练时长预测不同表现
gpt·prompt
向量引擎3 天前
【万字硬核】解密GPT-5.2-Pro与Sora2底层架构:从Transformer到世界模型,手撸一个高并发AI中台(附Python源码+压测报告)
人工智能·gpt·ai·aigc·ai编程·ai写作·api调用
程序员佳佳3 天前
【万字硬核】从GPT-5.2到Sora2:深度解构多模态大模型的“物理直觉”与Python全栈落地指南(内含Banana2实测)
开发语言·python·gpt·chatgpt·ai作画·aigc·api
向量引擎4 天前
[架构师级] 压榨GPT-5.2与Sora 2的极限性能:从单体调用到高并发多模态Agent集群的演进之路(附全套Python源码与性能调优方案)
开发语言·人工智能·python·gpt·ai·ai写作·api调用
workflower4 天前
Gpt 5 mini自动识别用例
gpt·测试用例·集成测试·需求分析·软件需求·结对编程