【GPT入门】第38课 RAG评估指标概述

这里写自定义目录标题

一、RAG评估指标

二、ragas 评估

2.1 ragas介绍

复制代码
开源地址:https://github.com/explodinggradients/ragas
官方文档:https://docs.ragas.io/en/stable/

从文本生成和文本召回两个维度,进行分析:

准确性
生成内容的准确性 :评估生成的文本是否准确回答了问题,是否与相关知识源的信息一致。例如,在回答历史事件问题时,生成的内容应准确反映事件的时间、地点、人物等关键信息。
检索结果的准确性 :考查检索模块能否准确地从知识源中找到与问题相关的信息。比如,当用户询问某一科学理论时,检索系统应能精准定位到包含该理论详细解释的相关文献。
相关性
生成内容与问题的相关性 :判断生成的文本与用户提问的主题和意图是否紧密相关。生成的回答不应偏离问题的核心,要围绕问题的关键要点展开。
检索结果与问题的相关性:衡量检索出的知识与问题的匹配程度。检索结果应直接或间接地与问题所涉及的领域、概念等相关,有助于生成准确且相关的回答。

三、trulens

相关推荐
迈火4 小时前
SD - Latent - Interposer:解锁Stable Diffusion潜在空间的创意工具
人工智能·gpt·计算机视觉·stable diffusion·aigc·语音识别·midjourney
空中楼阁,梦幻泡影14 小时前
主流4 大模型(GPT、LLaMA、DeepSeek、QWE)的训练与推理算力估算实例详细数据
人工智能·gpt·llama
晓晓不觉早2 天前
OpenAI Codex App的推出:多代理工作流的新时代
人工智能·gpt
kebijuelun2 天前
Towards Automated Kernel Generation in the Era of LLMs:LLM 时代的自动化 Kernel 生成全景图
人工智能·gpt·深度学习·语言模型
卖芒果的潇洒农民4 天前
20260201 GPT VPC中的CIDR Block 概念
笔记·gpt
薛定谔的猫19824 天前
二十、使用PyTorch和Hugging Face Transformers训练中文GPT-2模型的技术实践
人工智能·pytorch·gpt
向量引擎小橙6 天前
Google 帝国的绝地反击:Gemini 3 深度硬核测评——GPT-5 的噩梦来了吗?
开发语言·人工智能·gpt·深度学习·机器学习
原来是你~呀~6 天前
Kali GPT - 人工智能渗透测试助手Linux部署
linux·人工智能·gpt·网络安全·自动化渗透测试
康康的AI博客7 天前
2026 OpenAI技术全景:GPT-5.2领衔的AI革命与DMXAPI无缝替代方案
人工智能·gpt
范桂飓7 天前
Transformer 大模型架构深度解析(5)GPT 与 LLM 大语言模型技术解析
人工智能·gpt·语言模型·transformer