LLM(大语言模型)常用评测指标-MAP

MAP (Mean Average Precision)

MAP (平均平均精度) 是一种常用于评估信息检索系统、推荐系统或其他排名模型的性能指标。它特别适用于任务中涉及到返回一组排序结果的场景,如搜索引擎、推荐系统、图像检索等。

计算方法

  1. 计算平均精度 (Average Precision, AP):对于每个查询,首先计算其精度(Precision)在不同截断级别(即不同数量的返回结果)的值,然后计算这些精度值的平均值。精度是指检索到的相关文档数量与检索到的总文档数量的比值。
  2. 计算平均精度的平均值 (Mean AP):对所有查询的平均精度(AP)进行平均。

应用场景

MAP常用于评估搜索引擎、推荐系统、文本检索、图像检索等领域中的模型性能,尤其是在关注排名顶部结果的精确性时。

计算实例

假设有一个推荐系统,它针对两个不同的用户返回了以下推荐结果(这里的"相关"和"不相关"是基于用户偏好预先定义的):

  • 用户 1:
    • 推荐结果:[相关, 不相关, 相关, 不相关, 相关]
  • 用户 2:
    • 推荐结果:[相关, 相关, 不相关, 相关, 不相关]

步骤

  1. 计算每个用户的平均精度 (AP):

    • 对于用户 1:

      • 第一个相关结果的精度 = 1/1
      • 第二个相关结果的精度 = 2/3
      • 第三个相关结果的精度 = 3/5
      • AP1 = (1/1 + 2/3 + 3/5) / 3 = 0.867
    • 对于用户 2:

      • 第一个相关结果的精度 = 1/1
      • 第二个相关结果的精度 = 2/2
      • 第三个相关结果的精度 = 3/4
      • AP2 = (1/1 + 2/2 + 3/4) / 3 = 0.917
  2. 计算 MAP:

    • MAP = (AP1 + AP2) / 2 = (0.867 + 0.917) / 2 = 0.892

因此,在这个例子中,MAP的值是0.892。这意味着在所有返回结果中,模型在这两个用户上的平均表现接近于89.2%的准确率。在实际应用中,通常会对大量用户或查询进行此类计算,以得到更为可靠的平均值。

相关推荐
ai产品老杨1 小时前
企业级AI视频管理平台,内置算法商城,集群管理、标注平台开源了
人工智能·开源·音视频
边缘计算社区1 小时前
谁将主导AI边缘战场?2026中国边缘计算20强榜单征选启动
人工智能·边缘计算
OpenBayes1 小时前
Nemotron Speech ASR低延迟英文实时转写的语音识别服务;GLM-Image开源混合自回归与扩散解码架构的图像生成模型
人工智能·深度学习·机器学习·架构·数据集·语音识别·图像编辑
啊阿狸不会拉杆1 小时前
《机器学习》第 7 章 - 神经网络与深度学习
人工智能·python·深度学习·神经网络·机器学习·ai·ml
星爷AG I1 小时前
9-8 客体构型(AGI基础理论)
人工智能·agi
虹科网络安全1 小时前
艾体宝洞察 | 理解生成式人工智能中的偏见:类型、原因和后果
人工智能
星爷AG I1 小时前
9-7 轮廓感知(AGI基础理论)
人工智能·agi
乌恩大侠1 小时前
【AI-RAN 调研】软银株式会社通过全新 Transformer AI 将 5G AI-RAN 吞吐量提升 30%
人工智能·深度学习·5g·fpga开发·transformer·usrp·mimo
智源研究院官方账号1 小时前
技术详解 | 众智FlagOS1.6:一套系统,打通多框架与多芯片上下适配
人工智能·驱动开发·后端·架构·硬件架构·硬件工程·harmonyos
yuezhilangniao1 小时前
ai开发 名词解释-概念理解-LLMs(大语言模型)Chat Models(聊天模型)Embeddings Models(嵌入模型).
人工智能·语言模型·自然语言处理