MT-Metrics

MT-Metrics 是一类用于评估生成文本质量的指标,最初用于机器翻译任务,后来扩展到生成任务(如对话生成、文本摘要等)。它的核心思想是通过比较生成文本与参考文本之间的相似性(如词汇重叠、句法结构、语义相似性)来评估生成质量。

原理
  1. BLEU(Bilingual Evaluation Understudy)

    • 定义:BLEU 通过计算生成文本与参考文本之间的 n-gram 重叠程度来评估生成质量。
    • 公式
      BLEU = BP × exp ⁡ ( ∑ n = 1 N w n log ⁡ p n ) \text{BLEU} = \text{BP} \times \exp\left(\sum_{n=1}^{N} w_n \log p_n\right) BLEU=BP×exp(n=1∑Nwnlogpn)
      其中:
      • BP \text{BP} BP 是 brevity penalty(惩罚过短的生成文本)。
      • p n p_n pn 是 n-gram 的精确率。
      • w n w_n wn 是权重。
    • 示例
      • 生成文本与参考文本有 4 个相同的单词,BLEU 分数会较高。
  2. ROUGE(Recall-Oriented Understudy for Gisting Evaluation)

    • 定义:ROUGE 通过计算生成文本与参考文本之间的词汇重叠(尤其是召回率)来评估生成质量。
    • 公式
      ROUGE = 生成文本与参考文本的词汇重叠数 参考文本的词汇总数 \text{ROUGE} = \frac{\text{生成文本与参考文本的词汇重叠数}}{\text{参考文本的词汇总数}} ROUGE=参考文本的词汇总数生成文本与参考文本的词汇重叠数
    • 示例
      • 生成文本与参考文本有 5 个相同的单词,参考文本共有 10 个单词,则 ROUGE 分数为 50%。
  3. METEOR

    • 定义:METEOR 结合精确匹配、同义词匹配和句法结构匹配,评估生成文本的质量。
    • 公式
      METEOR = 精确匹配数 + 同义词匹配数 + 句法匹配数 生成文本的词汇总数 \text{METEOR} = \frac{\text{精确匹配数} + \text{同义词匹配数} + \text{句法匹配数}}{\text{生成文本的词汇总数}} METEOR=生成文本的词汇总数精确匹配数+同义词匹配数+句法匹配数
    • 示例
      • 生成文本与参考文本有 3 个精确匹配、2 个同义词匹配,生成文本共有 10 个单词,则 METEOR 分数为 50%。
  4. BERTScore

    • 定义:BERTScore 基于预训练的 BERT 模型,计算生成文本与参考文本之间的语义相似性。
    • 公式
      BERTScore = 1 N ∑ i = 1 N cosine_similarity ( BERT ( w i ) , BERT ( w i ′ ) ) \text{BERTScore} = \frac{1}{N} \sum_{i=1}^{N} \text{cosine\_similarity}(\text{BERT}(w_i), \text{BERT}(w_i')) BERTScore=N1i=1∑Ncosine_similarity(BERT(wi),BERT(wi′))
      其中:
      • w i w_i wi 是生成文本的单词。
      • w i ′ w_i' wi′ 是参考文本的单词。
    • 示例
      • 生成文本与参考文本的语义相似性较高,BERTScore 分数较高。
适用场景
  • 开放性问题:例如生成任务(对话生成、文本摘要、故事生成等)。
  • 无标准答案的任务:例如创意写作、长文本生成等。
相关推荐
c#上位机2 分钟前
halcon图像腐蚀—erosion1
图像处理·人工智能·计算机视觉
物流可信数据空间3 分钟前
数据要素×数智住建:可信数据空间筑牢底座 “数据+AI”激活变革新动能
人工智能
wshzd3 分钟前
LLM之Agent(三十七)|AI Agents(六):AI Agents架构
人工智能·架构
阿桂天山4 分钟前
怎样让数据资产灵动起来
大数据·人工智能
知行力4 分钟前
AI一周资讯 251129-251205
人工智能·chatgpt
老赵聊算法、大模型备案6 分钟前
新规解读|《公安机关网络空间安全监督检查办法(征求意见稿)》发布,AI与互联网企业需重点关注哪些合规义务?
人工智能·安全·web安全
艾莉丝努力练剑10 分钟前
【Python基础:语法第三课】Python 函数详解:定义、参数、返回值与作用域
服务器·人工智能·windows·python·pycharm
丝斯201111 分钟前
AI学习笔记整理(29)—— 计算机视觉之人体姿态估计相关算法
人工智能·笔记·学习
biyezuopinvip11 分钟前
图像处理报告基于CNN的监控视频流的课堂签到系统
图像处理·人工智能·cnn·图像处理报告·基于cnn的·监控视频流的·课堂签到系统
xixixi7777714 分钟前
二值化——将具有丰富灰度或彩色信息的图像,转换为仅由两种像素值(通常是0和1,或0和255) 组成的图像,即黑白图像
网络·图像处理·人工智能·学习·计算机视觉·信息与通信