NLP | 生成任务指标: BLEU, ROUGE

文章目录

1、BLEU:

BLEU思想(越大越好):比较候选译文和参考译文里的 n-gram 的重合程度,重合程度越高就认为译文质量越高。unigram用于衡量单词翻译的准确性,高阶n-gram用于衡量句子翻译的流畅性。

2、ROUGE:

ROUGE (Recall-Oriented Understudy for Gisting Evaluation)专注于召回率(关注有多少个参考译句中的 n- gram出现在了输出之中)而非精度(候选译文中的n-gram有没有在参考译文中出现过)。

  • rouge-n:基于ngram共现性统计
  • rouge-l:基于最长公共子序列的共现性召回率和精确率的F1计算
  • rough-w:带权重的最长公共子序列的的共现性召回率和精确率的F1计算
  • rouge-s:不连续二元组共现性召回率和精确率的F1计算
  • 一般用:bleu-4, rouge-l, rouge-1, rouge-2

Reference:
https://blog.csdn.net/u012744245/article/details/123589005

相关推荐
码农胖大海9 小时前
AI额度不够用的解决方案
人工智能
后端小肥肠9 小时前
小红书虚拟商品怎么做?我先用 Skill 跑通了壁纸品类
人工智能·aigc·agent
feiyu_gao9 小时前
从零搭建个人 AI 工作台:一个管理者的 3 个月实验
人工智能·aigc·团队管理
程序员cxuan10 小时前
一句话,让你用上 GPT-5.6
人工智能·后端·程序员
机器之心10 小时前
AI圈刚开始谈Loop Engineering,两位95后博士已经盯上了人类闭环数据
人工智能·openai
澄旭10 小时前
一文讲清 MCP:AI 应用连接外部世界的标准协议
人工智能
机器之心10 小时前
不只DeepSeek,阶跃等开源JetSpec:大模型解码提速近10倍
人工智能·openai
moMo11 小时前
当LLM学会"递纸条",AI是如何调用工具的
人工智能
拾年27511 小时前
大模型的"聪明"从哪来?聊聊 AI 数据集的那些事儿
人工智能·深度学习·机器学习