NLP | 生成任务指标: BLEU, ROUGE

#苦行僧2023-07-19 12:50

文章目录

1、BLEU：
2、ROUGE：

1、BLEU：

BLEU思想（越大越好）：比较候选译文和参考译文里的 n-gram 的重合程度，重合程度越高就认为译文质量越高。unigram用于衡量单词翻译的准确性，高阶n-gram用于衡量句子翻译的流畅性。

2、ROUGE：

ROUGE (Recall-Oriented Understudy for Gisting Evaluation)专注于召回率（关注有多少个参考译句中的 n- gram出现在了输出之中）而非精度(候选译文中的n-gram有没有在参考译文中出现过)。

rouge-n：基于ngram共现性统计
rouge-l：基于最长公共子序列的共现性召回率和精确率的F1计算
rough-w：带权重的最长公共子序列的的共现性召回率和精确率的F1计算
rouge-s：不连续二元组共现性召回率和精确率的F1计算
一般用：bleu-4, rouge-l, rouge-1, rouge-2

Reference：
https://blog.csdn.net/u012744245/article/details/123589005

上一篇：打造i-SMART智能网联平台，亚马逊云科技助力上汽快速出海

下一篇：Vue-Cli脚手架的安装和使用

热门推荐

01UV安装并设置国内源 02Qwen3-Coder 快速上手教程 | Qwen Code + Claude Code 03【2025.08.06最新版】Android Studio下载、安装及配置记录（自动下载sdk）04KGG转MP3工具|非KGM文件|解密音频 05TRAE 规则（Rules）配置指南：个人习惯、团队规范与最佳实践 062025最新国内服务器可用docker源仓库地址大全（2025年8月更新）07蜘蛛磁力搜索引擎大全，如何使用蜘蛛磁力查找磁力链接 08NVIDIA显卡驱动、CUDA、cuDNN 和 TensorRT 版本匹配指南 09TRAE Rules 实践：为项目配置 6A 工作流 10阿里开源首个图像生成基础模型——Qwen-Image本地部署教程，超强中文渲染能力刷新SOTA！