NLP | 生成任务指标: BLEU, ROUGE

文章目录

1、BLEU:

BLEU思想(越大越好):比较候选译文和参考译文里的 n-gram 的重合程度,重合程度越高就认为译文质量越高。unigram用于衡量单词翻译的准确性,高阶n-gram用于衡量句子翻译的流畅性。

2、ROUGE:

ROUGE (Recall-Oriented Understudy for Gisting Evaluation)专注于召回率(关注有多少个参考译句中的 n- gram出现在了输出之中)而非精度(候选译文中的n-gram有没有在参考译文中出现过)。

  • rouge-n:基于ngram共现性统计
  • rouge-l:基于最长公共子序列的共现性召回率和精确率的F1计算
  • rough-w:带权重的最长公共子序列的的共现性召回率和精确率的F1计算
  • rouge-s:不连续二元组共现性召回率和精确率的F1计算
  • 一般用:bleu-4, rouge-l, rouge-1, rouge-2

Reference:
https://blog.csdn.net/u012744245/article/details/123589005

相关推荐
秦歌66623 分钟前
DeepAgents框架详解和文件后端
人工智能·langchain
测试员周周1 小时前
【Appium 系列】第06节-页面对象实现 — LoginPage 实战
开发语言·前端·人工智能·python·功能测试·appium·测试用例
霸道流氓气质1 小时前
基于 Milvus Lite 的 Spring AI RAG 向量库实践方案与示例
人工智能·spring·milvus
ar01231 小时前
AR巡检平台:构筑智能巡检新模式的数字化引擎
人工智能·ar
语音之家1 小时前
【预讲会征集】ACL 2026 论文预讲会
人工智能·论文·acl
碳基硅坊1 小时前
电商场景下的商品自动识别与辅助上架
人工智能
熊猫钓鱼>_>2 小时前
强化学习与决策优化:从理论到工程落地的完整指南
人工智能·llm·强化学习·rl·马尔可夫·mdp·决策过程
-柚子皮-2 小时前
强化学习DPO算法
人工智能
tzc_fly2 小时前
AnisoAlign:各向异性模态对齐
人工智能·深度学习·机器学习