NLP | 生成任务指标: BLEU, ROUGE

文章目录

1、BLEU:

BLEU思想(越大越好):比较候选译文和参考译文里的 n-gram 的重合程度,重合程度越高就认为译文质量越高。unigram用于衡量单词翻译的准确性,高阶n-gram用于衡量句子翻译的流畅性。

2、ROUGE:

ROUGE (Recall-Oriented Understudy for Gisting Evaluation)专注于召回率(关注有多少个参考译句中的 n- gram出现在了输出之中)而非精度(候选译文中的n-gram有没有在参考译文中出现过)。

  • rouge-n:基于ngram共现性统计
  • rouge-l:基于最长公共子序列的共现性召回率和精确率的F1计算
  • rough-w:带权重的最长公共子序列的的共现性召回率和精确率的F1计算
  • rouge-s:不连续二元组共现性召回率和精确率的F1计算
  • 一般用:bleu-4, rouge-l, rouge-1, rouge-2

Reference:
https://blog.csdn.net/u012744245/article/details/123589005

相关推荐
果汁华3 分钟前
AI产品的上层建筑:提示词工程、RAG与Agent
人工智能
Mr.Winter`6 分钟前
深度强化学习 | 基于优先级经验池的DQN算法(附Pytorch实现)
人工智能·pytorch·神经网络·机器学习·机器人·强化学习
LaughingZhu8 分钟前
PH热榜 | 2025-03-30
前端·数据库·人工智能·经验分享·mysql·搜索引擎·产品运营
AI架构师易筋34 分钟前
翻译: 人工智能如何让世界变得更美好三
人工智能
gs8014040 分钟前
Faster-Whisper —— 为语音识别加速的利器
人工智能·whisper·语音识别
云卓SKYDROID41 分钟前
无人机测控系统运行设置与职责!
人工智能·科技·无人机·科普·云卓科技
观默42 分钟前
AI 时代的 10 倍速学习指南
人工智能·程序员
风暴之零42 分钟前
使用大语言模型进行Python图表可视化
人工智能·python·语言模型·数据可视化
AI_Auto1 小时前
AI Agent系列(八) -基于ReAct架构的前端开发助手(DeepSeek)
人工智能·react·ai agent
东坡肘子1 小时前
MCP 崛起与苹果的 AI 框架设想 | 肘子的 Swift 周报 #077
人工智能·swiftui·swift