NLP | 生成任务指标: BLEU, ROUGE

文章目录

1、BLEU:

BLEU思想(越大越好):比较候选译文和参考译文里的 n-gram 的重合程度,重合程度越高就认为译文质量越高。unigram用于衡量单词翻译的准确性,高阶n-gram用于衡量句子翻译的流畅性。

2、ROUGE:

ROUGE (Recall-Oriented Understudy for Gisting Evaluation)专注于召回率(关注有多少个参考译句中的 n- gram出现在了输出之中)而非精度(候选译文中的n-gram有没有在参考译文中出现过)。

  • rouge-n:基于ngram共现性统计
  • rouge-l:基于最长公共子序列的共现性召回率和精确率的F1计算
  • rough-w:带权重的最长公共子序列的的共现性召回率和精确率的F1计算
  • rouge-s:不连续二元组共现性召回率和精确率的F1计算
  • 一般用:bleu-4, rouge-l, rouge-1, rouge-2

Reference:
https://blog.csdn.net/u012744245/article/details/123589005

相关推荐
大模型真好玩2 小时前
LangChain DeepAgents 速通指南(七)—— DeepAgents使用Agent Skill
人工智能·langchain·deepseek
uzong2 小时前
最新:阿里正式发布首款AI开发工具Meoo(秒悟),0门槛、一键部署上线
人工智能·后端
MediaTea2 小时前
ML:数据集、训练集与测试集
人工智能
hughnz2 小时前
钻井RTOC的能力以及趋势
大数据·人工智能
三秋树2 小时前
豆包 Agent Harness 工程师入门 | 第 4 章 子 Agent
人工智能·agent·ai编程
xiaotao1312 小时前
03-深度学习基础:循环神经网络(RNN)
人工智能·深度学习·机器学习
渣渣xiong2 小时前
从零开始:前端转型AI agent直到就业第十四天-第十七天
前端·人工智能
逍遥归来2 小时前
窥探Claude Code源码:Context上下文管理机制
人工智能
workflower2 小时前
机器人应用-楼宇室内巡逻
大数据·人工智能·算法·microsoft·机器人·动态规划·享元模式