NLP | 生成任务指标: BLEU, ROUGE

文章目录

1、BLEU:

BLEU思想(越大越好):比较候选译文和参考译文里的 n-gram 的重合程度,重合程度越高就认为译文质量越高。unigram用于衡量单词翻译的准确性,高阶n-gram用于衡量句子翻译的流畅性。

2、ROUGE:

ROUGE (Recall-Oriented Understudy for Gisting Evaluation)专注于召回率(关注有多少个参考译句中的 n- gram出现在了输出之中)而非精度(候选译文中的n-gram有没有在参考译文中出现过)。

  • rouge-n:基于ngram共现性统计
  • rouge-l:基于最长公共子序列的共现性召回率和精确率的F1计算
  • rough-w:带权重的最长公共子序列的的共现性召回率和精确率的F1计算
  • rouge-s:不连续二元组共现性召回率和精确率的F1计算
  • 一般用:bleu-4, rouge-l, rouge-1, rouge-2

Reference:
https://blog.csdn.net/u012744245/article/details/123589005

相关推荐
努力当一个优秀的程序员1 分钟前
3.逻辑回归:从分类到正则化
人工智能·机器学习
小沈熬夜秃头中୧⍤⃝15 分钟前
IOPaint 远程修图:cpolar 内网穿透服务实现跨设备图片编辑
人工智能
Listennnn21 分钟前
ScanNet项目介绍
人工智能
陈哥聊测试22 分钟前
Vibe Coding火了,人人都是程序员?
人工智能·程序员·产品
Jinkxs30 分钟前
AI重塑金融风控:从传统规则到智能模型的信贷审批转型案例
大数据·人工智能
cwn_1 小时前
牛津大学xDeepMind 自然语言处理(1)
人工智能·深度学习·机器学习·自然语言处理
前端双越老师1 小时前
【干货】使用 langChian.js 实现掘金“智能总结” 考虑大文档和 token 限制
人工智能·langchain·node.js
leiya_1631 小时前
私有化部署本地大模型+function Calling+本地数据库
人工智能·ai·大模型
Dajiaonew2 小时前
Spring AI RAG 检索增强 应用
java·人工智能·spring·ai·langchain
z千鑫2 小时前
【OpenAI】 GPT-4o-realtime-preview 多模态、实时交互模型介绍+API的使用教程!
人工智能·gpt·语言模型·aigc