NLP | 生成任务指标: BLEU, ROUGE

文章目录

1、BLEU:

BLEU思想(越大越好):比较候选译文和参考译文里的 n-gram 的重合程度,重合程度越高就认为译文质量越高。unigram用于衡量单词翻译的准确性,高阶n-gram用于衡量句子翻译的流畅性。

2、ROUGE:

ROUGE (Recall-Oriented Understudy for Gisting Evaluation)专注于召回率(关注有多少个参考译句中的 n- gram出现在了输出之中)而非精度(候选译文中的n-gram有没有在参考译文中出现过)。

  • rouge-n:基于ngram共现性统计
  • rouge-l:基于最长公共子序列的共现性召回率和精确率的F1计算
  • rough-w:带权重的最长公共子序列的的共现性召回率和精确率的F1计算
  • rouge-s:不连续二元组共现性召回率和精确率的F1计算
  • 一般用:bleu-4, rouge-l, rouge-1, rouge-2

Reference:
https://blog.csdn.net/u012744245/article/details/123589005

相关推荐
TOWE technology4 小时前
同为科技定制PDU赋能智联未来
人工智能·科技·物联网·数据中心·idc·智能pdu·定制pdu
小叮当⇔4 小时前
安信可(Ai-Thinker)WiFi系列模块全解析:选型指南与应用洞察
人工智能·物联网·wifi·乐鑫
极客BIM工作室4 小时前
变分自编码器(VAE):用概率解锁生成式AI的“基因密码”
人工智能
rengang665 小时前
106-Spring AI Alibaba RAG ETL Pipeline 完整案例
人工智能·spring·etl·rag·spring ai·ai应用编程
一碗绿豆汤5 小时前
机器学习第一阶段
人工智能·笔记·机器学习
与开发同行5 小时前
大语言模型是如何听懂并会说人话的
人工智能
倔强青铜三5 小时前
苦练Python第71天:一行代码就搭出服务器?别眨眼,http.server真有这么爽!
人工智能·python·面试
倔强青铜三5 小时前
苦练Python第70天:征服网络请求!揭开urllib.request的神秘面纱
人工智能·python·面试
倔强青铜三5 小时前
苦练Python第72天:colorsys 模块 10 分钟入门,让你的代码瞬间“好色”!
人工智能·python·面试
MicroTech20255 小时前
MLGO微算法科技发布多用户协同推理批处理优化系统,重构AI推理服务效率与能耗新标准
人工智能·科技·算法