BLEU: a Method for Automatic Evaluation of Machine Translation论文解读

基本信息

作者 K Papineni doi
发表时间 2002 期刊 ACL
网址 https://dl.acm.org/doi/pdf/10.3115/1073083.1073135

研究背景

1. What's known 既往研究已证实

N-gram的匹配规则,算出比较译文和参考译文之间n组词的相似的一个占比。

2. What's new 创新点

N-gram和惩罚因子。

3. What's are the implications 意义

对机器翻译进行人工评价耗时,人工价格昂贵。自动机器翻译评估方法可以降低成本,并且评估速度提高。

研究方法

1. n-gram精度

即 P 1 P_{1} P1是5/6, P 2 P_{2} P2是3/5。

其中, C o u n t c l i p Count_{clip} Countclip是预防遇到以下情况:

Max_Ref_Count是该单词在这句参考翻译中的出现次数。

2. BP对句子过短加以惩罚

避免输出有风险的单词,所以我们会把句子变短。但这样做并不是一个好的翻译。所以我们对过短的句子加以惩罚。

c是机器译文的词数,r是参考译文的词数
3. bleu最终计算公式

w是权重,如果采用了4-gram,则w_{n}=1/4。

一个高得分的候选翻译现在必须在长度、单词选择和单词顺序上与参考翻译相匹配。

结果与讨论

  1. bleu翻译评估结构和人工翻译评估相差不大。

个人思考与启发

  1. (某些词在翻译中很重要,某些词相对没那么重要)BLEU给的权重是相同的,因此存在一些问题:一个参考翻译少了重点单词,另一个参考翻译少了普通单词,但BLEU评分相同。
  2. 语言存在许多同义词,参考翻译无法完全涵盖所有同义词,使得正确翻译的bleu分数却很低。
    机器翻译系统的常见评价指标:https://zhuanlan.zhihu.com/p/258207437

重要图

文献中重要的图记录下来

相关推荐
圆奋奋1 分钟前
让“小爱音箱PRO”智能起来:接入豆包AI
人工智能
aiguangyuan4 分钟前
使用PyTorch和Hugging Face Transformers构建GPT教学演示:从基础原理到实践应用
人工智能·python·nlp
自可乐6 分钟前
Apache Airflow完全学习指南:从入门到精通的系统教程
人工智能·机器学习·apache
说私域7 分钟前
AI智能名片S2B2C商城小程序赋能下线上向线下导流的机制与效果研究——基于线下专属优惠券的视角
人工智能·小程序·流量运营·私域运营
朴实赋能10 分钟前
2026跨境电商生死局:AI大模型重构购物链路,智矩引擎打造品牌出海“自动驾驶”系统
人工智能·社媒矩阵·文旅出海·海外社媒引流·ai大模型跨境电商·shopify独立站引流·社媒矩阵流量创造
啊巴矲11 分钟前
小白从零开始勇闯人工智能:计算机视觉初级篇(OpenCV补充(1))
人工智能·opencv·计算机视觉
铁蛋AI编程实战14 分钟前
Gemini in Chrome 全实战:解锁+API调用+自定义扩展+本地推理
前端·人工智能·chrome
OLOLOadsd12315 分钟前
【深度学习】RetinaNet_RegNetX-800MF_FPN_1x_COCO_金属表面缺陷检测与分类模型解析
人工智能·深度学习·分类
juxieyiyi87817 分钟前
PCDN自建平台,掌握全链路主动权
人工智能·边缘计算·cdn·pcdn·pcdn平台搭建双收益
光羽隹衡17 分钟前
计算机视觉——Opencv(直方图均衡化)
人工智能·opencv·计算机视觉