BLEU: a Method for Automatic Evaluation of Machine Translation论文解读

基本信息

作者 K Papineni doi
发表时间 2002 期刊 ACL
网址 https://dl.acm.org/doi/pdf/10.3115/1073083.1073135

研究背景

1. What's known 既往研究已证实

N-gram的匹配规则,算出比较译文和参考译文之间n组词的相似的一个占比。

2. What's new 创新点

N-gram和惩罚因子。

3. What's are the implications 意义

对机器翻译进行人工评价耗时,人工价格昂贵。自动机器翻译评估方法可以降低成本,并且评估速度提高。

研究方法

1. n-gram精度

即 P 1 P_{1} P1是5/6, P 2 P_{2} P2是3/5。

其中, C o u n t c l i p Count_{clip} Countclip是预防遇到以下情况:

Max_Ref_Count是该单词在这句参考翻译中的出现次数。

2. BP对句子过短加以惩罚

避免输出有风险的单词,所以我们会把句子变短。但这样做并不是一个好的翻译。所以我们对过短的句子加以惩罚。

c是机器译文的词数,r是参考译文的词数
3. bleu最终计算公式

w是权重,如果采用了4-gram,则w_{n}=1/4。

一个高得分的候选翻译现在必须在长度、单词选择和单词顺序上与参考翻译相匹配。

结果与讨论

  1. bleu翻译评估结构和人工翻译评估相差不大。

个人思考与启发

  1. (某些词在翻译中很重要,某些词相对没那么重要)BLEU给的权重是相同的,因此存在一些问题:一个参考翻译少了重点单词,另一个参考翻译少了普通单词,但BLEU评分相同。
  2. 语言存在许多同义词,参考翻译无法完全涵盖所有同义词,使得正确翻译的bleu分数却很低。
    机器翻译系统的常见评价指标:https://zhuanlan.zhihu.com/p/258207437

重要图

文献中重要的图记录下来

相关推荐
币之互联万物4 分钟前
2025 AI智能数字农业研讨会在苏州启幕,科技助农与数据兴业成焦点
人工智能·科技
云卓SKYDROID5 分钟前
科技赋能消防:无人机“挂弹灭火“构筑森林防火墙!
人工智能·科技·无人机·科普·云卓科技
gaoshengdainzi16 分钟前
镜片防雾性能测试仪在自动驾驶与无人机领域的创新应用
人工智能·自动驾驶·无人机·镜片防雾性能测试仪
Listennnn39 分钟前
优雅的理解神经网络中的“分段线性单元”,解剖前向和反向传播
人工智能·深度学习·神经网络
云卓SKYDROID1 小时前
无人机机体结构设计要点与难点!
人工智能·科技·无人机·科普·云卓科技
誉鏐1 小时前
PyTorch复现线性模型
人工智能·pytorch·python
我要昵称干什么1 小时前
基于S函数的simulink仿真
人工智能·算法
向上的车轮1 小时前
NOA是什么?国内自动驾驶技术的现状是怎么样的?
人工智能·机器学习·自动驾驶
AndrewHZ2 小时前
【图像处理基石】什么是tone mapping?
图像处理·人工智能·算法·计算机视觉·hdr
Ai尚研修-贾莲2 小时前
基于DeepSeek、ChatGPT支持下的地质灾害风险评估、易发性分析、信息化建库及灾后重建
人工智能·chatgpt