基本信息
作者 | K Papineni | doi | |
---|---|---|---|
发表时间 | 2002 | 期刊 | ACL |
网址 | https://dl.acm.org/doi/pdf/10.3115/1073083.1073135 |
研究背景
1. What's known 既往研究已证实
N-gram的匹配规则,算出比较译文和参考译文之间n组词的相似的一个占比。
2. What's new 创新点
N-gram和惩罚因子。
3. What's are the implications 意义
对机器翻译进行人工评价耗时,人工价格昂贵。自动机器翻译评估方法可以降低成本,并且评估速度提高。
研究方法
1. n-gram精度
即 P 1 P_{1} P1是5/6, P 2 P_{2} P2是3/5。
其中, C o u n t c l i p Count_{clip} Countclip是预防遇到以下情况:
Max_Ref_Count是该单词在这句参考翻译中的出现次数。
2. BP对句子过短加以惩罚
避免输出有风险的单词,所以我们会把句子变短。但这样做并不是一个好的翻译。所以我们对过短的句子加以惩罚。
c是机器译文的词数,r是参考译文的词数
3. bleu最终计算公式
w是权重,如果采用了4-gram,则w_{n}=1/4。
一个高得分的候选翻译现在必须在长度、单词选择和单词顺序上与参考翻译相匹配。
结果与讨论
- bleu翻译评估结构和人工翻译评估相差不大。
个人思考与启发
- (某些词在翻译中很重要,某些词相对没那么重要)BLEU给的权重是相同的,因此存在一些问题:一个参考翻译少了重点单词,另一个参考翻译少了普通单词,但BLEU评分相同。
- 语言存在许多同义词,参考翻译无法完全涵盖所有同义词,使得正确翻译的bleu分数却很低。
机器翻译系统的常见评价指标:https://zhuanlan.zhihu.com/p/258207437
重要图
文献中重要的图记录下来