深度学习基础—Bleu得分

引言

机器翻译任务中，通常会需要评价指标来评估机器翻译的好坏。仅通过统计翻译词在标准翻译中出现的次数这种方式很不合理，就需要用到Bleu得分来进行评估。

1.n-gram（N元组）

假设要翻译：Le chat est sur le tapis（法语），有两个参考翻译：The cat is on the mat和There is a cat on the mat，机器翻译的是：the the the the the the the。n-gram（N元组）表示N个连续的词组成的组合，比如参考翻译的1中有二元组：The cat、cat is、is on、on the、the mat。使用n-gram可以捕捉一定长度的上下文信息，有助于更好地理解文本和评估翻译质量。

针对机器翻译的内容进行分析，如果只统计译词在参考翻译中出现的次数来评估机器翻译的准确率，那the the the the the the the这个翻译中，每个词都是the，都出现在参考翻译中，准确率7/7=1，这显然是糟糕的翻译。

现在改良评估的方式，在一元组中（1-gram），考虑每个译词在参考翻译中出现的最大次数，比如the在参考翻译1中出现2次，在参考翻译2中出现1次，因此计算的准确率应该是2/7，这个准确率就合理多了。

在二元组中，假设机器翻译的结果为：The cat the cat on the mat，则二元组有：The cat、cat the、the cat、cat on、on the、the mat（忽略大小写），the cat在参考翻译中出现的最大次数是1，cat the在参考翻译中出现的最大次数是0，cat on在参考翻译中出现的最大次数是1，on the在参考翻译中出现的最大次数是1，the mat在参考翻译中出现的最大次数是1，因此计算的准确率为所有二元组最大次数之和/二元组数量：4/6。

现在将一元组推广到N元组，定义如下公式：

其中，n-gram表示机器翻译中的n元组，Count()表示计数函数（对机器翻译结果的n元组计数），CountClip()表示机器翻译中所有n元组在参考翻译中出现的最大次数的计数。

2.Bleu得分

Bleu得分的公式如上，一般计算n元组的精确度再进行组合。BP表示惩罚因子，公式如下：

其中，output表机器翻译的输出，reference表示参考翻译的输出。如果机器翻译的输出大于参考翻译的输出长度，则BP=1；否则，BP<1。因为如果机器翻译很短，那么输出的大部分词语都很可能出现在参考翻译中，准确率就比较高；惩罚因子的作用就是加大对输出短的翻译的乘法力度，从而促进机器翻译更接近参考翻译的长度或更长。

3.优缺点

优点：

（1）方便、快速、结果有参考价值。

（2）与人工评价有较高相关性。

缺点：

（1）不考虑语言表达（语法）上的准确性。

（2）测评精度会受常用词的干扰。

（3）短译句的测评精度有时会较高。

（4）没有考虑同义词或相似表达的情况。

Bleu 得分是一个单一实数评价指标，其在机器翻译和图片描述中应用广泛，用以评价机器生成的语句和实际人工生成的结果是否相近。