深度学习基础—Bleu得分

引言

机器翻译任务中,通常会需要评价指标来评估机器翻译的好坏。仅通过统计翻译词在标准翻译中出现的次数这种方式很不合理,就需要用到Bleu得分来进行评估。

1.n-gram(N元组)

假设要翻译:Le chat est sur le tapis(法语),有两个参考翻译:The cat is on the mat和There is a cat on the mat,机器翻译的是:the the the the the the the。n-gram(N元组)表示N个连续的词组成的组合,比如参考翻译的1中有二元组:The cat、cat is、is on、on the、the mat。使用n-gram可以捕捉一定长度的上下文信息,有助于更好地理解文本和评估翻译质量。

针对机器翻译的内容进行分析,如果只统计译词在参考翻译中出现的次数来评估机器翻译的准确率,那the the the the the the the这个翻译中,每个词都是the,都出现在参考翻译中,准确率7/7=1,这显然是糟糕的翻译。

现在改良评估的方式,在一元组中(1-gram),考虑每个译词在参考翻译中出现的最大次数,比如the在参考翻译1中出现2次,在参考翻译2中出现1次,因此计算的准确率应该是2/7,这个准确率就合理多了。

在二元组中,假设机器翻译的结果为:The cat the cat on the mat,则二元组有:The cat、cat the、the cat、cat on、on the、the mat(忽略大小写),the cat在参考翻译中出现的最大次数是1,cat the在参考翻译中出现的最大次数是0,cat on在参考翻译中出现的最大次数是1,on the在参考翻译中出现的最大次数是1,the mat在参考翻译中出现的最大次数是1,因此计算的准确率为所有二元组最大次数之和/二元组数量:4/6。

现在将一元组推广到N元组,定义如下公式:

其中,n-gram表示机器翻译中的n元组,Count()表示计数函数(对机器翻译结果的n元组计数),CountClip()表示机器翻译中所有n元组在参考翻译中出现的最大次数的计数。

2.Bleu得分

Bleu得分的公式如上,一般计算n元组的精确度再进行组合。BP表示惩罚因子,公式如下:

其中,output表机器翻译的输出,reference表示参考翻译的输出。如果机器翻译的输出大于参考翻译的输出长度,则BP=1;否则,BP<1。因为如果机器翻译很短,那么输出的大部分词语都很可能出现在参考翻译中,准确率就比较高;惩罚因子的作用就是加大对输出短的翻译的乘法力度,从而促进机器翻译更接近参考翻译的长度或更长。

3.优缺点

优点:

(1)方便、快速、结果有参考价值。

(2)与人工评价有较高相关性。

缺点:

(1)不考虑语言表达(语法)上的准确性。

(2)测评精度会受常用词的干扰。

(3)短译句的测评精度有时会较高。

(4)没有考虑同义词或相似表达的情况。

Bleu 得分是一个单一实数评价指标 ,其在机器翻译和图片描述中应用广泛,用以评价机器生成的语句和实际人工生成的结果是否相近。

相关推荐
Surmon33 分钟前
彻底搞懂大模型 Temperature、Top-p、Top-k 的区别!
前端·人工智能
见行AGV机器人3 小时前
无人机脉动线中的AGV小车
人工智能·无人机·agv·非标定制agv
廋到被风吹走3 小时前
【AI】从 OpenAI Codex 到 GitHub Copilot:AI 编程助手的技术演进脉络
人工智能·github·copilot
newsxun3 小时前
DHA之后,大脑营养进入GPC时代?
人工智能
程序员Better3 小时前
2026年AI大模型选择指南:8大主流模型深度对比,小白秒懂如何选!
人工智能
ai_xiaogui3 小时前
AIStarter新版后端原型图详解:架构全面升级+共享环境一键部署,本地AI模型插件工作流管理新时代来临(2026开发者必看)
人工智能·架构·推动开源ai落地·原型图细节·aistarter新版·aistarter新版原型图·架构全面升级+共享环境一键部署
2501_926978333 小时前
“LLM的智能本质--AGI的可能路径--人类的意识本质”三者的统一基底(5.0理论解读)
人工智能·经验分享·笔记·深度学习·机器学习·ai写作·agi
拾光向日葵3 小时前
2026贵州高职专科报考全问答合集:专业、就业与实力大盘点
大数据·人工智能·物联网
لا معنى له4 小时前
WAM与AC-WM:具身智能时代的世界动作模型与动作条件世界模型
人工智能·笔记·学习
uzong4 小时前
AI Agent 是什么,如何理解它,未来挑战和思考
人工智能·后端·架构