文本生成类（机器翻译）系统评估

jiao_mrswang2024-12-02 11:14

在机器翻译任务中常用评价指标：BLEU、ROGUE、METEOR、PPL。

这些指标的缺点：只能反应模型输出是否类似于测试文本。

BLUE （Bilingual Evaluation Understudy）：是用于评估模型生成的句子(candidate)和实际句子(reference) 的差异的指标。该指标由IBM于2002年提出。该指标还适用于NLP的其他场景，如：语言生成、图像标题生成、文本生成、语音识别。

Python使用NLTK库实现BLEU的计算。

**ROGUE：**指标是在机器翻译、自动摘要、问答生成等领域常见的评估指标。ROUGE 通过将模型生成的摘要或者回答与参考答案(一般是人工生成的)进行比较计算，得到对应的得分。

Python使用rouge库实现。

METEOR:

PPL（Perplexity）：困惑度

参考文章：

机器翻译评价指标BLEU介绍_bleu指标-CSDN博客

上一篇：江协科技最新OLED保姆级移植hal库

下一篇：iQOO Neo10系列携三大蓝科技亮相，性能与续航全面升级