文本生成类(机器翻译)系统评估

在机器翻译任务中常用评价指标:BLEU、ROGUE、METEOR、PPL。

这些指标的缺点:只能反应模型输出是否类似于测试文本。

BLUE (Bilingual Evaluation Understudy):是用于评估模型生成的句子(candidate)实际句子(reference) 的差异的指标。该指标由IBM于2002年提出。该指标还适用于NLP的其他场景,如:语言生成、图像标题生成、文本生成、语音识别。

Python使用NLTK库实现BLEU的计算。

**ROGUE:**指标是在机器翻译、自动摘要、问答生成等领域常见的评估指标。ROUGE 通过将模型生成的摘要或者回答与参考答案(一般是人工生成的)进行比较计算,得到对应的得分。

Python使用rouge库实现。

METEOR:

PPL(Perplexity):困惑度

参考文章:

机器翻译评价指标BLEU介绍_bleu指标-CSDN博客

相关推荐
qq_411262422 分钟前
四博智联 AI 技术方案
人工智能
啊巴矲2 分钟前
小白从零开始勇闯人工智能:机器学习初级篇(线性回归与逻辑回归)
人工智能·机器学习·线性回归
deardao13 分钟前
【时序异常检测综述】十年回顾:深入研究时间序列异常检测
人工智能·机器学习·时间序列·事件检测
Axis tech16 分钟前
SenseGlove R1外骨骼手套专为机器人遥操作设计
人工智能
沫儿笙17 分钟前
弧焊机器人节气设备
人工智能·机器人
百锦再24 分钟前
Python实现开源AI模型引入及测试全过程
人工智能·python·ai·开源·aigc·模型·自然语言
咋吃都不胖lyh30 分钟前
详解 UCB 算法的置信区间与核心逻辑(通俗 + 公式 + 实例)
人工智能·算法·机器学习
造火箭31 分钟前
普通手机使用Open-AutoGLM 感受豆包AI 手机的体验
人工智能·智能手机
Mr.Lee jack31 分钟前
【torch.compile】PyTorch Dynamo 和 Inductor 编译流程
人工智能·pytorch·深度学习
浮不上来33 分钟前
人工兔优化算法(ARO)详解:原理、实现与应用
大数据·人工智能·机器学习·优化算法