文本生成类(机器翻译)系统评估

在机器翻译任务中常用评价指标:BLEU、ROGUE、METEOR、PPL。

这些指标的缺点:只能反应模型输出是否类似于测试文本。

BLUE (Bilingual Evaluation Understudy):是用于评估模型生成的句子(candidate)实际句子(reference) 的差异的指标。该指标由IBM于2002年提出。该指标还适用于NLP的其他场景,如:语言生成、图像标题生成、文本生成、语音识别。

Python使用NLTK库实现BLEU的计算。

**ROGUE:**指标是在机器翻译、自动摘要、问答生成等领域常见的评估指标。ROUGE 通过将模型生成的摘要或者回答与参考答案(一般是人工生成的)进行比较计算,得到对应的得分。

Python使用rouge库实现。

METEOR:

PPL(Perplexity):困惑度

参考文章:

机器翻译评价指标BLEU介绍_bleu指标-CSDN博客

相关推荐
I-NullMoneyException22 分钟前
智能语音交互技术深度解析:从原理到产业实践
人工智能
创小匠30 分钟前
创客匠人:AI重构知识IP定位与变现效率新范式
人工智能·tcp/ip·重构
love530love37 分钟前
是否需要预先安装 CUDA Toolkit?——按使用场景分级推荐及进阶说明
linux·运维·前端·人工智能·windows·后端·nlp
SunsPlanter1 小时前
机器学习--分类
人工智能·机器学习·分类
MiaoChuPPT2 小时前
告别手动做PPT!4款AI工具实现自动化生成
人工智能·自动化·powerpoint
硅谷秋水2 小时前
Genie Centurion:通过人工-回放-和-细化指导加速规模化真实世界机器人训练
人工智能·深度学习·计算机视觉·机器人
Allen Bright2 小时前
【机器学习-线性回归-7】中心极限定理在机器学习线性回归中的重要性
人工智能·机器学习·线性回归
Blossom.1182 小时前
基于区块链的去中心化身份验证系统:原理、实现与应用
运维·服务器·网络·人工智能·机器学习·去中心化·区块链
云卓SKYDROID2 小时前
无人机智能运行系统技术解析
人工智能·无人机·科普·高科技·云卓科技
计算机小手2 小时前
FastGPT实战:从0搭建AI知识库与MCP AI Agent系统
人工智能·经验分享·aigc·开源软件