文本生成类(机器翻译)系统评估

在机器翻译任务中常用评价指标:BLEU、ROGUE、METEOR、PPL。

这些指标的缺点:只能反应模型输出是否类似于测试文本。

BLUE (Bilingual Evaluation Understudy):是用于评估模型生成的句子(candidate)实际句子(reference) 的差异的指标。该指标由IBM于2002年提出。该指标还适用于NLP的其他场景,如:语言生成、图像标题生成、文本生成、语音识别。

Python使用NLTK库实现BLEU的计算。

**ROGUE:**指标是在机器翻译、自动摘要、问答生成等领域常见的评估指标。ROUGE 通过将模型生成的摘要或者回答与参考答案(一般是人工生成的)进行比较计算,得到对应的得分。

Python使用rouge库实现。

METEOR:

PPL(Perplexity):困惑度

参考文章:

机器翻译评价指标BLEU介绍_bleu指标-CSDN博客

相关推荐
奔跑草-3 分钟前
【AI日报】每日AI最新消息2026-01-28
人工智能·目标检测·机器学习·计算机视觉·产品经理
罗政5 分钟前
AI提取一批Excel单元格内容(快递信息)数据安全,支持断网提取
人工智能·excel
Serverless 社区6 分钟前
探秘 AgentRun丨动态下发+权限隔离,重构 AI Agent 安全体系
人工智能·安全·重构
光羽隹衡6 分钟前
计算机视觉--Opencv(郁金香图像轮廓提取与多边形逼近)
人工智能·opencv·计算机视觉
星海之恋9929 分钟前
比官方便宜一半以上!Midjourney API 申请及使用
人工智能·midjourney
机器学习算法与Python实战10 分钟前
DeepSeek-OCR-2 本地部署,实测
人工智能·ocr
布谷鸟科技cookoo12 分钟前
布谷鸟科技携AI边缘计算产品线亮相韩国ROSCon KOREA 2026
人工智能·科技·ai·边缘计算·交通物流
小雨青年12 分钟前
鸿蒙 HarmonyOS 6 | AI Kit 集成 CANN Kit 异构计算服务
人工智能·华为·harmonyos
AI浩13 分钟前
Python包离线下载
开发语言·人工智能·python·目标检测
草莓熊Lotso15 分钟前
Qt 显示与输入类控件进阶:数字、进度、输入框实战攻略
java·大数据·开发语言·c++·人工智能·qt