文本生成类(机器翻译)系统评估

在机器翻译任务中常用评价指标:BLEU、ROGUE、METEOR、PPL。

这些指标的缺点:只能反应模型输出是否类似于测试文本。

BLUE (Bilingual Evaluation Understudy):是用于评估模型生成的句子(candidate)实际句子(reference) 的差异的指标。该指标由IBM于2002年提出。该指标还适用于NLP的其他场景,如:语言生成、图像标题生成、文本生成、语音识别。

Python使用NLTK库实现BLEU的计算。

**ROGUE:**指标是在机器翻译、自动摘要、问答生成等领域常见的评估指标。ROUGE 通过将模型生成的摘要或者回答与参考答案(一般是人工生成的)进行比较计算,得到对应的得分。

Python使用rouge库实现。

METEOR:

PPL(Perplexity):困惑度

参考文章:

机器翻译评价指标BLEU介绍_bleu指标-CSDN博客

相关推荐
机器之心14 分钟前
Agent狂欢下的冷思考:为什么说Data&AI数据基础设施,才是AI时代Infra新范式
人工智能·openai
不焦躁的程序员17 分钟前
选择gpt-5还是claude-4-sonnect
人工智能·gpt·cursor
算家计算22 分钟前
阿里开源首个图像生成基础模型——Qwen-Image本地部署教程,超强中文渲染能力刷新SOTA!
人工智能·开源·aigc
汀丶人工智能27 分钟前
AI Compass前沿速览:RynnVLA视觉-语言-动作模型、GLM-4.5V 、DreamVVT虚拟换衣、 WeKnora框架、GitMCP、Neural
人工智能
聚客AI1 小时前
👉FastMCP深度解析:ctx.sample() 如何实现LLM任务逆向委托
人工智能·llm·mcp
京东零售技术1 小时前
Text2SQL准确率暴涨22.6%!3大维度全拆
人工智能
去伪存真1 小时前
手把手教你实现用AI大模型做代码审查
前端·人工智能
京东零售技术1 小时前
4个月、2个人、1个霸榜的开源项目 !这位98年的校招生做到了!
人工智能
洛华3631 小时前
初识神经网络04——构建神经网络2
人工智能·深度学习·神经网络
BricheersZ1 小时前
LangChain4J-(1)-Hello World
java·人工智能·langchain