文本生成类(机器翻译)系统评估

在机器翻译任务中常用评价指标:BLEU、ROGUE、METEOR、PPL。

这些指标的缺点:只能反应模型输出是否类似于测试文本。

BLUE (Bilingual Evaluation Understudy):是用于评估模型生成的句子(candidate)实际句子(reference) 的差异的指标。该指标由IBM于2002年提出。该指标还适用于NLP的其他场景,如:语言生成、图像标题生成、文本生成、语音识别。

Python使用NLTK库实现BLEU的计算。

**ROGUE:**指标是在机器翻译、自动摘要、问答生成等领域常见的评估指标。ROUGE 通过将模型生成的摘要或者回答与参考答案(一般是人工生成的)进行比较计算,得到对应的得分。

Python使用rouge库实现。

METEOR:

PPL(Perplexity):困惑度

参考文章:

机器翻译评价指标BLEU介绍_bleu指标-CSDN博客

相关推荐
子午10 分钟前
基于Python深度学习【眼疾识别】系统设计与实现+人工智能+机器学习+TensorFlow算法
人工智能·python·深度学习
云天徽上1 小时前
【数据可视化-11】全国大学数据可视化分析
人工智能·机器学习·信息可视化·数据挖掘·数据分析
李洋-蛟龙腾飞公司2 小时前
HarmonyOS NEXT 应用开发练习:AI智能语音播报
人工智能·harmonyos
JAMES费3 小时前
《Hands on Large Language Models》(深入浅出大型语言模型)实战书探秘
人工智能·语言模型·自然语言处理
MichaelIp3 小时前
LLM大语言模型中RAG切片阶段改进策略
人工智能·python·语言模型·自然语言处理·chatgpt·embedding·word2vec
XianxinMao3 小时前
MemGPT:赋能大型语言模型的自我记忆管理
人工智能·语言模型
酒酿小圆子~5 小时前
NLP中常见的分词算法(BPE、WordPiece、Unigram、SentencePiece)
人工智能·算法·自然语言处理
新加坡内哥谈技术6 小时前
Virgo:增强慢思考推理能力的多模态大语言模型
人工智能·语言模型·自然语言处理
martian6656 小时前
深入详解人工智能计算机视觉之图像生成与增强:生成对抗网络(GAN)
人工智能·计算机视觉
qq_273900236 小时前
pytorch torch.isclose函数介绍
人工智能·pytorch·python