bleu

大模型评估指标简要说明提示词工程再精妙，如果大模型本身性能不达标，也无法产出有效结果。对于测试开发工程师来说，能够量化评估大模型的表现，是选型、调优、验收的基础能力。本文系统梳理大模型评估中最常用的几类指标：常规分类指标（Precision、Recall、F1）和文本生成指标（BLEU、ROUGE），并结合生动例子帮助你真正理解它们的计算逻辑和适用场景。

博士僧小星

人工智能|自然语言处理——机器翻译评价指标Bleu和Rouge在机器翻译任务中，BLEU 和 ROUGE 是两个常用的评价指标，BLEU 根据精确率(Precision)衡量翻译的质量，而 ROUGE 根据召回率(Recall)衡量翻译的质量

放飞自我的Coder

【python ROUGE BLEU jiaba.cut NLP常用的指标计算】pip install -U nltk rouge jieba

NLP | 生成任务指标: BLEU, ROUGEBLEU思想（越大越好）：比较候选译文和参考译文里的 n-gram 的重合程度，重合程度越高就认为译文质量越高。unigram用于衡量单词翻译的准确性，高阶n-gram用于衡量句子翻译的流畅性。

我是有底线的