技术栈

bleu

twc829
3 天前
算法·大模型·bleu
大模型评估指标简要说明提示词工程再精妙,如果大模型本身性能不达标,也无法产出有效结果。对于测试开发工程师来说,能够量化评估大模型的表现,是选型、调优、验收的基础能力。本文系统梳理大模型评估中最常用的几类指标:常规分类指标(Precision、Recall、F1)和文本生成指标(BLEU、ROUGE),并结合生动例子帮助你真正理解它们的计算逻辑和适用场景。
博士僧小星
1 年前
人工智能·自然语言处理·bleu·rouge·机器翻译
人工智能|自然语言处理——机器翻译评价指标Bleu和Rouge在机器翻译任务中,BLEU 和 ROUGE 是两个常用的评价指标,BLEU 根据精确率(Precision)衡量翻译的质量,而 ROUGE 根据召回率(Recall)衡量翻译的质量
放飞自我的Coder
1 年前
python·自然语言处理·bleu·rouge·jieba分词
【python ROUGE BLEU jiaba.cut NLP常用的指标计算】pip install -U nltk rouge jieba
#苦行僧
3 年前
人工智能·自然语言处理·nlp·生成任务·bleu·rouge
NLP | 生成任务指标: BLEU, ROUGEBLEU思想(越大越好):比较候选译文和参考译文里的 n-gram 的重合程度,重合程度越高就认为译文质量越高。unigram用于衡量单词翻译的准确性,高阶n-gram用于衡量句子翻译的流畅性。
我是有底线的