nlp生成式任务评价指标

1.ROUGE
原文链接

ROUGE 用作机器翻译评价指标的初衷是这样的:在 SMT(统计机器翻译)时代,机器翻译效果稀烂,需要同时评价翻译的准确度和流畅度;等到 NMT (神经网络机器翻译)出来以后,神经网络脑补能力极强,翻译出的结果都是通顺的,但是有时候容易瞎翻译。

ROUGE的出现很大程度上是为了解决NMT的漏翻问题(低召回率)。所以 ROUGE 只适合评价 NMT,而不适用于 SMT,因为它不管候选译文流不流畅。

2.macro-F1与micro-F1
原文

F1 score的公式:

  • micro-F1:在计算公式中考虑到了每个类别的数量,所以适用于数据分布不平衡的情况;但同时因为考虑到数据的数量,所以在数据极度不平衡的情况下,数量较多数量的类会较大的影响到F1的值;
  • macro-F1:没有考虑到数据的数量,所以会平等的看待每一类(因为每一类的precision和recall都在0-1之间),会相对受高precision和高recall类的影响较大;

3.CHRF
原文

CHRF++其实就是CHRF的改进,所以就更新了,论文是在2017年发表的。而且和CHRF的是同一个作者。

论文解读:

论文开头提到别人研究过β最好为2,这一点论文后面也实验确认过。

CHRF++其实和CHRF差不多。但是CHRF++是字符级和单词级都用到了,然后算一个平均值。

论文中提到别人研究过字符级n-gram的n最好不要超过6,单词级n-gram的n最好不要超过4。

CHRF++的字符级n-gram的n最好是6,单词级n-gram的n最好是1或2。

from nltk.translate.chrf_score import sentence_chrf

ref = 'the cat is on the mat'.split()
hyp = 'the the the the the the the'.split()
sentence_chrf(ref, hyp, min_len=1, max_len=1, beta=3.0)
# 0.48484848484848486

4.JGA

JGA(联合精度)的定义:假设对话有 N 轮,存在轮次 t,t 以及 t 前面的轮次对话轮次全部预测正确,而 t 后没有对话或者 t+1 轮次的对话状态预测错误,由于对话状态是累积的,所以 t+1 后所累积的对话状态一般来说很难预测正确,则该段对话的联合精度为:t/N,如图,在这个例子中,对 B0t 的 6 个正确预测中有 2 个,这使得整个对话的 JGA 得分为 33.33%。(2)从以上结果来看,虽然联合目标精度是评价 DST 的方便指标,但它也有一定的局限性。这个问题的主要来源是真相 Bt 的累积性质。因此,一旦发生了错误的预测,就很难在随后的回合中得到正确的预测。例如,在图 1 中,第 2 轮的预测出现了错误,这影响了以后所有的预测。所以,如果模型错误预测了第一个回合,很可能 JGA 为零。因此,JGA 可以破坏 DST 模型的真正潜力,并提供一个被低估的性能。

5.FEQA

受文本摘要中其他基于问答(QA)的自动度量的启发,Wang等人;Durmus等人【2020;2020】分别提出了基于QA的事实一致性评估指标QAGS和FEQA。这两个指标都是基于这样一种直觉:如果我们对摘要及其源文档提出问题,如果摘要与源文档事实上一致,我们会得到类似的答案。如图4所示,它们都由三个步骤组成:(1)给定生成的摘要,问题生成(QG)模型生成一组关于摘要的问题,这些问题的标准答案是摘要中的命名实体和关键短语。(2) 然后使用问答(QA)模型来回答给定源文档的这些问题。(3) 基于相应答案的相似性来计算事实一致性得分。因为在实体层面评估事实一致性,所以这些方法比基于文本蕴涵的方法更易于解释。QG和QA模型的阅读理解能力使这些方法在这项任务中表现良好。然而,这些方法的计算成本很高。

*

相关推荐
说私域5 分钟前
私域流量的价值探索:开源链动 2+1 模式、AI 智能名片与 S2B2C 商城小程序的助力
人工智能·小程序
申耀的科技观察11 分钟前
【观察】戴尔AI算力加速服务器“焕新上市”,打通AI落地行业“最后一公里”...
大数据·运维·服务器·人工智能
AI大模型训练家29 分钟前
OpenAI的API调用之初探,python调用GPT-API(交互式,支持多轮对话)
人工智能·python·gpt·学习·程序人生·dubbo·agi
奥耶可乐冰31 分钟前
【Prompt Engineering:自我一致性、生成知识提示、链式提示】
人工智能
亦舒.32 分钟前
无限免费使用GPT-4O-mini大模型:开启人工智能新视界
人工智能
FHYAAAX33 分钟前
【机器学习】任务四:使用贝叶斯算法识别葡萄酒类别和使用三种不同的决策树方法(ID3,C4.5,CART)对鸢尾花数据进行分类
人工智能·分类·数据挖掘
有梦想的程序星空36 分钟前
【提示词】浅谈GPT等大模型中的Prompt
人工智能·gpt·自然语言处理·prompt
方世恩1 小时前
孙怡带你深度学习(1)--神经网络
人工智能·python·深度学习·神经网络
赋创小助手1 小时前
AMD EPYC 9004服务器内存配置深度分析:为何全通道填充是关键?
运维·服务器·图像处理·人工智能·深度学习
weighless11291 小时前
小程序语音识别报错:No valid data found in input audio
人工智能·小程序·语音识别