文本生成任务评估方法(三):实际业务中如何评估生成模型的好坏?

在前两篇文章中,我们已经介绍了基于统计方法的文本生成评估方案基于 bert 表征的语义匹配评估方法。但在实际业务当中,用上方法,并不能满足评估需求,业务中往往对生成的事实性有较高要求,并且希望每个用户看到的东西不一样,也就是对多样性有较高的要求。接下来,我们将介绍在实际业务中,如何评估生成模型的好坏。

多样性评估:distinct-n

应用场景

在实际应用当中,一般需要生成具有多样性的文案,保证千人千面。例如在电商中的商品标题生成、电商广告中商品文案生成,还有在智能客服场景下,如果一个问题,用户询问了好几次,如果每次回答的内容都一样,那用户体验就会很不好,如果每个轮次生成的答案不同,不仅可以解决用户的问题,也会提高在咨询过程中的满意度。

计算方法

  • 核心思路

    • 主要的想法就是判断同一个句子中,不同的 n-gram 个数,占总的 n-gram 片段的比例,这个比例越高,说明同一个句子的重复度约低;
    • 不同候选集之间也可以按照如上的思路,只是这个 n-gram 片段是所有句子的 n-gram
  • 计算方法

<math xmlns="http://www.w3.org/1998/Math/MathML"> D i s t i n c t ( n ) = C o u n t ( u n i q u e n − g r a m ) / C o u n t ( w o r d ) Distinct(n) = Count(unique n-gram)/Count(word) </math>Distinct(n)=Count(uniquen−gram)/Count(word)

其中,count(word) 表示回复中 n-gram 词语的总数量。

  • 参考代码
ini 复制代码
def get_map(tokens, n, dicts=None):
    token_dict = {}
    if dicts is not None:
        token_dict = dicts
    
    lens = len(tokens)

    for i in range(0, lens - n +1):
        ngram_token = "".join(tokens[i:(i+n)])

        if token_dict.get(ngram_token) is not None:
            token_dict[ngram_token] += 1
        else:
            token_dict[ngram_toal] = 1
    return token_dict

def distinct_ngram(pair, n):
    ngram_toal = 0
    ngram_dsitinct = 0

    pred_dict = {}

    for pred, - in pair:
        get_map(pred, n, pred_dict)
    
    for k, v in pred_dict.items():
        ngram_toal += v
        ngram_dsitinct += 1
    
    return ngram_dsitinct/ngram_toal

# 1-gram
distict1 = distinct_ngram(lists, 1)

人工评测方法

人工评测的方法

人工评测的方法也有很多种,例如:

  • 打分法: 直接让一个标注人员根据标准打分
  • 投票法: 三个人,每个人打分后取平均
  • 对比法: 给出生成的和人工写的,让标注人员判断哪个是机器哪个是人工
人工评测标准

比起打分,大家可能更加关心"如何"打分,毕竟大家遇到比较头疼的是,好像自己也不是很确定评测的标准是什么。这里依照经验给大家一些建议,例如我们在做商品文案生成的时候,可以考虑:

人工评测维度 解释 指标(打分制度)
可读性 生成的句子不流畅、可读性较差; 0分
忠实度 生成的句子流程,无重复截断,但生成句子与输入描述不一致【输出的商品特性和输入「冲突】例如写的是高筒袜子,输出是低筒袜子; 1分
生成句子中存在部分不实信息 2分
语法正确 生成的句子流程、无重复截断、输入输出一致,无大毛病偶尔 存在语法问题,例如鞋子适合搭配鞋子这种 3分
无事实性错误,卖点比较多 生成的句子流程、无重复截断、输入输出一致;无语法错误,无事实性错误(即不存在和商品本身特性冲突的描述) 4分
具有吸引力、有一定的创作 在4分的基础上,有一些额外信息,如更吸引人的文案、输入信息不具备的特性描述(但这些特性是正确的、符合商品客观事实的 5分

除了上面的信息,可以结合业务的特性再加入需要的评估方面

总结

至此,我们已经介绍了基于统计方法,以 BLEU为代表的统计评估方法、以 bert 表征做语义相似度评估的向量方法、多样性评估的自动化方法、还有人工评估方法。 目前,机器翻译任务会看 BLEU,学术界看的比较多。在生成任务中,多样性评估、人工评估依然占据主导地位。人工评测依然有很多可以探索的点,本文给出了自己在实战中的一些经验,希望能给大家一些帮助和启发。

相关推荐
阿坡RPA2 小时前
手搓MCP客户端&服务端:从零到实战极速了解MCP是什么?
人工智能·aigc
用户27784491049932 小时前
借助DeepSeek智能生成测试用例:从提示词到Excel表格的全流程实践
人工智能·python
机器之心2 小时前
刚刚,DeepSeek公布推理时Scaling新论文,R2要来了?
人工智能
算AI4 小时前
人工智能+牙科:临床应用中的几个问题
人工智能·算法
凯子坚持 c5 小时前
基于飞桨框架3.0本地DeepSeek-R1蒸馏版部署实战
人工智能·paddlepaddle
你觉得2055 小时前
哈尔滨工业大学DeepSeek公开课:探索大模型原理、技术与应用从GPT到DeepSeek|附视频与讲义下载方法
大数据·人工智能·python·gpt·学习·机器学习·aigc
8K超高清6 小时前
中国8K摄像机:科技赋能文化传承新图景
大数据·人工智能·科技·物联网·智能硬件
hyshhhh6 小时前
【算法岗面试题】深度学习中如何防止过拟合?
网络·人工智能·深度学习·神经网络·算法·计算机视觉
薛定谔的猫-菜鸟程序员6 小时前
零基础玩转深度神经网络大模型:从Hello World到AI炼金术-详解版(含:Conda 全面使用指南)
人工智能·神经网络·dnn
币之互联万物6 小时前
2025 AI智能数字农业研讨会在苏州启幕,科技助农与数据兴业成焦点
人工智能·科技