[论文阅读]Distilling ChatGPT for Explainable Automated Student Answer Assessment

Distilling ChatGPT for Explainable Automated Student Answer Assessment

http://arxiv.org/abs/2305.12962

简要概述

文章的背景是 教育领域的学生答题评估,传统的评估需要高成本的人工,随着CHATGPT的发展,研究人员发现这种能够有效处理NLP任务的大语言模型可以有效地在某些方面比人类表现更出众且开销更低。

作者介绍了AERA自动可解释学生问答评估框架,该框架使用Chat GPT作为推理教师,目的是蒸馏出一个更加紧凑的语言模型,使其能够在学生答题评估中生成理由并提高可解释性。

首先设计了几个具有不同教学水平的提示模板,以检验 ChatGPT 在学生答案评估和理由生成方面的能力。

然后利用理由提炼模块提高理由的质量。

最后,在细化数据的基础上对一个较小的语言模型进行微调,以执行答案评估和理由生成。由于没有既定的自动指标来评估没有真实注释的理由的正确性,文章进行了全面的人工评估,对 AERA 生成的理由进行了评估,并与 ChatGPT 生成的理由进行了比较。

实验结果表明,在文中设计的框架内,较小的语言模型在评估性能方面可以超越 ChatGPT,同时生成更准确的理由来解释评估决定。

主要贡献:

  1. 我们提出了一个框架 AERA,将 ChatGPT 的理由生成能力提炼到一个更小的语言模型中;
  2. 我们为 ChatGPT 引入了两种独立提炼理由的策略;
  3. 通过全面的实验和人工评估,我们证明了我们的方法能够生成高质量的理由,而无需为模型学习添加额外的注释。

据我们所知,AERA 是利用 ChatGPT 生成可解释的学生答案评估理由的先驱框架,它使用的语言模型更加紧凑。

方法

我们使用以下符号来描述模型生成过程:X → Y,即模型根据学生的答案直接预测分数;X → Y R,即模型根据学生的答案预测分数并生成理由;XY → R,即学生的答案及其相应分数都交给模型生成理由。在本节的其余部分,我们用绿色标出了评估样本中的示例,用蓝色标出了模型的输出。

1.提示Chat GPT生成理由

使用了收录于EMNLP 2023的TELeR: A General Taxonomy of LLM Prompts for Benchmarking Complex Tasks 文章中提到的提示词技术

1.1简单指导

鉴于学生答案评估任务的复杂性,该提示难度最高。ChatGPT 需要规划评估周期,理解关键要素和评分标准的含义,并适当执行评估,将学生答案与关键要素相匹配,并应用评分标准进行评分和生成理由。

1.2复杂指导

我们设计了更详细的 X → Y R 提示教学,清楚地概述了关键要素和评分标准的功能,并就如何在学生答题评价中应用它们提供了明确的指导。

1.3示例指导

添加了少样本指导CHATGPT的生成

2.数据与理由精炼

鉴于缺乏既定的方法来评估在没有金标注的情况下生成的理由的正确性,我们沿用了之前的一项研究(Ho 等人,2023 年),即如果 LLM 预测的答案得分是正确的,则假设理由支持得分。不过,需要注意的是,ChatGPT 无法保证整个数据集上所有评估分数的正确性。不正确的预测可能来自两种情况:(1) 数据集包含错误的分数标签;或 (2) ChatGPT 的预测是错误的。针对这些情况,我们引入了改进策略,以提高理由生成的成功率。

2.1修复错误标签的数据

ChatGPT 作为一种非确定性语言模型,每次迭代都会产生不同的输出结果。

使用LLM 语义置信区间来计算与生成理由相关的分数的不确定性。

根据我们的观察,与相同评估分数 yˆi 相对应的生成理由 rˆi 在语义上是相似的。因此,每个评估分数 yˆi 的预测概率可以表示为:;其中 S 是所有出现的语义相似的理由的集合,它们共享相同的预测分数。 通过实验,我们证明当分数差异超过 1 时,ChatGPT 所做的高置信度错误评估的金注释可能是错误的。这种方法有助于识别损坏的输入数据和人为标注错误,最终减少数据的不确定性,提高整体数据质量。

2.2用于理由精炼的提示词技术

提出了XY→R推理精炼板块

该模板基于 "示例指令 "提示模板,并将给定分数作为输入,LLM 可以将分数作为先验知识来定位适当的分布,从而生成更准确的理由:

3.蒸馏

使用GPT生成的推理来微调一个小模型,目的是更加有效的推理生成过程。不同于先前蒸馏专注于思维链方式,学生回答评估是一项更加复杂的推理任务,这是由于输入的复杂性

学生模型选用的是Long T5

由于学生答案评估的提示语相对较长,Long T5 能够比常用的基础模型接受更长的输入,同时保持较小的性能下降。我们的微调过程以问题、关键要素、评分标准和学生答案为输入,预测得分并生成理由 X → Y R:

学生问答评估数据集使用的是Short Answer Scoring (ASAP-SAS) 数据集。

baseline:BERT、Longformer、Longformer-all

评价语义相似度使用sacreBLEU评价指标

这篇文章的附录部分给出了非常详细的实验,真的值得一看。

相关推荐
HPC_fac130520678169 分钟前
科研深度学习:如何精选GPU以优化服务器性能
服务器·人工智能·深度学习·神经网络·机器学习·数据挖掘·gpu算力
猎嘤一号1 小时前
个人笔记本安装CUDA并配合Pytorch使用NVIDIA GPU训练神经网络的计算以及CPUvsGPU计算时间的测试代码
人工智能·pytorch·神经网络
天润融通1 小时前
天润融通携手挚达科技:AI技术重塑客户服务体验
人工智能
Elastic 中国社区官方博客3 小时前
使用 Elastic AI Assistant for Search 和 Azure OpenAI 实现从 0 到 60 的转变
大数据·人工智能·elasticsearch·microsoft·搜索引擎·ai·azure
江_小_白4 小时前
自动驾驶之激光雷达
人工智能·机器学习·自动驾驶
yusaisai大鱼5 小时前
TensorFlow如何调用GPU?
人工智能·tensorflow
珠海新立电子科技有限公司8 小时前
FPC柔性线路板与智能生活的融合
人工智能·生活·制造
IT古董8 小时前
【机器学习】机器学习中用到的高等数学知识-8. 图论 (Graph Theory)
人工智能·机器学习·图论
曼城周杰伦8 小时前
自然语言处理:第六十三章 阿里Qwen2 & 2.5系列
人工智能·阿里云·语言模型·自然语言处理·chatgpt·nlp·gpt-3
余炜yw9 小时前
【LSTM实战】跨越千年,赋诗成文:用LSTM重现唐诗的韵律与情感
人工智能·rnn·深度学习