Distilling ChatGPT for Explainable Automated Student Answer Assessment
http://arxiv.org/abs/2305.12962
简要概述
文章的背景是 教育领域的学生答题评估,传统的评估需要高成本的人工,随着CHATGPT的发展,研究人员发现这种能够有效处理NLP任务的大语言模型可以有效地在某些方面比人类表现更出众且开销更低。
作者介绍了AERA自动可解释学生问答评估框架,该框架使用Chat GPT作为推理教师,目的是蒸馏出一个更加紧凑的语言模型,使其能够在学生答题评估中生成理由并提高可解释性。
首先设计了几个具有不同教学水平的提示模板,以检验 ChatGPT 在学生答案评估和理由生成方面的能力。
然后利用理由提炼模块提高理由的质量。
最后,在细化数据的基础上对一个较小的语言模型进行微调,以执行答案评估和理由生成。由于没有既定的自动指标来评估没有真实注释的理由的正确性,文章进行了全面的人工评估,对 AERA 生成的理由进行了评估,并与 ChatGPT 生成的理由进行了比较。
实验结果表明,在文中设计的框架内,较小的语言模型在评估性能方面可以超越 ChatGPT,同时生成更准确的理由来解释评估决定。
主要贡献:
- 我们提出了一个框架 AERA,将 ChatGPT 的理由生成能力提炼到一个更小的语言模型中;
- 我们为 ChatGPT 引入了两种独立提炼理由的策略;
- 通过全面的实验和人工评估,我们证明了我们的方法能够生成高质量的理由,而无需为模型学习添加额外的注释。
据我们所知,AERA 是利用 ChatGPT 生成可解释的学生答案评估理由的先驱框架,它使用的语言模型更加紧凑。
方法
我们使用以下符号来描述模型生成过程:X → Y,即模型根据学生的答案直接预测分数;X → Y R,即模型根据学生的答案预测分数并生成理由;XY → R,即学生的答案及其相应分数都交给模型生成理由。在本节的其余部分,我们用绿色标出了评估样本中的示例,用蓝色标出了模型的输出。
1.提示Chat GPT生成理由
使用了收录于EMNLP 2023的TELeR: A General Taxonomy of LLM Prompts for Benchmarking Complex Tasks 文章中提到的提示词技术
1.1简单指导
鉴于学生答案评估任务的复杂性,该提示难度最高。ChatGPT 需要规划评估周期,理解关键要素和评分标准的含义,并适当执行评估,将学生答案与关键要素相匹配,并应用评分标准进行评分和生成理由。
1.2复杂指导
我们设计了更详细的 X → Y R 提示教学,清楚地概述了关键要素和评分标准的功能,并就如何在学生答题评价中应用它们提供了明确的指导。
1.3示例指导
添加了少样本指导CHATGPT的生成
2.数据与理由精炼
鉴于缺乏既定的方法来评估在没有金标注的情况下生成的理由的正确性,我们沿用了之前的一项研究(Ho 等人,2023 年),即如果 LLM 预测的答案得分是正确的,则假设理由支持得分。不过,需要注意的是,ChatGPT 无法保证整个数据集上所有评估分数的正确性。不正确的预测可能来自两种情况:(1) 数据集包含错误的分数标签;或 (2) ChatGPT 的预测是错误的。针对这些情况,我们引入了改进策略,以提高理由生成的成功率。
2.1修复错误标签的数据
ChatGPT 作为一种非确定性语言模型,每次迭代都会产生不同的输出结果。
使用LLM 语义置信区间来计算与生成理由相关的分数的不确定性。
根据我们的观察,与相同评估分数 yˆi 相对应的生成理由 rˆi 在语义上是相似的。因此,每个评估分数 yˆi 的预测概率可以表示为:;其中 S 是所有出现的语义相似的理由的集合,它们共享相同的预测分数。 通过实验,我们证明当分数差异超过 1 时,ChatGPT 所做的高置信度错误评估的金注释可能是错误的。这种方法有助于识别损坏的输入数据和人为标注错误,最终减少数据的不确定性,提高整体数据质量。
2.2用于理由精炼的提示词技术
提出了XY→R推理精炼板块
该模板基于 "示例指令 "提示模板,并将给定分数作为输入,LLM 可以将分数作为先验知识来定位适当的分布,从而生成更准确的理由:
3.蒸馏
使用GPT生成的推理来微调一个小模型,目的是更加有效的推理生成过程。不同于先前蒸馏专注于思维链方式,学生回答评估是一项更加复杂的推理任务,这是由于输入的复杂性
学生模型选用的是Long T5
由于学生答案评估的提示语相对较长,Long T5 能够比常用的基础模型接受更长的输入,同时保持较小的性能下降。我们的微调过程以问题、关键要素、评分标准和学生答案为输入,预测得分并生成理由 X → Y R:
学生问答评估数据集使用的是Short Answer Scoring (ASAP-SAS) 数据集。
baseline:BERT、Longformer、Longformer-all
评价语义相似度使用sacreBLEU评价指标
这篇文章的附录部分给出了非常详细的实验,真的值得一看。