LLM论文笔记 12: Teaching Arithmetic to Small Transformers

Zhouqi_Hua2025-02-20 19:34

Arxiv日期：2023.7.7

机构：University of Wisconsin-Madison / Princeton University

数据平衡和采样策略：平衡不同位数和进位的sample显著提高性能
泛化能力：对训练中未见的数值表现出一定的泛化能力，但对未训练的更长位数加法的泛化能力有限（基本没有长度泛化）-> 学习的是一种有限的函数映射，而非灵活的算法
混合数据训练（文本+算术）+ few shot 显著提高精度
精心设计的数据格式可以在小模型上提到极高的性能

观察到算数运算（加减乘除开根）上简单微调NTP是次优的（如加法123+456=579第一个预测的结果位是5，但是5由7和9决定），提出算数运算上的结构化数据（reverse / scratchpad即cot），以加法为例建模为低秩矩阵补全并提出一定数据量产生性能跃迁。

还发现了平衡不同位数和进位的sample显著提高性能。局限性在于长度泛化几乎不出现。

注：本系列不包括基础的知识点讲解，为笔记/大纲性质而非教程，用于论文知识点和思想和快速记忆和回顾，更多细节建议阅读论文原文