LLM论文笔记 12: Teaching Arithmetic to Small Transformers

  • Arxiv日期:2023.7.7
  • 机构:University of Wisconsin-Madison / Princeton University

关键词

  • 算数运算推理
  • 长度泛化
  • 实验结论

核心结论

  1. 算数运算NTP中数据格式使用reverse 或者scratchpad格式(CoT)可以显著提高精确度,cot可以显著减小需要的训练数据量
  1. 数据平衡和采样策略:平衡不同位数和进位的sample显著提高性能

  2. 泛化能力:对训练中未见的数值表现出一定的泛化能力,但对未训练的更长位数加法的泛化能力有限(基本没有长度泛化)-> 学习的是一种有限的函数映射,而非灵活的算法

  3. 混合数据训练(文本+算术)+ few shot 显著提高精度

  4. 精心设计的数据格式可以在小模型上提到极高的性能

主要方法

观察到算数运算(加减乘除开根)上简单微调NTP是次优的(如加法123+456=579第一个预测的结果位是5,但是5由7和9决定),提出算数运算上的结构化数据(reverse / scratchpad即cot),以加法为例建模为低秩矩阵补全并提出一定数据量产生性能跃迁。

还发现了平衡不同位数和进位的sample显著提高性能。局限性在于长度泛化几乎不出现。

注:本系列不包括基础的知识点讲解,为笔记/大纲性质而非教程,用于论文知识点和思想和快速记忆和回顾,更多细节建议阅读论文原文

相关推荐
长相忆兮长相忆3 分钟前
【推荐算法】PRM重排模型:Personalized Re-ranking for Recommendation
深度学习·机器学习·推荐算法
没有梦想的咸鱼185-1037-16634 分钟前
【降尺度】基于统计方法与机器学习技术在气候降尺度中的实践应用
人工智能·机器学习·数据分析
skyfengye4 分钟前
DC2T:用于半监督跨站点持续分割的解缠引导整合与一致性训练
人工智能·计算机视觉
九河云12 分钟前
华为云能源行业云边协同:构筑新能源电站智能运维新基座
人工智能·华为云·数字化转型
SkyPhy - 格物智慧15 分钟前
英伟达收购SchedMD深度解析:完成AI基础设施垂直整合的最后一块拼图
人工智能
这张生成的图像能检测吗17 分钟前
(论文速读)RoShuNet:一个轻量级的基于卷积神经网络的可见图像特征提取器
人工智能·深度学习·计算机视觉·语义分割·目标追踪·分类模型
ApiHug19 分钟前
智能采购新革命:真惠采——让工业品采购降本增效双突破
大数据·人工智能
得贤招聘官32 分钟前
告别“感觉选人”:AI重构招聘的效率、精准与体验闭环
人工智能·重构
Jerryhut34 分钟前
Opencv总结2——图像金字塔与轮廓检测
人工智能·opencv·计算机视觉
数字孪生家族35 分钟前
视频+数字孪生技术在隧道智慧综合管控平台中的典型应用
人工智能·视频孪生技术·智慧隧道建设·数字孪生交通·空间智能应用