LLM论文笔记 12: Teaching Arithmetic to Small Transformers

  • Arxiv日期:2023.7.7
  • 机构:University of Wisconsin-Madison / Princeton University

关键词

  • 算数运算推理
  • 长度泛化
  • 实验结论

核心结论

  1. 算数运算NTP中数据格式使用reverse 或者scratchpad格式(CoT)可以显著提高精确度,cot可以显著减小需要的训练数据量
  1. 数据平衡和采样策略:平衡不同位数和进位的sample显著提高性能

  2. 泛化能力:对训练中未见的数值表现出一定的泛化能力,但对未训练的更长位数加法的泛化能力有限(基本没有长度泛化)-> 学习的是一种有限的函数映射,而非灵活的算法

  3. 混合数据训练(文本+算术)+ few shot 显著提高精度

  4. 精心设计的数据格式可以在小模型上提到极高的性能

主要方法

观察到算数运算(加减乘除开根)上简单微调NTP是次优的(如加法123+456=579第一个预测的结果位是5,但是5由7和9决定),提出算数运算上的结构化数据(reverse / scratchpad即cot),以加法为例建模为低秩矩阵补全并提出一定数据量产生性能跃迁。

还发现了平衡不同位数和进位的sample显著提高性能。局限性在于长度泛化几乎不出现。

注:本系列不包括基础的知识点讲解,为笔记/大纲性质而非教程,用于论文知识点和思想和快速记忆和回顾,更多细节建议阅读论文原文

相关推荐
qq_454245037 分钟前
从 UI 操作到环境交互:一种通用元命令自动化协议的设计与意义
人工智能·ui·自动化·交互
love530love11 分钟前
f2 项目(多平台的作品下载与接口数据处理)源码部署记录
人工智能·windows·f2
七夜zippoe11 分钟前
OpenClaw Skills 高级开发指南
服务器·网络·人工智能·skills·openclaw
格林威21 分钟前
工业视觉检测:提供可视化UI调试工具的实现方式是什么?
开发语言·人工智能·数码相机·ui·计算机视觉·视觉检测·工业相机
TImCheng060926 分钟前
零基础AI认证学习路径:线上课程与考试机制分析
人工智能
捧 花27 分钟前
Claude Code 使用指南
人工智能·claude·claude code·superpower
量子-Alex28 分钟前
【大模型】监督微调与强化学习:大型语言模型后训练方法的研究
人工智能·语言模型·自然语言处理
暗夜猎手-大魔王31 分钟前
转载--AI Agent 架构设计:记忆污染(OpenClaw、Claude Code、Hermes Agent 对比)
人工智能
2zcode31 分钟前
面向健身与康复训练的基于深度学习的人体姿态检测与动作纠正系统
人工智能·深度学习·智能电视