LLM论文笔记 12: Teaching Arithmetic to Small Transformers

  • Arxiv日期:2023.7.7
  • 机构:University of Wisconsin-Madison / Princeton University

关键词

  • 算数运算推理
  • 长度泛化
  • 实验结论

核心结论

  1. 算数运算NTP中数据格式使用reverse 或者scratchpad格式(CoT)可以显著提高精确度,cot可以显著减小需要的训练数据量
  1. 数据平衡和采样策略:平衡不同位数和进位的sample显著提高性能

  2. 泛化能力:对训练中未见的数值表现出一定的泛化能力,但对未训练的更长位数加法的泛化能力有限(基本没有长度泛化)-> 学习的是一种有限的函数映射,而非灵活的算法

  3. 混合数据训练(文本+算术)+ few shot 显著提高精度

  4. 精心设计的数据格式可以在小模型上提到极高的性能

主要方法

观察到算数运算(加减乘除开根)上简单微调NTP是次优的(如加法123+456=579第一个预测的结果位是5,但是5由7和9决定),提出算数运算上的结构化数据(reverse / scratchpad即cot),以加法为例建模为低秩矩阵补全并提出一定数据量产生性能跃迁。

还发现了平衡不同位数和进位的sample显著提高性能。局限性在于长度泛化几乎不出现。

注:本系列不包括基础的知识点讲解,为笔记/大纲性质而非教程,用于论文知识点和思想和快速记忆和回顾,更多细节建议阅读论文原文

相关推荐
子燕若水1 小时前
Unreal Engine 5中的AI知识
人工智能
极限实验室2 小时前
Coco AI 实战(一):Coco Server Linux 平台部署
人工智能
杨过过儿2 小时前
【学习笔记】4.1 什么是 LLM
人工智能
巴伦是只猫2 小时前
【机器学习笔记Ⅰ】13 正则化代价函数
人工智能·笔记·机器学习
伍哥的传说2 小时前
React 各颜色转换方法、颜色值换算工具HEX、RGB/RGBA、HSL/HSLA、HSV、CMYK
深度学习·神经网络·react.js
大千AI助手2 小时前
DTW模版匹配:弹性对齐的时间序列相似度度量算法
人工智能·算法·机器学习·数据挖掘·模版匹配·dtw模版匹配
AI生存日记3 小时前
百度文心大模型 4.5 系列全面开源 英特尔同步支持端侧部署
人工智能·百度·开源·open ai大模型
LCG元3 小时前
自动驾驶感知模块的多模态数据融合:时序同步与空间对齐的框架解析
人工智能·机器学习·自动驾驶
why技术3 小时前
Stack Overflow,轰然倒下!
前端·人工智能·后端