LLM论文笔记 12: Teaching Arithmetic to Small Transformers

  • Arxiv日期:2023.7.7
  • 机构:University of Wisconsin-Madison / Princeton University

关键词

  • 算数运算推理
  • 长度泛化
  • 实验结论

核心结论

  1. 算数运算NTP中数据格式使用reverse 或者scratchpad格式(CoT)可以显著提高精确度,cot可以显著减小需要的训练数据量
  1. 数据平衡和采样策略:平衡不同位数和进位的sample显著提高性能

  2. 泛化能力:对训练中未见的数值表现出一定的泛化能力,但对未训练的更长位数加法的泛化能力有限(基本没有长度泛化)-> 学习的是一种有限的函数映射,而非灵活的算法

  3. 混合数据训练(文本+算术)+ few shot 显著提高精度

  4. 精心设计的数据格式可以在小模型上提到极高的性能

主要方法

观察到算数运算(加减乘除开根)上简单微调NTP是次优的(如加法123+456=579第一个预测的结果位是5,但是5由7和9决定),提出算数运算上的结构化数据(reverse / scratchpad即cot),以加法为例建模为低秩矩阵补全并提出一定数据量产生性能跃迁。

还发现了平衡不同位数和进位的sample显著提高性能。局限性在于长度泛化几乎不出现。

注:本系列不包括基础的知识点讲解,为笔记/大纲性质而非教程,用于论文知识点和思想和快速记忆和回顾,更多细节建议阅读论文原文

相关推荐
用户47949283569159 分钟前
每天都在用大模型,但是你知道temperature、top_p、top_k这些常见参数是做什么的吗?
人工智能·面试·llm
z千鑫10 分钟前
【OpenAI】性价比极高的轻量级多模态模型GPT-4.1-mini介绍 + API KEY的使用教程!
人工智能·gpt·ai·语言模型·chatgpt
机器之心13 分钟前
苹果发布会:耳机测心率、手表听音乐、iPhone Air超级薄
人工智能·openai
CoovallyAIHub15 分钟前
基于YOLO集成模型的无人机多光谱风电部件缺陷检测
深度学习·算法·计算机视觉
CoovallyAIHub16 分钟前
几十个像素的小目标,为何难倒无人机?LCW-YOLO让无人机小目标检测不再卡顿
深度学习·算法·计算机视觉
中科岩创18 分钟前
某排水涵洞结构安全自动化监测
人工智能·物联网·自动化
mit6.8241 小时前
[网络入侵AI检测] 模型性能评估与报告
人工智能
黄焖鸡能干四碗1 小时前
智慧教育,智慧校园,智慧安防学校建设解决方案(PPT+WORD)
java·大数据·开发语言·数据库·人工智能
IMER SIMPLE1 小时前
人工智能-python-深度学习-经典网络模型-LeNets5
人工智能·python·深度学习
却道天凉_好个秋1 小时前
深度学习(五):过拟合、欠拟合与代价函数
人工智能·深度学习·过拟合·欠拟合·代价函数