论文阅读-Transformer Layers as Painters

1. 摘要

尽管大语言模型现在已经被广泛的应用于各种任务,但是目前对其并没有一个很好的认知。为了弄清楚删除和重组预训练模型不同层的影响,本文设计了一系列的实验。通过实验表明,预训练语言模型中的lower和final layers与中间层分布不一致,并且中间层有着惊人的一致性。

2. 模型和benchmark

  • 模型:BERT-Large和Llama2
    • llama-7B:32layers, 每层包括202M参数
    • llava-13B:40layers
    • llava-70B:80layers
    • BERT-large:24layers和340M参数
  • benchmark for llama2
    • ARC:science exam question
    • HellaSwag:commonsense
    • GSM8K:Math Word Problems
    • WinoGrande:Winograd Schema Challenge
    • LAMBADA:word prediction,measures perplexity
  • benchmark for bert:
    • GLUE
      • CoLA (Corpus of Linguistic Acceptability): Acceptability judgments drawn from linguistic
        theory.
      • MRPC (Microsoft Research Paraphrase Corpus): Semantic equivalence for news sentences.
      • QNLI (Stanford Question Answering Dataset): Question answering from paragraphs.
      • RTE (The Recognizing Textual Entailment): Textual entailment
      • SST2 (The Stanford Sentiment Treebank): Sentiment prediction.
      • STSB (The Semantic Textual Similarity Benchmark): Sentence pair similarity.
      • WNLI (The Winograd Schema Challenge): Sentence referent selection.

3. 实验

3.1 Do layers "speak the same language"?

**实验:**跳过某层或将前后两层调换顺序,实验结果如下图所示:

从上图中可以看出,对中间的模型层调换前后2层顺序及跳过某层,在benchmark上效果波动不大;但first和last few layers则相反。因此,可以推断出middle layer和first及last few layers有不同的表征空间,且中间层间的表征空间比较相似。

为了更进一步验证这个猜想,衡量了在benchmark上不同层hidden state的activation值间的cosine similarity。结果如下图所示:

从上图中可以看出,模型基本有三种表征空间,"beginning","middle"和"ending"。另外,"beginning"层和"middle"层的层数似乎随着模型总层数的增加而增加,而"ending"层则会固定到单层上。

3.2 Are all the layers necessary?

实验:跳过N层,将N+1层的输出作为T-N层的输入,T为模型总层数。=> skip

从上图中可以看出,当有少量的层被跳过时,模型效果并没有降低很多。

3.3 Are middle layers all doing the same thing?

虽然中间层表征空间是一样的,那么是否表示这些层是冗余的呢?

实验:在"middle"中用中心层的参数替换其他层的参数=>middle repeat

从上图中可以看出,随着替换层数的增加,模型效果下降的越发明显。所以"middle" layer中不同层有着不同的功能。

3.4 Does the layer order matter?

实验:1. 中间层倒过来=>reverse。2. 将中间层随机打乱。

不管是随机打乱层还是倒过中间层都对模型效果有不少的影响。但随机打乱要比中间层倒装的效果要好。

3.5 Can we run the layers in parallel?

能否将不同层独立运行,然后将结果合并呢?=> parallel

除了在GSM8K数学任务上,随着并行层数的增加,模型效果有着合理的降低。

3.6 Does the order matter for some tasks more than others?

是的,在数学和推理任务上,order比较重要。在语义任务上,order就还好。

3.7 Does looping help parallelized layers?

从上图可知,并行层重复多次能够有效的改善模型效果。

从上图中可知,最佳的迭代次数(重复次数)与并行层的数量成正比。

3.8 Which variants are least harmful?

从图中可知,重复单层是效果最差的,随机中间层和并行重复策略(looped-parallel)模型效果损失最小。

  • 为什么skip要比middle repeat策略要差呢?

    从图中可以发现,skip策略跟llama2-7B模型的cosine similarity一样。而middle repeat则发生了偏移。

4. 讨论

  • 有三种不同类型的层,"beginning","middle"和"ending"
  • 中间层有某种程度的均匀,但是不冗余。
  • 模型层的执行顺序相较于语义任务,在数学和推理任务中更为重要
相关推荐
console.log('npc')9 小时前
AI前端工程与生成式UI学习路线
前端·人工智能·ui
秋910 小时前
3年经验Python后端转AI Engineer:3个月实战转型计划(2026版)
开发语言·人工智能·python
圣殿骑士-Khtangc10 小时前
GPT-5.5 技术深度解析与企业级生产落地实战:从幻觉率下降到百万Token工程化
人工智能·gpt
2601_9619633810 小时前
技术解剖:哈希值、区块链与CA认证如何守护电子合同安全?
网络·人工智能·安全·区块链·智能合约·政务
2601_9619633810 小时前
从“电子化”到“自动化”:2026年智能合约与电子合同融合的技术逻辑与法律适配
网络·人工智能·区块链·智能合约·政务
米小虾11 小时前
AI Skills 工程化:当每个开发者都有一支「AI 小队」,你该怎么管理?
人工智能
DisonTangor11 小时前
谷歌开源首个扩散大语言模型——DiffusionGemma
人工智能·语言模型·自然语言处理·开源·aigc·transformer
冬奇Lab11 小时前
每日一个开源项目(第129篇):OpenMed - 永不离开设备的医疗 NLP
人工智能·开源·资讯
冬奇Lab11 小时前
Agent 系列(19):Harness 完整体系——8 层防护框架全景
人工智能·llm·agent
米小虾11 小时前
Claude Fable 5 系统提示词被扒出来了:1586 行代码背后,藏着 AI 产品工程的终极哲学
人工智能·agent