[论文阅读]Transformers without Normalization

摘要

归一化层在现代神经网络中无处不在，并且长期以来一直被认为是必不可少的。这项工作表明，没有归一化的变形器可以使用一个非常简单的技术实现相同或更好的性能。我们引入了动态Tanh（DyT），一个元素级操作DyT(x) = tanh（αx），作为Transformer中归一化层的替代品。DyT的灵感来自于transformer中的层归一化经常产生类似tanh的s形输入-输出映射的观察。通过引入DyT，没有归一化的Transformer可以匹配或超过对应的归一化后的性能，而不需要调整超参数。我们验证了使用DyT的Transformer在不同设置下的有效性，从识别到生成，从监督学习到自监督学习，从计算机视觉到语言模型。这些发现挑战了常规理解，即归一化层在现代神经网络中是不可或缺的，并为它们在深度网络中的作用提供了新的见解。

日期：2025年3月14号

主页和代码：https://jiachenzhu.github.io/DyT/

1.简介

在过去的十年里，归一化层已经巩固了它们作为现代神经网络最基本组成部分之一的地位。所有这些都可以追溯到2015年批归一化的发明（Ioffe和Szegedy，2015），这使得视觉识别模型的收敛速度更快、更好，并在随后几年迅速取得发展。从那以后，针对不同的网络架构或领域提出了许多归一化层的变体。今天，几乎所有的现代网络都使用规范化层，层归一化（layer Norm，或LN）（Ba et al., 2016）是最流行的一种，特别是在占主导地位的Transformer架构中。

规一化层的广泛采用主要是由于它们在优化方面的经验优势(Santurkar et al., 2018；Bjorck et al., 2018)。除了获得更好的结果外，它们还有助于加速和稳定收敛。随着神经网络变得越来越宽和深，这种必要性变得越来越重要（Brock等人，2021a；Huang等人，2023）。因此，归一化层被广泛认为是深度网络有效训练的关键要素（甚至可以说是不可或缺的）。这一信条在近年来新架构经常试图取代注意力层或卷积层（Tolstikhin等人，2021；Gu和Dao，2023；Sun等人，2024；Feng等人，2024）但几乎总是保留归一化层的事实中得到了微妙的证明。

本文通过在transformer中引入一种简单的替代归一化层的方法来挑战这种信条。我们的探索从观察到LN层将输入映射到输出的tanh样S形曲线开始，缩放输入激活，同时压缩极端值。受此启发，我们提出了一种称为动态Tanh （DyT）的元素智能操作，定义为：DyT(x) = Tanh (αx)，其中α是一个可学习的参数。该操作旨在通过α学习适当的缩放因子，并通过有界tanh函数挤压极端值，以模拟LN的行为。值得注意的是，与规一化层不同，它在不需要计算激活统计信息 的情况下实现了这两种效果。

使用DyT是直接的，如图1所示：我们在视觉和语言Transformer等架构中直接用DyT替换现有的归一化层。我们通过实验证明，使用DyT的模型可以在广泛的设置范围内稳定地训练并获得较高的最终性能。它通常不需要调整原始架构的训练超参。

我们的工作挑战了归一化层对于训练现代神经网络是不可或缺的这一概念，并提供了关于归一化层属性的经验见解。此外，初步测量表明DyT提高了训练和推理速度，使其成为面向效率的网络 设计的候选。给定一个形状为（B，T，C）的输入x，其中B是批量大小，T是tokens数，C是每个标记的嵌入维度，输出通常计算如下：
n o r m a l i z a t i o n ( x ) = γ ∗ ( x − μ σ 2 + ϵ ) + β normalization(x)=\gamma * (\frac {x-\mu}{\sqrt{\sigma^2+\epsilon}})+\beta normalization(x)=γ∗(σ2+ϵ x−μ)+β

其中，λ是一个小常数，γ和β是形状为（C,）的可学习向量参数。它们是"缩放"和"移动"仿射参数，允许输出在任何范围内。µ和 σ 2 σ^2 σ2表示输入的均值和方差。不同的方法主要区别在于如何计算这两个统计量。这导致了 µ和 σ 2 σ^2 σ2具有不同的维度，每个维度在计算过程中都应用了广播。

批归一化（BN）（Ioffe和Szegedy，2015）是第一个现代归一化层，它主要被用于卷积模型中（Szegedy等人，2016；He等人，2016；Xie等人，2017）。它的引入代表了深度学习架构设计中的一个重大里程碑。BN计算批次和token维度的均值和方差，具体来说 μ k = 1 B T ∑ i , j ( x i j k ) \mu_k=\frac{1}{BT}\sum_{i,j}(x_{ijk}) μk=BT1∑i,j(xijk), σ k 2 = 1 B T ∑ i , j ( x i j k − μ k ) 2 \sigma^2_k=\frac{1}{BT}\sum_{i,j}(x_{ijk}-\mu_k)^2 σk2=BT1∑i,j(xijk−μk)2。其他在ConvNets中流行的归一化层，如组归一化（Wu和He，2018）和实例归一化（Ulyanov等人，2016），最初是为目标检测 和图像风格化 等专门任务提出的。它们具有相同的总体公式，但计算统计量的轴和范围内有所不同。

层归一化（LN）（Ba等人，2016）和均方根归一化（RMSNorm）（Zhang和Sennrich，2019）是Transformer架构中使用的两种主要的归一化层。LN为每个样本中的每个token独立计算这些统计量，其中 μ i j = 1 C ∑ k x i j k \mu_{ij}= \frac {1}{C}\sum_k{x_{ijk}} μij=C1∑kxijk, σ i j 2 = 1 C ∑ k ( x i j k − μ i j ) 2 \sigma^2_{ij}=\frac{1}{C}\sum_k(x_{ijk}-\mu_{ij})^2 σij2=C1∑k(xijk−μij)2.RMSNorm通过移除均值中心化步骤并使用 µ i j = 0 µ_{ij}=0 µij=0和 σ i j 2 = 1 C ∑ k x i j k 2 σ_{ij}^2 = \frac{1}{C} \sum_k x^2_{ijk} σij2=C1∑kxijk2对输入进行归一化，简化了LN。今天，大多数现代神经网络使用LN，因为它简单且通用。

2. 背景：归一化层

我们首先回顾一下归一化层。大多数归一化层都具有相同的公式。最近，RMSNorm获得了广泛欢迎，尤其是在像T5（Raffel等，2020）、LLaMA（Touvron等，2023a，b；Dubey等，2024）、Mistral（Jiang等，2023）、Qwen（Bai等，2023；Yang等，2024）、InternLM（Zhang等，2024；Cai等，2024）和DeepSeek（Liu等，2024；Guo等，2025）这样的语言模型中。我们在这项工作中研究的所有Transformers都使用了LN，除了LLaMA使用RMSNorm。

3. 归一化层做了什么？

分析设置 我们首先通过实证研究分析训练好的网络中归一化层的行为特征。对于这个分析，我们采用了一个在ImageNet-1K（Deng等人，2009）上进行训练的Vision Transformer模型（ViT-B）（Dosovitskiy等人，2020）；一个wav2vec 2.0大型Transformer模型（Baevski等人，2020），该模型在LibriSpeech（Panayotov等人，2015）上进行训练；以及一个扩散Transformer（DiT-XL）（Peebles和Xie，2023），该模型在ImageNet-1K上进行训练。在所有情况下，LN应用于每个Transformer块和最终线性投影之前。

对于所有三个训练网络，我们采样一个样本的小批量，并通过网络进行前向传递。然后，我们测量归一化层的输入和输出，即在可学习仿射变换之前的归一化操作之前和之后的张量。我们随后在可学习的仿射变换之前，对归一化层的输入和输出进行量化分析，具体测量其归一化操作前（输入）与操作后（输出）的张量特征。由于LN保留了输入张量的维度，我们可以建立输入和输出张量元素之间的一一对应关系，从而可以直接可视化它们之间的关系。我们在图2中画出了结果映射。

具有层归一化的tanh类映射 对于所有三个模型，在较早的LN层（图2的第一列）中，我们发现这种输入输出关系基本上是线性的，类似于x-y图中的直线。然而，在更深层的LN层我们有更有趣的观察。

从这些深层中得出的一个显著观察结果是，这些曲线的形状大多与由tanh函数表示的完整或部分S形曲线非常相似（见图3）。

人们可能希望LN层对输入张量进行线性变换，因为减去均值并除以标准差是线性操作。LN以每个token的方式进行归一化，仅对每个token的激活进行线性转换。由于token具有不同的均值和标准差值，因此线性关系不能整体地适用于输入张量的所有激活。尽管如此，实际的非线性变换与缩放后的tanh函数高度相似，这仍然让我们感到惊讶。

对于这样的S形曲线，我们注意到中心部分，由x值接近零的点表示，仍然主要呈线性形状。大多数点（∼99%）落在这个线性范围内。然而，仍然有很多点明显落在这个范围内之外，这些被认为是"极端"值，例如，在ViT模型中，x大于50或小于-50。归一化层对这些值的主要作用是将它们压缩成不那么极端的值，更符合大多数点。这就是为什么归一化层不能通过一个简单的仿射变换层来近似。我们假设这种对极端值的非线性和不成比例的挤压效应是使归一化层重要和不可或缺的原因。

Ni等人（2024）的最新研究结果同样强调了LN层引入的强非线性，展示了非线性如何增强模型的表示能力。此外，这种挤压行为反映了生物神经元对大输入的饱和特性 ，这一现象大约在一个世纪前首次被观察到（Adrian，1926；Adrian和Zotterman，1926a，b）。
按tokens和通道进行规范化 LN层如何为每个标记执行线性转换，但同时也以非线性方式挤压极端值？为了理解这一点，我们分别将这些点按tokens和通道分组进行可视化。这在图4中通过取图2中ViT的第二和第三个子图绘制，但为了更清晰起见，我们使用了一个采样点子集。当我们选择要绘制的通道时，我们确保包括具有极端值的通道。

在图4的左两图上，我们使用相同的颜色来可视化每个标记的激活。我们观察到，任何单个标记的所有点都形成一条直线。但是，由于每个标记具有不同的方差，因此斜率也不同。输入x范围较小的标记往往具有较小的方差，归一化层将使用较小的标准差来划分它们的激活，因此在直线上产生较大的斜率。它们共同形成一个S形曲线，类似于tanh函数。在右侧的两个图中，我们使用相同的颜色对每个通道的激活进行着色。我们发现不同的通道往往具有截然不同的输入范围，只有少数通道（例如红色、绿色和粉色）表现出较大的极端值。这些通道被归一化层压缩得最多。

4.动态Tanh（DyT）

受归一化层形状与缩放tanh函数相似性的启发，我们提出动态Tanh（DyT）作为归一化层的即插即用替代方案。给定输入张量x，DyT层定义如下：
D y T ( x ) = γ ∗ t a n h ( α x ) + β DyT(x)=\gamma*tanh(\alpha x)+ \beta DyT(x)=γ∗tanh(αx)+β

其中α是一个可学习的标量参数，可以根据其范围对输入进行不同的缩放，以考虑不同的x尺度（图2）。这也是为什么我们将整个操作命名为"动态"Tanh。γ和β是可学习的、按通道划分的向量参数，与所有归一化层中使用的参数相同------它们允许输出缩放到任何尺度。这有时被认为是一个单独的仿射层；对于我们的目的，我们认为它们是DyT层的一部分，就像归一化层也包括它们一样。（归一化公式中也有这两个参数 ）Pytorch风格的DyT伪代码实现见算法1。

将DyT层集成到现有体系结构中非常简单：一个DyT层替换一个归一化层（见图1）这适用于注意力块、FFN块和最终规范化层中的规范化层。虽然DyT可能看起来或被认为是激活函数，但本研究仅使用它来替换归一化层，而不改变原始架构中任何激活函数的任何部分，如GELU或ReLU。网络的其他部分也完好无损。我们还观察到，对于DyT来说，很少需要调整原始架构使用的超参数来使得它执行良好。
关于缩放参数 我们总是简单地按照归一化层的做法将γ初始化为全一向量，β初始化为全零向量。对于缩放参数α，默认初始化为0.5通常就足够了，除了LLM训练。第7节提供了α初始化的详细分析。除非另有明确说明，否则在后续实验中，α初始化为0.5。
备注DyT并不是一种新型的归一化层，因为它在前向传递过程中独立地对张量中的每个输入元素进行操作，而不计算统计或其他类型的聚合。然而，它确实保留了归一化层的效果，以非线性方式压缩极端值，同时几乎线性地转换输入的非常中心的部分。

5.实验

为了证明DyT的有效性，我们在多种任务和领域中使用Transformer和其他一些现代架构进行了实验。在每次实验中，我们将原始架构中的LN或RMSNorm替换为DyT层，并遵循官方开源协议来训练和测试两种模型版本。附录A中提供了重现我们结果的详细说明。值得注意的是，为了突出DyT的简单性，我们使用与应用归一化时相同的超参数。为了完整性，关于学习率和α初始值的调整的其他实验结果见附录B。
视觉中的监督学习 我们在ImageNet-1K分类任务（Deng等人，2009）上训练了"基础"和"大型"规模的Vision Transformer （ViT）（Dosovitskiy等人，2020）和ConvNeXt （Liu等人，2022）。选择这些模型是因为它们的流行度和独特的操作：ViT中的注意力机制和ConvNeXt中的卷积。表1报告了top-1分类准确率。在两种架构和模型大小中，DyT的表现略好于LN。我们在图5中进一步绘制了ViT-B和ConvNeXt-B的训练损失曲线，曲线表明基于DyT和LN的模型的收敛行为高度一致。

视觉中的自监督学习 我们使用两种流行的视觉自监督学习方法进行基准测试：掩码自动编码器（MAE）（He等人，2022）和DINO（Caron等人，2021）。两者都默认使用Vision Transformer作为主干，但有不同的训练目标： MAE使用重建损失进行训练，而DINO使用联合嵌入损失（LeCun，2022）。按照标准的自监督学习协议，我们首先在ImageNet-1K上不使用任何标签预训练模型，然后通过附加一个分类层并用标签微调预训练模型来测试预训练模型。微调结果如表2所示。在自监督学习任务中，DyT的表现始终与LN相当。

扩散模型 我们在ImageNet-1K（Deng et al.，2009）上训练了三个Diffusion Transformer（DiT）模型（Peebles和Xie，2023），它们的大小分别为B、L和XL，补丁大小分别为4、4和2。请注意，在DiT中，LN层的仿射参数用于DiT中的类别调节，我们在DyT实验中保持这种方式，只是用tanh（αx）函数替换归一化变换。训练后，我们使用标准ImageNet"参考批次"评估Frechet Inception Distance（FID）分数，如表3所示。DyT的FID与LN相当或有所提高。

大语言模型 我们对LLaMA 7B、13B、34B和70B模型（Touvron等人，2023a，b；Dubey等人，2024）进行预训练，以评估DyT相对于RMSNorm（Zhang和Sennrich，2019）的性能，RMSNorm是LLaMA中使用的默认归一化层。这些模型在包含200B个标记的The Pile数据集（Gao等人，2020）上进行训练，遵循LLaMA（Touvron等人，2023b）中概述的原始配方。在使用DyT的LLaMA中，我们在初始嵌入层之后添加了一个可学习的标量参数，并调整了α的初始值，具体细节见第7节。我们报告了训练后的损失值，并且按照OpenLLaMA（Geng和Liu，2023）的方法，在lm-eval (Gao等人）提供的15个零样本任务上对模型进行了基准测试。如表4所示，DyT在所有四种模型尺寸上表现与RMSNorm相当。图6展示了损失曲线，表明所有模型尺寸上的趋势相似，在整个训练过程中，训练损失保持一致。

语音中的自监督学习 我们在LibriSpeech数据集（Panayotov等人，2015）上预训练了两个wav2vec 2.0 Transformer模型（Baevski等人，2020）。我们在表5中报告了最终验证损失。我们观察到DyT在两种模型大小上与LN表现相当。

DNA序列建模 在长距离DNA序列建模任务中，我们预训练了HyenaDNA模型（Nguyen等人，2024）和Caduceus模型（Schiff等人，2024）。预训练使用了来自人类参考基因组数据（GRCh38,2013），评估则在GenomicBenchmarks（Gresova等人，2023)上进行。结果见表6。DyT在此任务中的表现与LN相当。

6.分析

我们对DyT的重要属性进行了几项分析。首先评估了它们的计算效率，接着通过两项研究考察了tanh函数和可学习尺度α的作用。最后，我们与先前旨在去除归一化层的方法进行了比较。

6.1 DyT的效率

我们使用一个包含4096个标记的序列，通过测量100次前向传递（推理）和100次前向-后向传递（训练）所花费的总时间，对LLaMA 7B模型进行RMSNorm或DyT基准测试。表7报告了在Nvidia H100 GPU上运行时，所有RMSNorm或DyT层和整个模型所需的时间，BF16精度。与RMSNorm层相比，DyT层显著减少了计算时间，在FP32精度下也观察到了类似的趋势。DyT可能是面向效率的网络设计的一个有前途的选择。

6.2 tanh和α的消融

为了进一步研究tanh和α在DyT中的作用，我们进行了实验来评估当这些组件被改变或删除时模型的性能。
替换和删除tanh 我们用其他挤压函数，特别是hardtanh和sigmoid（图7）替换了DyT层中的tanh，同时保持可学习缩放器α不变。此外，我们评估了完全移除tanh的影响，即用恒等函数替换tanh，同时仍保留α。如表8所示，挤压函数对于稳定的训练至关重要。使用恒等函数会导致训练不稳定和发散 ，而挤压函数则能实现稳定的训练。在各种挤压函数中，tanh表现最佳。这可能是因为它具有平滑性和零中心特性。

去除α 接下来，我们评估在保留挤压函数（tanh、hardtanh和sigmoid）的同时移除可学习的α的影响。如表9所示，移除α会导致所有挤压函数的性能下降，突显了α在整体模型性能中的关键作用。

6.3 α的值

训练过程中 我们的分析显示α在整个训练过程中紧密跟随激活的1/std。如图8左侧面板所示，α在训练过程中先下降后上升，但始终与输入激活的标准差一致波动。这证明了α在把激活在一个合适范围的重要作用，从而导致稳定和有效的训练。
训练后 我们对训练后的网络中α的最终值的进一步分析显示，它与输入激活的1/std有很强的相关性。如图8右侧面板所示，较高的1/std通常对应较大的α值，反之亦然。此外，我们观察到更深的层往往具有更大的标准差的激活。这一趋势与深度残差网络的特征一致，如Brock等人（2021a）对ConvNets和Sun等人（2025）对Transformer所示。

这两种分析都表明，α通过学习接近输入激活值的1/标准，部分地充当了归一化机制。与LN不同的是，LN对每个标记的激活值进行归一化处理，而α则对整个输入的激活值进行整体归一化处理。因此，仅使用α无法以非线性方式抑制极端值。

6.4 与其他方法的比较

为了进一步评估DyT的有效性，我们将它与其他方法进行比较，这些方法也可以在不使用归一化层的情况下训练Transformer。这些方法可以大致分为基于初始化的方法 和基于权重归一化的方法 。我们考虑两种流行的初始化方法，Fixup (Zhang et al.,2019; Huang et al., 2020) 和SkipInit (De and Smith, 2020; Bachlechner et al., 2021).这两种方法都旨在通过调整初始参数值来缓解训练不稳定，以防止训练开始时出现大的梯度和激活，从而在没有归一化层的情况下实现稳定的学习。相比之下，基于权重归一化的方法在整个训练过程中对网络权重施加约束，以在没有归一化层的情况下保持稳定的训练动态。我们介绍了一种这样的方法，即σReparam（Zhai等人，2023），该方法通过控制权重的谱范数来促进稳定的学习。表10总结了基于ViT的两个任务的结果。我们严格遵循各自论文中概述的原始方案。然而，我们发现基于初始化的方法Fixup和SkipInit都需要显著降低学习率以防止训练发散。为了确保公平比较，我们对所有方法进行简单的学习率搜索 ，包括DyT。这产生的结果与第5节中报告的结果不同，因为之前的结果是没有调整超参数的。总体而言，结果表明DyT在不同配置中始终优于所有其他测试方法。
Tips:性能提升似乎并不明显，但是效率提升还是比较明显的，可以取舍选择

7. α \alpha α的初始化

我们发现，调整α的初始化（记作α0)很少能显著提升性能。唯一的例外是LLM训练，在这种情况下，仔细调整α0可以带来明显的性能提升。在本节中，我们将详细阐述α初始化的影响。

7.1 非LLM模型的α初始化

非LLM模型对 α 0 \alpha_0 α0相对不敏感 图9显示了不同任务中α0变化对验证性能的影响。所有实验均遵循各自配方的原始设置和超参数。我们观察到，在广泛的α0值范围内，性能保持稳定，其中 0.5到1.2之间的值 通常能产生良好的结果。我们观察到，调整α0通常只影响训练曲线的早期阶段。主要的例外是监督ViT-L实验，当α0超过0.6时，训练变得不稳定并发散。在这种情况下，降低学习率来恢复稳定性，正如下面所示。

**较小的α0导致更稳定的训练。**基于之前的观察，我们进一步分析了导致训练不稳定的因素。我们的发现表明，增加模型大小或学习率都需要降低α0以确保训练稳定。相反，较高的α0需要较低的学习率来缓解训练不稳定。图10显示了使用ImageNet-1K数据集的监督ViT训练稳定性的消融。我们改变学习率、模型大小和α0值。训练较大的模型更容易失败，需要较小的α0值或学习率才能稳定训练。类似的不稳定模式也在相同情况下的基于LN的模型上有观察到，将α0 = 0.5设置后，其稳定性模式与LN相似。
将α0 = 0.5设为默认值 。根据我们的发现，我们将α0 = 0.5设为所有非LLM模型的默认值。该设置提供了与LN相当的训练稳定性，同时保持了强大的性能。

7.2 对LLMs初始化α

**调整α0可提高LLM性能。**正如前面所讨论的，α0 = 0.5的默认设置通常在大多数任务中表现良好。然而，我们发现调整α0可以显著提升大模型的性能。我们在LLaMA模型上通过预训练每个模型30B个标记并比较它们的训练损失来调整α0。表11概述了每个模型的调整后的α0值。两个关键发现如下：

较大的模型需要较小的α0值。一旦确定了较小模型的最佳α0值，就可以相应地减少较大模型的搜索空间。
注意力块的α0值越高，性能越好。我们发现，在注意力块中的DyT层中使用更高的α初始值，以及在其他位置的DyT层中（即FFN块内或最终线性投影之前）使用较低的α值，可以提高性能。

为了进一步说明α0调优的影响，图11展示了两个LLaMA模型的损失值热图。这两个模型都受益于更高的α0在注意力块中，从而减少了训练损失。

**模型宽度决定α0的选择。**我们还研究了模型宽度和深度对最优α0的影响。我们发现，模型宽度对于确定最优α0至关重要，而模型深度的影响则微乎其微。表12显示了不同宽度和深度下的最优α0值，表明更宽的网络在选择较小的α0值时能获得更好的性能。另一方面，模型深度对α0的选择影响甚微。

如表12所示，网络越宽，对"注意力"和"其他"的初始化就越不均匀。我们假设LLM的α初始化敏感性与其相对于其他模型的过大的宽度有关。

8.相关工作

规范化层的机制。 关于归一化层在通过各种机制提升模型性能方面的作用，已有大量研究。这些研究包括：在训练过程中稳定梯度流动（Balduzzi等人，2017；Daneshmand等人，2020；Lubana等人，2021），减少对权重初始化的敏感性（Zhang等人，2019；De和Smith，2020；Shao等人，2020），调节异常特征值（Bjorck等人，2018；Karakida等人，2019），自动调整学习率（Arora等人，2018；Tanaka和Kunin，2021），以及平滑损失以实现更稳定的优化（Santurkar等人，2018）。早期的研究主要集中在批归一化上。最近的研究（Lyu等人，2022；Dai等人，2024；Mueller等人，2024）进一步强调了归一化层与锐度降低之间的联系，这有助于提高泛化能力。
Transformer中的归一化 随着Transformer（Vaswani等人，2017）的兴起，研究越来越关注层归一化（Ba等人，2016），这在自然语言任务中的序列数据处理中被证明尤为有效（Nguyen和Salazar，2019；Xu等人，2019；Xiong等人，2020）。最近的研究（Ni等人，2024）表明，层归一化引入了强烈的非线性，增强了模型的表示能力。此外，研究（Loshchilov等人，2024；Li等人，2024）显示，在Transformer中调整归一化层的位置可以改善收敛特性。
删除规范化。 许多研究探讨了如何在不使用归一化层的情况下训练深度模型。几项工作（Zhang等人，2019；De和Smith，2020；Bachlechner等人，2021）探索了替代权重初始化方案以稳定训练。Brock等人（2021a，b）的开创性工作表明，高性能的ResNet可以通过结合初始化技术（De和Smith，2020）、权重归一化（Salimans和Kingma，2016；Huang等人，2017；Qiao等人，2019）以及自适应梯度裁剪（Brock等人，2021b）来在不使用归一化的情况下进行训练（Smith等人，2023）。此外，他们的训练策略还结合了大量的数据增强（Cubuk等人，2020）和正则化（Srivastava等人，2014；Huang等人，2016）。上述研究基于各种卷积神经网络模型。

在Transformer架构中，He和Hofmann（2023）探索了对Transformer块的修改，以减少对归一化层和跳跃连接的依赖。相比之下，Heimersheim（2024）提出了一种方法，通过在移除每个归一化层后微调模型，逐步从预训练网络中移除LN。与以往的方法不同，DyT仅需对架构和训练配方进行最小的修改。尽管其简单，DyT仍实现了稳定的训练并达到了可比的性能。

9. 限制

我们在网络上使用LN或RMSNorm进行实验，因为它们在Transformer和其他现代架构中非常流行。**初步实验（见附录C）表明，DyT难以直接替代经典网络如ResNet中的BN。**是否以及如何让DyT适应其他类型的归一化层模型，仍有待深入研究。
Tips:无法替代BN，有点意思？

10.结论

在这项工作中，我们展示了现代神经网络，特别是Transformer，可以在不使用归一化层的情况下进行训练。这是通过动态Tanh（DyT）实现的，它是一种简单的传统归一化层替代方案。DyT通过一个可学习的缩放因子α调整输入激活范围，然后通过S形Tanh函数压缩极端值。尽管是一个更简单的函数，但它有效地捕捉了归一化层的行为。在各种设置下，使用DyT的模型性能与归一化的模型相当或超过。这一发现挑战了传统上对训练现代神经网络时归一化层必要性的认识。我们的研究还促进了对归一化层机制的理解，这是深度神经网络中最基本的构建块之一。

Tips：大部分的实验都是在使用了LN的模型上进行的，包括Transformer和CNN。对BN的替代作用没有明确。