RMSNorm 类中引入一些参数

RMSNorm 类中,引入可学习的参数,以增强模型的表达能力和适应性。以下是一些常见的方法:

  1. 可学习的缩放参数(Scale)

    除了 self.weight,可以为每个维度引入一个可学习的缩放参数。这可以通过创建一个与输入维度相同的权重矩阵来实现,而不是一个向量。这样,每个特征维度都会有一个独立的缩放因子。

    python 复制代码
    class RMSNorm(torch.nn.Module):
        def __init__(self, dim: int, eps: float = 1e-6):
            super().__init__()
            self.eps = eps
            self.weight = nn.Parameter(torch.ones((dim, 1)))  # 权重矩阵
    
        def forward(self, x):
            normed = self._norm(x)
            return normed * self.weight
  2. 可学习的偏移参数(Shift)

    除了缩放,还可以为每个维度引入一个可学习的偏移参数。这可以通过添加一个与 self.weight 类似的权重矩阵来实现,但用于添加到归一化后的输出上。

    python 复制代码
    class RMSNorm(torch.nn.Module):
        def __init__(self, dim: int, eps: float = 1e-6):
            super().__init__()
            self.eps = eps
            self.scale = nn.Parameter(torch.ones((dim, 1)))  # 缩放权重矩阵
            self.shift = nn.Parameter(torch.zeros((dim, 1)))  # 偏移权重矩阵
    
        def forward(self, x):
            normed = self._norm(x)
            return normed * self.scale + self.shift
  3. 可学习的归一化参数(Custom Normalization)

    可以设计一个自定义的归一化函数,其中包含可学习的参数。例如,可以学习一个参数来控制归一化过程中的动态范围。

python 复制代码
import torch
import torch.nn as nn

class CustomNorm(nn.Module):
    def __init__(self, num_features, eps=1e-5):
        super(CustomNorm, self).__init__()
        # 可学习的缩放参数 gamma,初始化为1
        self.gamma = nn.Parameter(torch.ones(num_features))
        # 可选的可学习偏移参数 beta,初始化为0
        self.beta = nn.Parameter(torch.zeros(num_features))
        self.eps = eps

    def forward(self, x):
        # 计算均值和方差
        mean = x.mean(1, keepdim=True)
        var = x.var(1, keepdim=True)

        # 归一化
        x_norm = (x - mean) / torch.sqrt(var + self.eps)

        # 应用可学习的缩放和偏移
        x_out = self.gamma * x_norm + self.beta

        return x_out

# 示例使用
num_features = 10  # 假设输入特征的维度为10
custom_norm_layer = CustomNorm(num_features)

# 假设有一个随机生成的输入张量
input_tensor = torch.randn(5, num_features)  # 5个样本,每个样本有10个特征

# 前向传播
output_tensor = custom_norm_layer(input_tensor)
print(output_tensor)
  1. 可学习的激活函数参数

    在归一化之后,可以引入一个可学习的激活函数,其参数也可以是可训练的。这可以通过使用 nn.functional 中的激活函数,并将可学习参数作为激活函数的输入。

    python 复制代码
    class RMSNorm(torch.nn.Module):
        def __init__(self, dim: int, eps: float = 1e-6):
            super().__init__()
            self.eps = eps
            self.activation_param = nn.Parameter(torch.ones(1))  # 可学习的激活函数参数
    
        def forward(self, x):
            normed = self._norm(x)
            return torch.tanh(self.activation_param * normed)  # 使用tanh激活函数
相关推荐
Token炼金师9 分钟前
幂律的预言:Kaplan 与 Chinchilla 的算力账本 —— Scaling Laws 与最优配比
人工智能·深度学习·大模型架构·kv cache·scaling laws
大圣编程12 分钟前
Python中continue语句的用法是什么?
开发语言·前端·python
云烟成雨TD26 分钟前
LangFlow 1.x 系列【5】可视化编辑页面功能说明
人工智能·python·agent
geovindu2 小时前
python: Functional Options Pattern
开发语言·后端·python·设计模式·惯用法模式·函数式选项模式
tryCbest2 小时前
Python 文件操作
服务器·python
涛声依旧-底层原理研究所3 小时前
Agent 长任务可靠性设计:实现暂停、恢复、续跑与崩溃重启的完整方案
人工智能·python·系统架构
AC赳赳老秦3 小时前
防火墙规则批量配置实战:OpenClaw 自动生成模板、批量下发与合规性校验全解析
java·开发语言·人工智能·python·github·php·openclaw
小小编程路3 小时前
如何优化while循环的性能?
python
Token炼金师3 小时前
算力显存通信的三角博弈:DP/TP/PP/SP、ZeRO、混合精度与稳定性 —— 训练优化四件套
人工智能·深度学习·dp·sp·pp·zero·tp
lzqrzpt4 小时前
LED驱动电源选型标准与工程应用技术要点解析
python·单片机·嵌入式硬件·物联网