dropout

Dropout是一种用于神经网络的正则化技术,旨在减少过拟合。过拟合通常在模型在训练数据上表现得很好,但在新数据上表现不佳时发生。Dropout通过在训练过程中随机关闭(丢弃)神经元的方式来防止过拟合。

Dropout的原理如下:

  1. 随机丢弃神经元: 在每个训练迭代中,Dropout会随机选择一些神经元并将其输出置零。这相当于将这些神经元从网络中删除,因此网络的每个训练迭代都会使用不同的子集神经元。

  2. 独立丢弃: 每个神经元都有一个与其相关的丢弃概率,通常用超参数 dropout 表示。该概率表示在训练时每个神经元被丢弃的概率。例如,如果 dropout=0.5,则每个神经元在每个训练迭代中都有50%的概率被丢弃。

  3. 防止过拟合: Dropout通过减少神经元之间的共适应性(co-adaptation)来防止过拟合。因为每个神经元都可能在某个训练迭代中被丢弃,网络不能过度依赖于任何一个特定的神经元,从而增加了模型的泛化能力。

  4. 测试时全保留: 在测试阶段,所有神经元都被保留,但其输出值要乘以 1 - dropout 这个比例。这是为了在测试时保持输入和输出之间的一致性,因为在训练时某些神经元被丢弃了。

Dropout的引入可以看作是在训练过程中对模型进行了集成学习,通过多次训练不同的子集,模型能够更鲁棒地适应不同的数据分布,从而提高泛化性能。

复制代码
def dropout_layer(X,dropout):
    assert 0 <= dropout <= 1
    if dropout == 1:
        return torch.zeros_like(X)
    if dropout == 0:
        return X
    mask = (torch.rand(X.shape) > dropout).float()
    return mask * X / (1.0 - dropout)
相关推荐
AI医影跨模态组学3 小时前
Biomarker Res(IF=11.5)安徽医科大学第一医院:基于机器学习的放射组学模型:子宫内膜癌患者的预后预测及机制探索
人工智能·深度学习·论文·医学·医学影像·影像组学
lqqjuly3 小时前
Transformer架构详解 - 第一、二部分:基础与核心思想、核心组件详解
深度学习·神经网络·自然语言处理
白日做梦Q4 小时前
Label Studio 安装与使用完整文档(可直接复制部署)
深度学习·yolo·计算机视觉
快乐on9仔5 小时前
NLP学习(一)transformers之pipeline体验
人工智能·深度学习
Black蜡笔小新7 小时前
企业私有化AI训练推理一体工作站DLTM深度学习推理工作站重塑安全监控智能化体系
人工智能·深度学习
小a彤7 小时前
ops-nn 快速上手 - 神经网络算子使用入门指南
人工智能·深度学习·神经网络
Yunzenn7 小时前
深度分析字节最新研究cola-DLM 第 07 章:推理流水线逐行拆解 —— 从 prompt 到生成文本
人工智能·驱动开发·深度学习·chatgpt·架构·prompt·github
AI医影跨模态组学8 小时前
J Hepatol(IF=33.0)英国帝国理工学院:基于机器学习的影像组学模型在预测肝细胞癌免疫治疗结局中优于临床生物标志物
人工智能·深度学习·机器学习·论文·医学影像·影像组学
ujainu小8 小时前
CANN ops-transformer:MC2 通算融合如何减少通信开销
人工智能·深度学习·transformer
薛会8 小时前
π₀.₇:用“丰富提示词“教机器人像大语言模型一样组合技能
人工智能·深度学习·机器学习