丢弃法-Dropout

动机

好的模型需要对输入数据的扰动鲁棒性

  • 使用有噪音的数据等价于Ti正则
  • 丢弃法: 在层之间加入噪音

无偏差加入噪音

x加入噪音得到x', 希望E[x′]=xE[x']=xE[x′]=x

丢弃法对每个元素进行如下操作
xi′={0with probablity pxi1−p otherise x_i^{'} = \begin{cases} 0 & with \ probablity \ p \\ \frac{x_i}{1-p} & \ otherise \end{cases} xi′={01−pxiwith probablity p otherise

其中xi1−p\frac{x_i}{1-p}1−pxi中1-p代表原始的概率,所以:
E[xi′]=p∗0+(1−p)xi′1−p=xi E[x_i^{'}] = p * 0 + (1-p)\frac{x_i^{'}}{1-p} \\ = x_i E[xi′]=p∗0+(1−p)1−pxi′=xi

如何使用丢弃法(Dropout)

丢弃法通常作用在隐藏全连接的输出上
h=σ(W1x+b1)h′=dropout(h)o=W2h′+b2y=softmax(o) h = \sigma(W_1x+b_1) \\ h' = dropout(h) \\ o = W_2h^{'} + b_2 \\ y = softmax(o) h=σ(W1x+b1)h′=dropout(h)o=W2h′+b2y=softmax(o)

其中hhh是第一个隐藏层的结果
原始的网络结构

(模拟)加入Dropout的网路结构

其中红色标记的位置是被随机为0的单元

丢弃法的作用范围

丢弃法只在训练中使用,添加正则项, 只影响参数的更新
推理过程中丢弃法
h=dropout(h)h = dropout(h)h=dropout(h)

输出的结果等于输入的结果

相关推荐
行如流水1 天前
BLIP和BLIP2解析
深度学习
Coder_Boy_1 天前
DDD从0到企业级:迭代式学习 (共17章)之 四
java·人工智能·驱动开发·学习
木头左1 天前
LSTM量化交易策略中时间序列预测的关键输入参数分析与Python实现
人工智能·python·lstm
king王一帅1 天前
流式渲染 Incremark、ant-design-x markdown、streammarkdown-vue 全流程方案对比
前端·javascript·人工智能
AI营销实验室1 天前
AI CRM系统推荐,原圈科技赋能地产销售
人工智能·科技
cskywit1 天前
MobileMamba中的小波分析
人工智能·深度学习
ws2019071 天前
智行未来,科技驱动:AUTO TECH China 2026广州展将于11月27日举办!
人工智能·科技·汽车
HyperAI超神经1 天前
【vLLM 学习】Prithvi Geospatial Mae
人工智能·python·深度学习·学习·大语言模型·gpu·vllm
赫凯1 天前
【强化学习】第一章 强化学习初探
人工智能·python·强化学习
百锦再1 天前
AI赋能智慧客服与人工客服融合系统企业级方案
人工智能·ai·aigc·模型·自然语言·赋能·只能