残差块学习笔记

为什么需要残差块

当cnn的层数多起来后,会让第一层收到的梯度强度变大。

模型不会因为梯度太大而突然"发疯",直接跳出最优解的范围。残差块通过把梯度控制在合理的量级,让模型能够活着 跑完训练。模型能更顺利地找到 Loss 的最小值,也就是收敛得更快、更准。同样的任务,ResNet 可能跑 10 轮就收敛了,而普通网络可能需要跑 100 轮(而且中间可能还会崩掉)。

数学表达

:输入(Identity,恒等映射/跳跃连接)。

:卷积支路(学习到的残差内容)。

:最终输出。

维度变化演练

残差块带来的"小"梯度,其实是"数值稳定性"的体现。

  1. 普通网络(无残差):梯度随层数指数级增长或衰减。50 层时已经失控(爆炸到了 18 万),导致模型无法训练。

  2. 残差网络 :梯度不再依赖于层数的连乘,而是有了一条"加法通道"。这让梯度保持在一个人类和计算机都能控制的范围内

相关推荐
冬奇Lab2 小时前
一天一个开源项目(第23篇):PageLM - 开源 AI 教育平台,把学习材料变成互动资源
人工智能·开源
式5162 小时前
深度学习常见问题
人工智能·深度学习
天竺鼠不该去劝架2 小时前
RPA 平台选型指南(2026):金智维 vs 来也RPA vs 艺赛旗 vs 阿里云 RPA 深度对比
大数据·数据库·人工智能
aircrushin2 小时前
具身智能开源生态:小米机器人VLA模型如何推动物理AI产业化?
人工智能·机器人
DN20202 小时前
AI销售:从不迟到早退,永远秒回,您的忠实员工
人工智能·python
人工智能AI技术2 小时前
手机就是你的AI实验室:AutoGLM开源实战,用智谱GLM-4.7控制手机完成自动打卡
人工智能
美酒没故事°2 小时前
在扣子平台创建智能体demo
人工智能·ai
MaoziShan3 小时前
CMU Subword Modeling | 09 Lexemes, or What Dictionaries Know about Morphology
开发语言·人工智能·机器学习·语言模型·自然语言处理·c#
liu****3 小时前
3.RNN及其变体
人工智能·python·rnn·深度学习