残差块学习笔记

汐汐咯2026-02-15 19:14

为什么需要残差块

当cnn的层数多起来后，会让第一层收到的梯度强度变大。

模型不会因为梯度太大而突然"发疯"，直接跳出最优解的范围。残差块通过把梯度控制在合理的量级，让模型能够活着跑完训练。模型能更顺利地找到 Loss 的最小值，也就是收敛得更快、更准。同样的任务，ResNet 可能跑 10 轮就收敛了，而普通网络可能需要跑 100 轮（而且中间可能还会崩掉）。

数学表达

：输入（Identity，恒等映射/跳跃连接）。

：卷积支路（学习到的残差内容）。

：最终输出。

维度变化演练

残差块带来的"小"梯度，其实是"数值稳定性"的体现。

普通网络（无残差）：梯度随层数指数级增长或衰减。50 层时已经失控（爆炸到了 18 万），导致模型无法训练。
残差网络 ：梯度不再依赖于层数的连乘，而是有了一条"加法通道"。这让梯度保持在一个人类和计算机都能控制的范围内。

上一篇：深度学习常见问题

下一篇：一天一个开源项目（第23篇）：PageLM - 开源 AI 教育平台，把学习材料变成互动资源

热门推荐

01GitHub 镜像站点 02OpenClaw 使用和管理 MCP 完全指南 03Window 10部署openclaw报错node.exe : npm error code 128 04OpenClaw + 飞书（Feishu）环境搭建指南 05本地部署 OpenClaw + DeepSeek-R1 完全指南 06OpenClaw 连接飞书完整指南：插件安装、配置与踩坑记录 07OpenClaw优化飞书API 额度已耗尽问题 08小黑课堂计算机二级WPSoffice题库软件下载安装教程（2026年3月最新版）09OpenClaw 飞书机器人不回复消息？3 小时踩坑总结 10Claude Code + GLM4.7 避坑指南：解决 Unable to connect to Anthropic services