残差块学习笔记

为什么需要残差块

当cnn的层数多起来后,会让第一层收到的梯度强度变大。

模型不会因为梯度太大而突然"发疯",直接跳出最优解的范围。残差块通过把梯度控制在合理的量级,让模型能够活着 跑完训练。模型能更顺利地找到 Loss 的最小值,也就是收敛得更快、更准。同样的任务,ResNet 可能跑 10 轮就收敛了,而普通网络可能需要跑 100 轮(而且中间可能还会崩掉)。

数学表达

:输入(Identity,恒等映射/跳跃连接)。

:卷积支路(学习到的残差内容)。

:最终输出。

维度变化演练

残差块带来的"小"梯度,其实是"数值稳定性"的体现。

  1. 普通网络(无残差):梯度随层数指数级增长或衰减。50 层时已经失控(爆炸到了 18 万),导致模型无法训练。

  2. 残差网络 :梯度不再依赖于层数的连乘,而是有了一条"加法通道"。这让梯度保持在一个人类和计算机都能控制的范围内

相关推荐
Java后端的Ai之路几秒前
还在手写 Agent 代码?封装一个 SDK 让你从“码农“升级“包工头“
人工智能·langchain·ai编程·vibe coding·agent sdk
redreamSo1 分钟前
Claude Code 最佳实践:从「能用」到「用得好」的 15 个关键技巧
人工智能·claude
Merkyor4 分钟前
我花一下午修了 7 个 bug:一个 Electron AI Agent 发版前夜的 debug 长征
人工智能
石榴树下的七彩鱼5 分钟前
智能抠图 API 接入实战:3 行代码实现图片自动去背景(Python / Java / PHP / JS)
java·图像处理·人工智能·python·php·api·抠图
星哥说事7 分钟前
开源项目OpenClaw:多AI模型统一调用的技术学习与实践
人工智能·学习
一个天蝎座 白勺 程序猿13 分钟前
零基础AI学习:数学基础要求与补充指南
人工智能·学习·ai
子非吾喵15 分钟前
本地部署AI大模型:Ollama + Qwen3 完整指南,用Python打造智能聊天助手
开发语言·人工智能·python
漫游的渔夫16 分钟前
从 Demo 到生产:为什么你的 AI 功能一上线就成了不可控的“黑盒”?
前端·人工智能
诸葛务农17 分钟前
光电对抗:多模复合制导烟雾干扰外场试验及仿真(4)
人工智能·算法·光电对抗
KC27024 分钟前
零信任安全架构的需求:当 AI 智能体开始渗透企业内网
人工智能·安全