残差块学习笔记

为什么需要残差块

当cnn的层数多起来后,会让第一层收到的梯度强度变大。

模型不会因为梯度太大而突然"发疯",直接跳出最优解的范围。残差块通过把梯度控制在合理的量级,让模型能够活着 跑完训练。模型能更顺利地找到 Loss 的最小值,也就是收敛得更快、更准。同样的任务,ResNet 可能跑 10 轮就收敛了,而普通网络可能需要跑 100 轮(而且中间可能还会崩掉)。

数学表达

:输入(Identity,恒等映射/跳跃连接)。

:卷积支路(学习到的残差内容)。

:最终输出。

维度变化演练

残差块带来的"小"梯度,其实是"数值稳定性"的体现。

  1. 普通网络(无残差):梯度随层数指数级增长或衰减。50 层时已经失控(爆炸到了 18 万),导致模型无法训练。

  2. 残差网络 :梯度不再依赖于层数的连乘,而是有了一条"加法通道"。这让梯度保持在一个人类和计算机都能控制的范围内

相关推荐
云烟成雨TD20 分钟前
Spring AI Alibaba 1.x 系列【69】Token 用量统计
java·人工智能·spring
十三画者23 分钟前
【AI学习笔记】:DeepSeek 大模型本地部署与调用实战指南
人工智能
丁常彦-自媒体-常言道24 分钟前
从首发4nm智驾芯片到兜底城市领航安全,比亚迪开启AI新征程
人工智能
小杨在厦门2 小时前
从AI验布到智能质检:纺织企业智能化升级的三个台阶
人工智能·服装·服装厂·服装机械·铺布机
达之云*驭影2 小时前
解锁流量密码:详解抖音AI智能推荐封面功能
人工智能
火山引擎开发者社区2 小时前
ArkClaw 投研助理 —— 零门槛做投研,从一句话开始产出你的第一份深度研报
人工智能
码农小白AI2 小时前
AI报告审核加速融入自动化实验室:IACheck破解智能设备时代报告管理新挑战
运维·人工智能·自动化
xingyuzhisuan2 小时前
自建聚合网关VS第三方聚合平台,适配场景与数据实测
人工智能·ai·云计算·oneapi
tedcloud1232 小时前
DeepSeek-TUI部署教程:打造CLI AI助手环境
服务器·人工智能·word·excel·dreamweaver