残差块学习笔记

为什么需要残差块

当cnn的层数多起来后,会让第一层收到的梯度强度变大。

模型不会因为梯度太大而突然"发疯",直接跳出最优解的范围。残差块通过把梯度控制在合理的量级,让模型能够活着 跑完训练。模型能更顺利地找到 Loss 的最小值,也就是收敛得更快、更准。同样的任务,ResNet 可能跑 10 轮就收敛了,而普通网络可能需要跑 100 轮(而且中间可能还会崩掉)。

数学表达

:输入(Identity,恒等映射/跳跃连接)。

:卷积支路(学习到的残差内容)。

:最终输出。

维度变化演练

残差块带来的"小"梯度,其实是"数值稳定性"的体现。

  1. 普通网络(无残差):梯度随层数指数级增长或衰减。50 层时已经失控(爆炸到了 18 万),导致模型无法训练。

  2. 残差网络 :梯度不再依赖于层数的连乘,而是有了一条"加法通道"。这让梯度保持在一个人类和计算机都能控制的范围内

相关推荐
Raink老师16 分钟前
【AI面试临阵磨枪-48】GraphRAG、多模态 RAG、自适应 RAG 原理
人工智能·ai 面试题
波动几何17 分钟前
模式驱动的学术选题方法论——四种AI模式处理能力的系统建构与论证
人工智能
飞哥数智坊35 分钟前
我为我的龙虾斩分身:OpenClaw 多智能体实操
人工智能·agent
七牛开发者44 分钟前
HTML is the new Markdown:来自 Claude Code 团队的实践
前端·人工智能·语言模型·html
飞哥数智坊44 分钟前
在二线城市做AI社群,我的五一节后到底有多疯狂?
人工智能
视***间1 小时前
智启边缘,魔盒藏锋——视程空间Pandora系列魔盒,解锁边缘计算普惠新范式
人工智能·区块链·边缘计算·ai算力·视程空间
蛐蛐蛐1 小时前
昇腾910B4上安装新版本CANN的正确流程
人工智能·python·昇腾
沪漂阿龙1 小时前
AI大模型面试题:线性回归是什么?最小二乘法、平方误差、正规方程、Ridge、Lasso 一文讲透
人工智能·机器学习·线性回归·最小二乘法
Lyon198505281 小时前
《文字定律》让AI体验,汉字逻辑与字母逻辑的差异——ChatGPT
人工智能·ai·chatgpt·ai写作
2601_957780842 小时前
Claude 4.6 对阵 GPT-5.4:2026 开发者大模型 API 选型深度解析
人工智能·python·gpt·ai·claude