ResNet学习笔记

一、residual结构

优点:
(1)超深的网络结构(突破1000层)
(2)提出residual模块
(3)使用Batch Normalization加速训练(丢弃dropout)
解决问题:
(1) 梯度消失和梯度爆炸
(2) 退化问题,即层数深效果反而不好
右图对比左图, 可以减少计算的参数
二、

option B 可以使实线部分的输入矩阵和输出矩阵shape不同
三、Batch Normalization

四、网络结构图

相关推荐
Yan-英杰3 分钟前
DeepSeek-R1模型现已登录亚马逊云科技
java·大数据·人工智能·科技·机器学习·云计算·deepseek
Jamence15 分钟前
多模态大语言模型arxiv论文略读(一)
人工智能·深度学习·语言模型
KangkangLoveNLP18 分钟前
手动实现一个迷你Llama:使用SentencePiece实现自己的tokenizer
人工智能·深度学习·学习·算法·transformer·llama
kfepiza33 分钟前
`accept_ra` 和 `autoconf` 和 `forwarding` 的关系 笔记250404
linux·网络·笔记·tcp/ip·智能路由器·ip·tcp
浪淘沙jkp1 小时前
大模型学习二:DeepSeek R1+蒸馏模型组本地部署与调用
学习·deepseek
jndingxin1 小时前
OpenCV 图形API(14)用于执行矩阵(或图像)与一个标量值的逐元素乘法操作函数mulC()
人工智能·opencv
kfepiza1 小时前
Debian编译安装mysql8.0.41源码包 笔记250401
数据库·笔记·mysql·debian·database
m0_613607011 小时前
数据集(Dataset)和数据加载器(DataLoader)-pytroch学习3
学习
晓13132 小时前
第七章 Python基础进阶-异常、模块与包(其五)
人工智能·python
Swift社区2 小时前
AI+自动化测试:如何让测试编写效率提升10倍?
人工智能