深度学习知识点总结

关于bn层

mean,std 第i个元素就是第i个通道上全部batch张输出特征图所有元素的平均值和方差,所shape就是特征图shape
可学习参数 weight和bias分别对应 γ,β.有bn时cov可以不用bia

在训练过程中,mean和std是统计得到的,然后在迭代过程中动态累加,m*si-1+(1-m)*si,m为历史保留比,对应pytorch的momenta参数,test过程中使用训练过程的统计结果

关于计算量(FLOPs)和参数量(Params)

flops :乘加次数,计算量对应时间复杂度

例如:
f l o p s c o v = h ∗ w ∗ k 2 ∗ c i n ∗ c o u t f l o p s d o w n s a m p l e = 0 f l o p s f c = w e i g h t i n ∗ w e i g h t o u t flops_{cov} = h*w*k^2*c_{in}*c_{out}\newline flops_{downsample} = 0\newline flops_{fc} = weight_{in}*weight_{out} flopscov=h∗w∗k2∗cin∗coutflopsdownsample=0flopsfc=weightin∗weightout
params :参数量对应于我们之前的空间复杂度,参数量影响显存
p a r a m s c o v = k 2 ∗ c i n ∗ c o u t p a r a m s d o w n s a m p l e = 0 p a r a m s f c = w e i g h t i n ∗ w e i g h t o u t params_{cov} = k^2*c_{in}*c_{out}\newline params_{downsample} = 0\newline params_{fc} = weight_{in}*weight_{out} paramscov=k2∗cin∗coutparamsdownsample=0paramsfc=weightin∗weightout
显存=模型自身的参数(params)+模型计算产生的中间变量(memory)

相关推荐
whaosoft-1431 分钟前
w~大模型~合集4
人工智能
Mr.小海5 分钟前
AI 商业化部署中,ollama 和 vllm 的选型对比
人工智能·大模型
合方圆~小文11 分钟前
架空线路监控系统是针对高压架空输电线路设计的一种安全监测解决方案
c语言·人工智能·硬件工程·数据库架构
SatoshiGogo16 分钟前
李宏毅《机器学习2025》笔记 —— 更新中
人工智能·笔记
张彦峰ZYF19 分钟前
推进可解释人工智能迈向类人智能讨论总结分享
人工智能
一年春又来24 分钟前
AI-02a5a8.神经网络-与学习相关的技巧-超参数的验证
人工智能·神经网络·学习
程序猿阿伟1 小时前
《边缘算力困局突破:智能体模型动态调度全解析》
人工智能
Panesle1 小时前
ten-vad:低延迟、轻量化且高性能的流式语音活动检测系统
人工智能·语言模型·ffmpeg·开源·音视频·语音识别
东临碣石821 小时前
【AI论文】UniVG-R1:基于强化学习的推理引导通用视觉定位
人工智能
Sherlock Ma1 小时前
LSNet:以小见大,CVPR2025全新轻量级主干网络
图像处理·人工智能·pytorch·深度学习·目标检测·计算机视觉·cnn