深度学习知识点总结

关于bn层

mean,std 第i个元素就是第i个通道上全部batch张输出特征图所有元素的平均值和方差,所shape就是特征图shape
可学习参数 weight和bias分别对应 γ,β.有bn时cov可以不用bia

在训练过程中,mean和std是统计得到的,然后在迭代过程中动态累加,m*si-1+(1-m)*si,m为历史保留比,对应pytorch的momenta参数,test过程中使用训练过程的统计结果

关于计算量(FLOPs)和参数量(Params)

flops :乘加次数,计算量对应时间复杂度

例如:
f l o p s c o v = h ∗ w ∗ k 2 ∗ c i n ∗ c o u t f l o p s d o w n s a m p l e = 0 f l o p s f c = w e i g h t i n ∗ w e i g h t o u t flops_{cov} = h*w*k^2*c_{in}*c_{out}\newline flops_{downsample} = 0\newline flops_{fc} = weight_{in}*weight_{out} flopscov=h∗w∗k2∗cin∗coutflopsdownsample=0flopsfc=weightin∗weightout
params :参数量对应于我们之前的空间复杂度,参数量影响显存
p a r a m s c o v = k 2 ∗ c i n ∗ c o u t p a r a m s d o w n s a m p l e = 0 p a r a m s f c = w e i g h t i n ∗ w e i g h t o u t params_{cov} = k^2*c_{in}*c_{out}\newline params_{downsample} = 0\newline params_{fc} = weight_{in}*weight_{out} paramscov=k2∗cin∗coutparamsdownsample=0paramsfc=weightin∗weightout
显存=模型自身的参数(params)+模型计算产生的中间变量(memory)

相关推荐
树獭非懒1 小时前
从零构建ReAct智能体:让AI学会边想边做
人工智能·llm·agent
冬奇Lab12 小时前
Workflow 系列(04):Multi-Agent 协调——编排器边界、并发控制与上下文隔离
人工智能·工作流引擎
冬奇Lab12 小时前
每日一个开源项目(第147篇):HyperGraphRAG - 用超图表示 N 元关系,RAG 的第三代范式
人工智能·开源·graphql
甲维斯12 小时前
Github + 阿里云oss实现类似codex的自动更新!
人工智能
阿里云大数据AI技术14 小时前
光轮智能 × 阿里云:共建 Physical AI 云上数据、评测与持续学习基础设施
人工智能·机器学习
机器之心14 小时前
实锤了:Claude Code偷查用户,时区、中国AI实验室全是关键词
人工智能·openai
网易云信14 小时前
Cursor点燃个人开发者,企业级AI为何频频受挫?Agent工厂从提效工具到AI员工的跃迁
人工智能·开源
网易云信14 小时前
解锁触手可及的温暖:网易智企 x Wander Puffs AI 云游泡芙
人工智能