李宏毅深度学习--如何做到鱼与熊掌兼得

兼得也就是:在比较少的参数量的情况下得到较低的Loss
下面主要是对比:

为什么网络更深比网络更宽会更好

获得分段的function,分的段越多,得到的函数就越接近真实的

分段+常数+一些分段函数的sum

如何制造阶梯型的function

  • sigmoid function

每个neuron产生一个阶梯型的function

只要有足够多的neuron,就可以产生任何形状的piecewis function

ReLU

为什么我们要深层网络,而不是扩展网络的宽度

网络越深,错误率越低

同样的参数量的时候,把一层的结点数变多,不如把网络变深

在产生同样的function的时候,矮胖的网络比高瘦的网络需要更多的参数量

example

接入第二层

接入第三层

  • Deep:(2^k个线段)一层2个neuron,总共三层,总共6个neuron
  • Shallow:(2^k个线段)只一层,一个neuron只能产生一个线段,2^k个线段就需要2^k个neuron

exponentially:需要多的参数量的意思

相关推荐
23遇见7 小时前
CANN与开源生态:如何融入并赋能主流AI框架的NPU后端支持
人工智能
工程师老罗7 小时前
YOLOv1数据增强
人工智能·yolo
大模型真好玩7 小时前
中美大模型“内战”都怎么打!一文详解Claude Opus 4.6和GPT-5.3 CodeX核心特性
人工智能·agent·deepseek
啊森要自信7 小时前
CANN ops-cv:揭秘视觉算子的硬件感知优化与内存高效利用设计精髓
人工智能·深度学习·架构·transformer·cann
说私域7 小时前
流量裂变与数字重塑:基于AI智能名片小程序的短视频全域引流范式研究
人工智能·小程序·流量运营·私域运营
繁华落尽,寻一世真情7 小时前
【基于 AI 的智能小说创作助手】MuMuAINovel-sqlite 基于 AI 的智能小说创作助手
数据库·人工智能·sqlite
kong79069287 小时前
AI大模型-机器学习
人工智能·机器学习
szcsun57 小时前
机器学习(五)--决策树
人工智能·决策树·机器学习
scott1985127 小时前
transformer中的位置编码:从绝对位置编码到旋转位置编码
人工智能·深度学习·transformer
人工智能AI技术7 小时前
自注意力机制:AI的“超能力放大镜”
人工智能