李宏毅深度学习--如何做到鱼与熊掌兼得

reduceanxiety2025-03-08 21:29

兼得也就是：在比较少的参数量的情况下得到较低的Loss
下面主要是对比：

为什么网络更深比网络更宽会更好

获得分段的function，分的段越多，得到的函数就越接近真实的

分段+常数+一些分段函数的sum

如何制造阶梯型的function

sigmoid function

每个neuron产生一个阶梯型的function

只要有足够多的neuron，就可以产生任何形状的piecewis function

ReLU

为什么我们要深层网络，而不是扩展网络的宽度

网络越深，错误率越低

同样的参数量的时候，把一层的结点数变多，不如把网络变深

在产生同样的function的时候，矮胖的网络比高瘦的网络需要更多的参数量

example

接入第二层

接入第三层

Deep：（2^k个线段）一层2个neuron，总共三层，总共6个neuron

Shallow：（2^k个线段）只一层，一个neuron只能产生一个线段，2^k个线段就需要2^k个neuron

exponentially：需要多的参数量的意思