兼得也就是:在比较少的参数量的情况下得到较低的Loss
下面主要是对比:为什么网络更深比网络更宽会更好



获得分段的function,分的段越多,得到的函数就越接近真实的

分段+常数+一些分段函数的sum

如何制造阶梯型的function
- sigmoid function

每个neuron产生一个阶梯型的function
只要有足够多的neuron,就可以产生任何形状的piecewis function

ReLU

为什么我们要深层网络,而不是扩展网络的宽度

网络越深,错误率越低

同样的参数量的时候,把一层的结点数变多,不如把网络变深


在产生同样的function的时候,矮胖的网络比高瘦的网络需要更多的参数量

example


接入第二层

接入第三层

- Deep:(2^k个线段)一层2个neuron,总共三层,总共6个neuron
- Shallow:(2^k个线段)只一层,一个neuron只能产生一个线段,2^k个线段就需要2^k个neuron

exponentially:需要多的参数量的意思
