depth matters
相比于布尔门来说,阈门更加重要。
若限制MLP的深度D,则需要指数级别的单元。
————————————————
MLP作为classifier:
实际就是找到一个复杂的决策边界,边界内得到1,边界外得到0.
感知机只能具有线性边界。
一个隐藏层的MLP只能组成凸的多边形。
所以,无法得出非凸的边界。
随着不断增加边的数量,将会得到一个圆柱体,圆柱体内部的和为N,然后很快减小到N/2。
含有一个隐藏层的MLP,可以对任意一个分类器任意精度的边界建模,但是这将需要指数数量的神经元,神经元数量将接近无限。
上述阐述了deep的重要性。
——————————————————
MLP是一个通用布尔机器/通用分类函数/是一个两层或者一个隐层的通用分类器。
更深的网络需要更少的神经元。
————————————————————
优化depth/width
若第一层隐含层的感知机数量减少一半,则会丢失很多信息。没有方法可以从不完全的输入信息中恢复。
每一层必须足够宽,来捕获那一层所需要的信息。
一旦达到sigmoid阈值函数的饱和区,所有信息都丢失了,所以保留的信息,仅仅是离边界不是很远的信息。
现代神经网络很少用sigmoid(更饱和),在前面的层中,实际上不会传递信息。在最后一层,可以用sigmoid。
并不是说,sigmoid或者阈值函数是很差的激活函数,只是说,使用这些,你将会需要更多的神经元。
总结:提升网络容量的不同方法:deeper and wider。
使用分层的激活函数。如果在前面丢失了信息,后面的层中,将无法恢复。因此,应该尽可能不在前面的层中丢失信息。但是,简单地线性传递所有信息,也不能实现任何东西,实际上应该在每一个点上都做出决定。