【中文字幕】卡耐基梅隆大学 2018 秋季《深度学习导论》Bhiksha Raj 领衔主讲

感知机--找到一个线性超平面区分正负样本

线性平面能够分开所有样本，并使所以样本距其最远。权重W是这个超平面的法线，它会尽可能的指向正样本背离负样本，经过反复迭代找出最适位置。偏置b是为了找到所有样本中间位置。

只有前向传播寻找复杂样本的分界线将会是一个NP问题。所以为了解决问题引入了反向传播，同时为了使反向传播可导使用sigmoid做激活函数，又因为多数样本存在与x的中间位置，sigmoid对两边数据的区分度高，对中间位置区分度较低，所以给予出现次数多的样本更高的权重，出现次数少的样本较低权重。相当于求函数的概率期望。

[展开全文]

mefly · 2019-12-30 · 3.2 训练神经网络 0

更复杂的决策边界问题：

五边形问题。

NP难问题，给出一个问题，很简单就能够证明，要想得到一个答案，是不可行的。

理论可行，计算上不可行。

回到分类问题上，如果修改一点权重，是否是在向正确的方向移动呢？是否在朝着提升效果的方向上移动呢？当然不会！因为输出是一个符号函数，也许可以改变整个W，但是这个输出不会改变！当穿越训练实例时，才是改变输出的唯一方式！

larger problem时，也是一样：

输出是一个阶跃，直到穿越了一个实例，才会发生变化。因此，对于W的小调整，并不会告诉你输出发生了什么变化。所以感知机的规则不适合这里。

另外一个问题：正负线性不可分。

解决solution：

知道反馈，并调整参数。需要找到一个合适的激活函数，来替代当前的符号函数。可能需要一些更平滑的激活函数，这种函数可微分，在任何地方都具有非零导数。=>sigmoid

————————————————————

引入可微分激活函数：

sigmoid可微。当x改变多少，y就改变多少。把W增加一点点，可以得到Y的相应变化。

Y对于X和W是可微的。

w／输入的微小变化，会在多大程度上改变Y。整个网络都是可微的，包括它的所有参数和所有输入。

————————————————————

最小化期望误差：

在实际中，某些X的发生频率更高，另外一些X未出现过。我们希望更多地关注X更可能发生的地方，更少地去关注X不太可能发生的地方。换句话说，对于每一个X，不仅仅希望最小化误差，还根据X的概率来对这些误差进行加权。出现的概率大，则对最后结果影响的概率大。

针对训练数据，计算经验误差，这其实就是优化问题。

————————————————

总结：

多组合优化问题：使用非零导数的连续激活函数，使我们能够估计网络参数。

定义网络输出之间的可区分散度。对于训练实例的期望输出，散度函数必须是可微分的，如果不是的话，即使整个网络是可微的，也会使网络崩溃。如果误差是不可微的，那我们就不能根据参数的调整，得到误差的变化趋势。

[展开全文]

琦舞 · 2019-02-23 · 3.2 训练神经网络 1

一个MLP进行拟合函数或者分类边界的过程，会变为一个组合优化的问题，在各种组合中找到符合目标的组合。那么如何优化呢？

这里如果继续用感知机的规则，首先出现的问题是w的微调整并不会影响原有的符号函数结果，即无法获知反馈情况，这时需要使用其他的激活函数来代替原有的符号函数。此时就解决了一个调整-结果告知的机制，能够获取调整的方向已经量度。这里的激活函数是平滑可微可导的，这本身就以为着激活函数可以捕捉输入和输出对应的微小变化和方向。这个过程就是非线性数据解析，如果MLP没有这样的操作，那么MLP无论多少层最后还是和一层一样。

这样的话，在MLP中如果W改变了一点，最终会在激活函数里面计算出Y对应改变多少，而y的输入为z，z=W.X。并且在这个过程中，网络层次和微分分解正好对应（前一层是后一层的输入），那么此时y可以感知全网所有wi的微小变化。

这时候接下来的任务就是利用这种感知能力去优化参数，即让误差最小就可以，这里可以看前面讲的那个散度函数的定义。最后这个散度函数在计算的时候只需要对样本空间的误差期望进行计算，求出最小值去代替原有散度函数。

[展开全文]

fogo · 2019-01-24 · 3.2 训练神经网络 0

激活函数的进步，见证了神经网络的进步。

从不可导的阶跃函数，到sigmoid函数，到relu等等。提升了训练的效果

这些视频应该多看几次。

[展开全文]

邓普斯•杰弗 · 2018-11-08 · 3.2 训练神经网络 1