首页 AI学术青年与开发者社区

【中文字幕】卡耐基梅隆大学 2018 秋季《深度学习导论》Bhiksha Raj 领衔主讲

开课时间:9月27日开始正式发布,更新节奏视官网课程而定
开课时长:28讲视频

网络利用偏导数和散度反向计算前一轮W+b产生的误差。利用链式求导反向计算,前一层利用后一层回传的导数来计算自己的偏差,只需一次计算不用反复计算。

梯度计算与感知机的区别

梯度计算异常点对其影响不大,有可能出现误分情况。感知机会对每一个类别进行区分,异常点对其影响很大,计算过程可能会较大。

梯度下降在样本大时会产生多种鞍点容易陷入局部最优。在链式过长时可能梯度消失,softmax可能会产生梯度爆炸。

[展开全文]

 

神经网络的向量化表示

  • 使得计算更加简洁
  • 同时有很多关于矩阵的库能够加速运算

前向传播

 

后向传播

 

神经网络的整个训练过程

 

反向传播一直有效吗

  • 在分类问题中分类误差是一个关于权重不可微的方程存在这种情况我们调整参数但是误差不改变的情况。如果一个实例得到了正确的分类分类误差会调到某个值。
  • 那么我们选择一种折中的方法就是采用divergence function 代替分类误差。
  • 但是还有一个问题最小化divergence function 不一定最小化了分类误差。

感知机与后向传播的区别

 

1对于感知机当训练样本中加入一个新的样本感知机分类器有可能会发生较大的变化

  • 能够很好的适应训练数据
  • 感知机规则有较低的偏差如果可能甚至可以做到无偏差
  • 感知机有较大的方差当输入有很小的改动是结果将会有较大的变化。

(2) 后向传播当训练样本中加入一个新的样本汇总将会有较小的改动。这就意味着不会因为一个样本的change网络发生较大的变化。

  • 它是一个 低方差的分类器
  • 理论上你想要的答案能够大体找到而不是精确找到。
  • 后向传播经常找不到一个分类答案尽管这个答案是神经网络可以学习的一个函数主要是是因为这个答案不是损失函数可以达到的最优值。但是反向传播算法比感知机具有较低的方差这是它的优点所在。

 

 

[展开全文]

进入小组观看课程

更多 >>
以下为该课程相关学习小组,您可以选择任意小组加入学习课程并交流

SMART Lab学习小组

成员:1泡泡:0

点击观看
生物医学小分队

成员:163泡泡:67

点击观看
CUM 11-485/785 NLP学习小组

成员:278泡泡:160

点击观看