首页 AI学术青年与开发者社区

【中文字幕】卡耐基梅隆大学 2018 秋季《深度学习导论》Bhiksha Raj 领衔主讲

开课时间:9月27日开始正式发布,更新节奏视官网课程而定
开课时长:28讲视频

感知就是从输出到输入,中间构建阈值,可以实现布尔运算,阈值也可以是硬阈值或者软阈值,甚至是一个函数。线性函数拓展到布尔运算,形状不过是多个叠加条件。拓展到多维,运用微积分的思想,可以模拟任何函数。

[展开全文]

现在神经网络用途有 语音识别,google翻译,图像识别认知,神经网络如同黑盒一样,由输入得到输出,我们需要了解这个黑盒是如何工作的

[展开全文]

为了进一步增强模型的准确性和学习速率。

通常我们在一开始会选用较大学习率,在经过一定时间后进行衰减。以求在保证准确性的前提下加快训练过程,同时避免陷入局部最优。

相关的方法有多种基于梯度下降衍生的优化算法,针对不同的场景和需求适当选用会有比较好的结果。

[展开全文]

WtX = |W|x|X|cosb

两个向量的点乘,在计算时采用线性代数的运算法则行向量W乘以列向量X 得出两个向量之间的结果。

找到整个函数的最小值,考虑一阶导数与二阶导数。实际无法一次求得,采用反复迭代的方式求得结果。即函数导数为0点。每次前进方向都为函数导数的反方向取一定的步长。

最后利用交叉熵函数求预测结果y与标定d的相关回传梯度去修正W与b。两个结果之间的相关度使用散度来表示。

[展开全文]
mefly · 2020-01-02 · 4.2 反向传播 0

网络利用偏导数和散度反向计算前一轮W+b产生的误差。利用链式求导反向计算,前一层利用后一层回传的导数来计算自己的偏差,只需一次计算不用反复计算。

梯度计算与感知机的区别

梯度计算异常点对其影响不大,有可能出现误分情况。感知机会对每一个类别进行区分,异常点对其影响很大,计算过程可能会较大。

梯度下降在样本大时会产生多种鞍点容易陷入局部最优。在链式过长时可能梯度消失,softmax可能会产生梯度爆炸。

[展开全文]

感知机--找到一个线性超平面区分正负样本

线性平面能够分开所有样本,并使所以样本距其最远。权重W是这个 超平面的法线,它会尽可能的指向正样本背离负样本,经过反复迭代找出最适位置。偏置b是为了找到所有样本中间位置。

只有前向传播寻找复杂样本的分界线将会是一个NP问题。所以为了解决问题引入了反向传播,同时为了使反向传播可导使用sigmoid做激活函数,又因为多数样本存在与x的中间位置,sigmoid对两边数据的区分度高,对中间位置区分度较低,所以给予出现次数多的样本更高的权重,出现次数少的样本较低权重。相当于求函数的概率期望。

[展开全文]

通过神经网络可以模拟任意的布尔运算与多项式运算。

神经网络模拟情况的好坏取决于网络的深度和宽度。如果只用一层的话需要的节点数将会呈指数级增长,因此我们会用多层网络来进行模拟。

同时在网络的训练过程中在每一层的传递时需要考虑信息的损失,sigmoid激活函数会损失两端的信息,造成失真现象,常用于最后一层不需要回传信息时。其余层多用ReLU函数进行激活保留各层信息。

[展开全文]

神经网络是最新最热的研究

  语言识别,语言翻译,图像分割,艺术,医疗,股票,几乎所有的领域都能从AI中获得好处,深度神经网络就是最先进的技术。

联结主义

   人类的大脑是通过神经元连接起来的。每个神经元都被其他很多神经元连接起来,目前为止不知道为什么是这样的,但我们明白了认知是基于什么所形成的。所有存储在大脑的信息,实际上是存在于大脑神经元的连接中。所有的一切都是依赖于神经元之间的连接来决定如何工作的。

[展开全文]

线性和仿射的区别

f(ax+by)=af(x)+bf(y)

穿过坐标圆心是线性,有偏差就是防射

 

一个图的深度取决于它的输入,输入来源的路径有两步,深度就2

 

多层神经元可以搭建任意不同类型的布尔函数

可以使用karnaugh map去表达输入的布尔组合

任意的网络至少有一个隐藏层,而隐藏层的节点数最坏有2的n-1次方个。层数增加可以消减节点,n个输入的异或(xor),使用3(n-1)个节点就可以了,而层数是2log 2N层。层数和节点数都需要做权衡考量,过多的层数容易过拟合,过少的层数结果不够精准。

[展开全文]

进入小组观看课程

更多 >>
以下为该课程相关学习小组,您可以选择任意小组加入学习课程并交流

SMART Lab学习小组

成员:1泡泡:0

点击观看
生物医学小分队

成员:163泡泡:67

点击观看
CUM 11-485/785 NLP学习小组

成员:278泡泡:160

点击观看