首页 AI学术青年与开发者社区

【中文字幕】卡耐基梅隆大学 2018 秋季《深度学习导论》Bhiksha Raj 领衔主讲

开课时间:9月27日开始正式发布,更新节奏视官网课程而定
开课时长:28讲视频

1阈值T到sigmol函数的转变。以及更多的激活函数,relu等

2deeply的定义?

Multi-layer perception

3.多层神经网络,可以拟合实现,所有基本的逻辑门运算,以及函数等。

4.两层隐含层的网路可以拟合任何boolean运算。

5.真值表,truth table

6.DNF? expressed disjunctive normal form. 

7.karnaugh Map. to . truth map

8. 2^n-1个perceptrons  in the hidden layer 对应 2n-1,甚至,2log2(n).

9宽度和深度,宽度是指数级的增加。

10.神经网络的参数个数的问题,网络深度决定于函数,

[展开全文]

 线性特质:

f(ax+by) = af(x) +bf(y)

f(x)=西格玛求和xi+b,b不为零时,不过原点。

阈值使用激励函数进行平滑0,1的输出,比如sigmod,tanh,rl等函数。

 

 多层感知机作为一个通用的布尔函数,作为一个通用的分类器,作为一个通用的函数模拟器。这些机制在前面已经提到,深度学习的机制从这里展开。

 

首先是布尔函数的表达,单层表达布尔开关,多二层(一层隐藏层)表达所有的布尔表达式。如图:

 其中每个真值表里的真值可以用析取范式表达,而每个析取范式可以在隐藏层中的某一个节点与输入(x1到x5)的链接表达。因此两层足够表达表结构。而隐藏层的感知节点数通常在最坏情况下是为2的n-1次方,n为输入量,是指数关系。这时需要加深层次去削减节点,n个输入的异或操作使用3(n-1)个节点就可以了,而层数为2log2N。这里就需要对层数和节点数做个权衡,这里并不是那种深度固定的问题。

 

Karnaugh Map优点:

1、用Grid的形式来表示真值表,第一眼看起来很直观。

2、每个相邻的格子之间的只有一个bit位的差别。

3、简化了析取范式。

  • 如果用最基本的析取范式(DNF)来表示,则需要7个表达式(每一个高亮的格子都需要一个表达式,例如0000,表示为XYZW,再将其7个表达式组成析取范式)。
  • 如果用Karnaugh Map,运用Group组合,由第一列可以看出来,当YZ为00的时候,WZ的值不会影响真值(Truth Value)。​此时四个表达式可以简化为一个。

4、在第一层可以减少Neuron神经结点的数量。可以减少到3个神经元。

 

Karnaugh Map缺点:

1、在Karnaugh Map中找到最紧凑的Group组合是一个NP难的问题。

2、(Worst Case)当表示为一个棋盘格的时候,Karnough Map所需要的Neuron神经结点是最多的。下图需要8个单元。

 

Karnough Map 三维 6个变量的特性:

1、由4 x 4 x 4 =64 个小立方体组成,每一个立方体代表一种表达式,一种可能性。

2、Worst Case需要 8 x 4 = 32 个 Neurons。总结:2^(N-1)(指数型)

 

XOR 特性:

1、交换律。

2、结合律。

简化版的XOR运算只需要2个神经元。

 

每一个XOR运算可以只用3个神经元表示。这样将神经元数量由指数型降到了线形。2^(N-1) -> 3 x (N-1)。运用XOR的结合律可以讲,深度从N -> log(n)。

该笔记来自:2.1:神经网络作为通用逼近器

 

 

 

 

[展开全文]
看了三遍,英文水平有点差没太跟上节奏,有些内容还是需要看看ppt再仔细梳理下
[展开全文]

一个MLP只要它无限宽或无限深,就可以解决指数级别宽的问题。并且最佳宽度取决于布尔函数的复杂性理论所需要变量个数。

大多数布尔函数,阈门是一个多项式函数,并且n是一个最佳深度,如果限制深度的话,需要指数级别的单元。那意味着,如果限制深度,正如限制MLP的深度,那么大多数的函数是无法表达的。因此,更深意味着更好。如果增加深度,意味着你可表达的函数,也呈指数级增加。

我们在现实中更多讨论的是分类问题,我们已经将MLP作用于真实的输入,MLP实际上就是找到一个复杂的决策边界,如果你是在做分类,边界内得到1,边界外得到0。单个感知机只是一个线性分类,它使用一个线性边界,它实际上是一个超平面。一侧输出是0,一侧输出是1,这是二维的,感知机就是类似于这样的形式,我们可以计算或与非逻辑,但无法计算XOR,因为XOR并非是一个阶梯函数,XOR横切与对角线,一旦越过对角线就回来了,因此无论你所做的感知机如何复杂,都无法表达XOR,感知机只能具有线性边界。但我们可以使用MLP组合一个随机的决策边界,得到任意的凸多边形(一个隐藏层的MLP只能组成凸多边形)。如何做出非凸的决策边界呢?我们通过叠加多余一层的网络来得到任意决策边界。但我们可以只使用一个隐藏层构成一个任意的决策边界吗?

含有一个隐藏层的mlp可以对任意一个分类器任意精度的边界建模,但是这将会需要指数数量的非常大的神经元数量将接近无限。

现在浅层网络需要的神经元的数量,是输入维度的潜在指数,任何时候固定你网络的深度,对于一个特别大的函数来说这都是浅层的。MLP是一个布尔机器,甚至是一个单隐层的网络作为布尔机。多层感知机是一个通用分类函数,甚至是一个两层或者一层隐层的通用分类器。但是相对于一个深层网络,一个单隐层的网络可能需要指数级数量的感知机。建造同样的函数,更深的网络可能需要更少的神经元。

MLP是通用布尔函数、通用分类器、通用逼近器。一个单层MLP可以近似任意精度,但对于输入尺寸会有指数级或者无限宽,MLP可以用更少的神经元实现同样精度。更深层次的网络更具表现力,即可以构建更多类型的函数。

[展开全文]

这里从导数讲到梯度,梯度是y随着x的变化最快增长的方向的表达,有了梯度就可以去逼近求解函数的极值点。

这里利用梯度下降的迭代方法来逼近极值点,这个算法一般肯定会找到一个局部极值,不一定是最小值。如果要求解全局最小,可以利用二阶导数的hassin矩阵去去除鞍点,但是这种计算量大。或者可以在函数的构造上下功夫,让函数是个凸函数。

本节用了很长的时间在讲述导数已经梯度的意义,而在最后得出结论和方法,并且列出了多个不同的激活函数及其导数情况。

[展开全文]
fogo · 2019-01-27 · 4.1 反向传播 1

hebbian learning的方案的问题:

不能进行减法,权重会一直增加。

Frank Rosenblatt:

提出权重,阈值,并且提供了权值更新的算法,实际上也是现在广泛使用的方法。

可以进行模拟  与,和,或,非操作

但是无法模拟亦或操作!

[展开全文]

激活函数的进步,见证了神经网络的进步。

从不可导的阶跃函数,到sigmoid函数,到relu等等。提升了训练的效果

 

这些视频应该多看几次。

[展开全文]

affine和linear的区别:

affine是translated linear hyperplane。

perception(bias)->soft perception->other activation function->multi-layer perception(only input layer and output layer)-> deep networks(depth: length og th elongest path from a source to a sink)

 

多层感知机(MLP)作为一个执行任意布尔运算的函数-> universal boolean function.

除了通常的与,或,非,MLP还能计算亦或,泛化与,泛化或等计算。

a boolean functio is just a truth table。

一个两层的MLP就可以实现任何布尔函数。实现其真值表即可。

卡诺图可以简化DNF公式,从而得到用来计算该布尔元算的所需最少的perception数量。

一般化的,如果我们只用一个隐层来表达布尔函数的话,那么最坏情况下,最多需要2^(n-1)个perception,n是输入的数量。

如果允许多层的话,那么在最坏情况下,我们只需要2 * (n - 1),实际上是用的xor运算来实现的。一个xor最少用2个perception就可以实现,(如果允许bias为小数的话,如果不允许,就需要三个)那么需要的层数是log_2 n.

这就是为什么需要深度网络的原因!!!减少参数才是关键!

实际情况会更复杂,如果我们要表达的是一个更复杂的函数,

[展开全文]

# 第二遍学习:

1.神经网络是通用函数的逼近器。

  • 可以建模任何布尔函数
  • 可以建模任何分类边界
  • 可以建模任意连续值函数模型

如果网络满足最小约束,也就是使用较少的参数你逼近拟合函数,效果未必那么好!

2.感知机,一般情况下:

  • 输入时实数,是输入的放射组合
  • 偏置b,感知机阈值的偏置
  • 激活函数,是一个非必须的阈值函数。最早用的是阶跃函数,如果我们将他替换为更为平滑的激活函数,例如,sigmoid和relu就可以用于图像处理等等。
  • 因此,激活函数,未必是阈值函数。

3.偏置可以和放射项拼在一起,更加简洁。

4.前馈网络,输出不会反馈回输入。单向计算是单向的。非循环的。

5.网络的参数是权重和偏置。

6.已知一个目标函数,构建网络的过程就是,你拟合接近,最小化误差的过程。(网络学习)

7.从样本学习到的关系,并非是独一无二的。

8.Rosebaltt

9.阈值,直线,超平面。

10.感知机最早的模型可以理解为一个符号函数。

11.感知机的权重W与正样本的cos值是正,与负样本的cos值为负。因此,根据这个对W进行修正,就可以达到训练的效果。W+X,这的X是错误样本,就会将分类平面向正确方向靠拢。

12.如果数据线性可分,以上方法可以在有限的步数只能完成更新。(R/r)^2;

[展开全文]

神经网络作为通用逼近器:

激活函数 阈值 与或非异或 
[展开全文]

进入小组观看课程

更多 >>
以下为该课程相关学习小组,您可以选择任意小组加入学习课程并交流

SMART Lab学习小组

成员:1泡泡:0

点击观看
生物医学小分队

成员:164泡泡:67

点击观看
CUM 11-485/785 NLP学习小组

成员:278泡泡:160

点击观看