【中文字幕】卡耐基梅隆大学 2018 秋季《深度学习导论》Bhiksha Raj 领衔主讲

1阈值T到sigmol函数的转变。以及更多的激活函数，relu等

2deeply的定义？

Multi-layer perception

3.多层神经网络，可以拟合实现，所有基本的逻辑门运算，以及函数等。

4.两层隐含层的网路可以拟合任何boolean运算。

5.真值表，truth table

6.DNF? expressed disjunctive normal form.

7.karnaugh Map. to . truth map

8. 2^n-1个perceptrons in the hidden layer 对应 2n-1，甚至，2log2(n).

9宽度和深度，宽度是指数级的增加。

10.神经网络的参数个数的问题，网络深度决定于函数，

[展开全文]

邓普斯•杰弗 · 2018-10-17 · 2.1：神经网络作为通用逼近器 1

线性特质：

f(ax+by) = af(x) +ｂｆ（ｙ）

ｆ（ｘ）＝西格玛求和ｘｉ＋ｂ，ｂ不为零时，不过原点。

阈值使用激励函数进行平滑０,１的输出，比如ｓｉｇｍｏｄ，ｔａｎｈ，ｒｌ等函数。

　多层感知机作为一个通用的布尔函数，作为一个通用的分类器，作为一个通用的函数模拟器。这些机制在前面已经提到，深度学习的机制从这里展开。

首先是布尔函数的表达，单层表达布尔开关，多二层（一层隐藏层）表达所有的布尔表达式。如图：

　其中每个真值表里的真值可以用析取范式表达，而每个析取范式可以在隐藏层中的某一个节点与输入（ｘ１到ｘ５）的链接表达。因此两层足够表达表结构。而隐藏层的感知节点数通常在最坏情况下是为２的ｎ－１次方，ｎ为输入量，是指数关系。这时需要加深层次去削减节点，ｎ个输入的异或操作使用３（ｎ－１）个节点就可以了，而层数为２ｌｏｇ２Ｎ。这里就需要对层数和节点数做个权衡，这里并不是那种深度固定的问题。

Karnaugh Map优点：

1、用Grid的形式来表示真值表，第一眼看起来很直观。

2、每个相邻的格子之间的只有一个bit位的差别。

3、简化了析取范式。

如果用最基本的析取范式（DNF）来表示，则需要7个表达式（每一个高亮的格子都需要一个表达式，例如0000，表示为XYZW，再将其7个表达式组成析取范式）。
如果用Karnaugh Map，运用Group组合，由第一列可以看出来，当YZ为00的时候，WZ的值不会影响真值（Truth Value）。此时四个表达式可以简化为一个。

4、在第一层可以减少Neuron神经结点的数量。可以减少到3个神经元。

Karnaugh Map缺点：

1、在Karnaugh Map中找到最紧凑的Group组合是一个NP难的问题。

2、（Worst Case）当表示为一个棋盘格的时候，Karnough Map所需要的Neuron神经结点是最多的。下图需要8个单元。

Karnough Map 三维 6个变量的特性：

1、由4 x 4 x 4 =64 个小立方体组成，每一个立方体代表一种表达式，一种可能性。

2、Worst Case需要 8 x 4 = 32 个 Neurons。总结：2^(N-1)（指数型）

XOR 特性：

1、交换律。

2、结合律。

简化版的XOR运算只需要2个神经元。

每一个XOR运算可以只用3个神经元表示。这样将神经元数量由指数型降到了线形。2^(N-1) -> 3 x (N-1)。运用XOR的结合律可以讲，深度从N -> log(n)。

该笔记来自：2.1：神经网络作为通用逼近器

[展开全文]

fogo · 2019-01-22 · 2.1：神经网络作为通用逼近器 1

看了三遍，英文水平有点差没太跟上节奏，有些内容还是需要看看ppt再仔细梳理下

[展开全文]

leahrui · 2018-10-19 · 2.2：神经网络作为通用逼近器 1

一个MLP只要它无限宽或无限深，就可以解决指数级别宽的问题。并且最佳宽度取决于布尔函数的复杂性理论所需要变量个数。

大多数布尔函数，阈门是一个多项式函数，并且n是一个最佳深度，如果限制深度的话，需要指数级别的单元。那意味着，如果限制深度，正如限制MLP的深度，那么大多数的函数是无法表达的。因此，更深意味着更好。如果增加深度，意味着你可表达的函数，也呈指数级增加。

我们在现实中更多讨论的是分类问题，我们已经将MLP作用于真实的输入，MLP实际上就是找到一个复杂的决策边界，如果你是在做分类，边界内得到1，边界外得到0。单个感知机只是一个线性分类，它使用一个线性边界，它实际上是一个超平面。一侧输出是0，一侧输出是1，这是二维的，感知机就是类似于这样的形式，我们可以计算或与非逻辑，但无法计算XOR，因为XOR并非是一个阶梯函数，XOR横切与对角线，一旦越过对角线就回来了，因此无论你所做的感知机如何复杂，都无法表达XOR，感知机只能具有线性边界。但我们可以使用MLP组合一个随机的决策边界，得到任意的凸多边形（一个隐藏层的MLP只能组成凸多边形）。如何做出非凸的决策边界呢？我们通过叠加多余一层的网络来得到任意决策边界。但我们可以只使用一个隐藏层构成一个任意的决策边界吗？

含有一个隐藏层的mlp可以对任意一个分类器任意精度的边界建模，但是这将会需要指数数量的非常大的神经元数量将接近无限。

现在浅层网络需要的神经元的数量，是输入维度的潜在指数，任何时候固定你网络的深度，对于一个特别大的函数来说这都是浅层的。MLP是一个布尔机器，甚至是一个单隐层的网络作为布尔机。多层感知机是一个通用分类函数，甚至是一个两层或者一层隐层的通用分类器。但是相对于一个深层网络，一个单隐层的网络可能需要指数级数量的感知机。建造同样的函数，更深的网络可能需要更少的神经元。

MLP是通用布尔函数、通用分类器、通用逼近器。一个单层MLP可以近似任意精度，但对于输入尺寸会有指数级或者无限宽，MLP可以用更少的神经元实现同样精度。更深层次的网络更具表现力，即可以构建更多类型的函数。

[展开全文]

Leon95315 · 2018-10-24 · 2.2：神经网络作为通用逼近器 1

这里从导数讲到梯度，梯度是y随着x的变化最快增长的方向的表达，有了梯度就可以去逼近求解函数的极值点。

这里利用梯度下降的迭代方法来逼近极值点，这个算法一般肯定会找到一个局部极值，不一定是最小值。如果要求解全局最小，可以利用二阶导数的hassin矩阵去去除鞍点，但是这种计算量大。或者可以在函数的构造上下功夫，让函数是个凸函数。

本节用了很长的时间在讲述导数已经梯度的意义，而在最后得出结论和方法，并且列出了多个不同的激活函数及其导数情况。

[展开全文]

fogo · 2019-01-27 · 4.1 反向传播 1

hebbian learning的方案的问题：

不能进行减法，权重会一直增加。

Frank Rosenblatt:

提出权重，阈值，并且提供了权值更新的算法，实际上也是现在广泛使用的方法。

可以进行模拟与，和，或，非操作

但是无法模拟亦或操作！

[展开全文]

朱海浩 · 2018-11-09 · 1.2 神经计算的历史和认知基础 1

激活函数的进步，见证了神经网络的进步。

从不可导的阶跃函数，到sigmoid函数，到relu等等。提升了训练的效果

这些视频应该多看几次。

[展开全文]

邓普斯•杰弗 · 2018-11-08 · 3.2 训练神经网络 1

affine和linear的区别：

affine是translated linear hyperplane。

perception(bias)->soft perception->other activation function->multi-layer perception(only input layer and output layer)-> deep networks(depth: length og th elongest path from a source to a sink)

多层感知机（MLP）作为一个执行任意布尔运算的函数-> universal boolean function.

除了通常的与，或，非，MLP还能计算亦或，泛化与，泛化或等计算。

a boolean functio is just a truth table。

一个两层的MLP就可以实现任何布尔函数。实现其真值表即可。

卡诺图可以简化DNF公式，从而得到用来计算该布尔元算的所需最少的perception数量。

一般化的，如果我们只用一个隐层来表达布尔函数的话，那么最坏情况下，最多需要2^(n-1)个perception，n是输入的数量。

如果允许多层的话，那么在最坏情况下，我们只需要2 * （n - 1)，实际上是用的xor运算来实现的。一个xor最少用2个perception就可以实现，（如果允许bias为小数的话，如果不允许，就需要三个）那么需要的层数是log_2 n.

这就是为什么需要深度网络的原因！！！减少参数才是关键！

实际情况会更复杂，如果我们要表达的是一个更复杂的函数，

[展开全文]

朱海浩 · 2018-11-09 · 2.1：神经网络作为通用逼近器 1

# 第二遍学习：

1.神经网络是通用函数的逼近器。

可以建模任何布尔函数
可以建模任何分类边界
可以建模任意连续值函数模型

如果网络满足最小约束，也就是使用较少的参数你逼近拟合函数，效果未必那么好！

2.感知机，一般情况下：

输入时实数，是输入的放射组合
偏置b,感知机阈值的偏置
激活函数，是一个非必须的阈值函数。最早用的是阶跃函数，如果我们将他替换为更为平滑的激活函数，例如，sigmoid和relu就可以用于图像处理等等。
因此，激活函数，未必是阈值函数。

3.偏置可以和放射项拼在一起，更加简洁。

4.前馈网络，输出不会反馈回输入。单向计算是单向的。非循环的。

5.网络的参数是权重和偏置。

6.已知一个目标函数，构建网络的过程就是，你拟合接近，最小化误差的过程。（网络学习）

7.从样本学习到的关系，并非是独一无二的。

8.Rosebaltt

9.阈值，直线，超平面。

10.感知机最早的模型可以理解为一个符号函数。

11.感知机的权重W与正样本的cos值是正，与负样本的cos值为负。因此，根据这个对W进行修正，就可以达到训练的效果。W+X，这的X是错误样本，就会将分类平面向正确方向靠拢。

12.如果数据线性可分，以上方法可以在有限的步数只能完成更新。（R/r）^2；

[展开全文]

邓普斯•杰弗 · 2018-11-11 · 3.1 训练神经网络 1

神经网络作为通用逼近器：

激活函数阈值与或非异或

[展开全文]

shirley · 2018-11-14 · 2.1：神经网络作为通用逼近器 1