计算机视觉基础入门课程（从算法到实战应用）

DCGAN

利用深度卷积模型来生成目标

1、取消所有池华层，利用反卷积上采样

D的网络中，加入步幅为二的卷积

反卷积：

把feature map做padding

把featue map 扩大

将输入数据作为0均值，标准化为1 的归一化，可以解决梯度消失或梯度爆炸的问题

全连接变为全卷积

G网络用RELU 最后一层用Tanh

tanh 取值范围更大，具有对称性

D的判别用sigmod函数

RELU 和 leakrelu

relu x<0 输出为0，

leakrelu 输入加了很小的参数，

D、G均用了batch normalrelize

AC-GAN

限定生成某一类的物体

噪声串联一个label 的到新的，并且送入到生成器中

判别器不但要判别真假，还要判别类别

image2image

图像对，用来训练

生成器改为u-Net，根据不同的标签，将图像生成

判别函数也用图片对来做判别

[展开全文]

罗莎琳德•伊 · 2018-08-28 · 对抗生成网络(GAN)和应用（下） 1

生成对抗网络：分割迁移

超分辨率图像修复

补全残缺数据

对抗生成模型：

利用高斯噪声采样，生成高维模数据

判别器

生成器

判别输入图像是否为真实图像，输出为真实图像的概率，输出为1 真实，0 判别为generator的图像

判别器训练，尽可能让判别器能够判断出假的图像D(G（z）)->0

生成器对信息（输入噪声/）生成真实他图像,生成器尽可能输出的结果去迷惑生成器，使得判别器无法判别

以至于生成器可以生成最接近真值图像的网络

100 维噪声全连接层1024维

reshape n*n*m

w,h不断变大，channel值不断减小

转置卷积（反卷积的操作）

最终生成为H*W*3的图像

判别器

minmaxV(D,G)

生成器训练判别器是生成器参数固定

同理判别器训练生成器的时候判别器的参数也固定

采样m个noisy

采样m个x真值

先训练k次D

再训练K次G

求导

两个数据分布的

JS散度，表明的是数据分布的距离

生成器优化min Ezlogd（1-g（z））

0~-无穷

当判别器很好的判别的时候，其很容易接近1/0容易造成梯度消失

min Ez(-logD(g(z)))

0~正无穷

优化目标不合理，容易生成很少类别的图片

model collapse

W-GAN

另一种衡量标准，werssitan distance

[展开全文]

罗莎琳德•伊 · 2018-08-28 · 对抗生成网络(GAN)和应用（上） 1

课时6笔记：

人脸识别——deep learning age

1. 人脸识别流程

a. 检测

b. 对齐

c.特征提取

d.识别

2. 检测

1）回归

2）proposal+分类+合并

3）关键点检测

3.对齐（三个点即可）

不共线的三对对应点决定了一个唯一的仿射变换

仿射变换

4.特征学习

1）Triplet Loss “ 同类相近，异类相远”

2）度量学习

5. 识别

1）人脸验证

2）人脸检索

6.回归问题

回归需要用UPDM loss

分类需要用softmax loss

[展开全文]

andy · 2018-08-15 · 人脸识别的算法（下） 1

人脸检测（上）——前深度学习时代

1. 为什么选择人脸识别？

容易采集。

2. 人脸识别缺点？

计算复杂（算法的事）,安全性低（伪造）

3. 人脸识别防伪技术——活体检测

【问】支付宝的，眨眼，低头，转头，是活体检测技术吗？

4. 人脸识别应用有哪些？

1:1比对，刷脸登录，如检票，登录

1:N比对(10^2-10^3),智能门禁，如打卡

1:N比对(N>10^9),智能寻亲

5. 人脸识别要解决的问题？

1:1人脸识别-两个人是否为同一个人？

[input:两张图片; output:是或否]

1:1人脸检索-在数据库中找到同一个人？

[input:query; output:ranked list]

6.特征表达

[展开全文]

andy · 2018-08-13 · 人脸识别的算法（上） 0

1. 卷积核的设定

2. 高层语义信息

http://ethereon.github.io/netscope

[展开全文]

andy · 2018-08-13 · 实战项目（下）：如何搭建和训练一个深度学习网络 0

1. 卷积神经网络介绍

2. 用caffe实战——图像分类

【问题1】卷积核大小的选择动机？

【问题2】con3-64?

3X3的卷积核，64通道

【问题3】什么是残差网络？

H(x) = F(x) + x

例：

5映射到5.1

F'(5)=5.1

H(5)=F(5)+5=5.1

F(x)=0.1

F'为引入残差前的映射，F为引入残差后的映射

【问题4】为什么说FC的参数过多，容易过拟合？

【问题5】怎么理解不同平台下（caffe版）的Alexnet的权重？

[展开全文]

andy · 2018-08-13 · 实战项目（上）：如何搭建和训练一个深度学习网络 0

卷积层

[展开全文]

爱的烟火 · 2018-07-17 · 图像分类介绍 0

计算机视觉应用：图像识别、目标检测、分割

VGGNet GoogleNet ResNet DenseNet

深度学习开发平台：Torch，TensorFlow，Caffe，MatConvNet Theano

[展开全文]

七个又七个 · 2018-03-01 · 计算机视觉历史回顾，从浅层学习到深度学习 0

1. 图像分类介绍

1) 把图像归为某一类

2)图像分类的挑战：

a.光照变化

b.形变

c.大小变化（尺度）

d.类内变化

【问题1】图像分类的应用场景有什么？

【问题2】a.深度学习，学习的图像特征效果更好，具体就是泛化能力更好，这里的“学习”怎么理解？特征表示更好是什么意思？

b. 为什么深度学习提的特征对遮挡有效？

个人理解：深度学习的特征是更高层的语义特征

2. 图像分类的定义

y = f(x)

3. 图像特征

1）传统方法及特征：

颜色、全局形状、局部形状、纹理

SIFT特征、HOG特征、LBP特征、Harr特征（这些特征维度很低）

http://www.olfeat.org

4. 支持向量机

5. CNN特征

【问题3】为什么CNN特征对遮挡有效？

传统的特征为什么不行？

物理意义上怎么理解？

（在维度上的解释）

个人理解：CNN特征拿到了语义特征

6. 用神经网络做图像分类

【问题4】每层网络做非线性操作，在前传的过程中，达到了什么效果？

在数学上，非线性函数主要用来解决什么问题？

【问题5】1X3072这个向量是如何得来的？

【问题6】全连接层作为输出层。Sigmoid函数作为输出层。怎么理解一个函数可以作为一个全连接层？

【问题7】损失函数的物理意义是什么？

7. 神经网络达到了实用的效果。深度学习让计算机视觉得到了广泛的发展。

[展开全文]

andy · 2018-02-22 · 图像分类介绍 0

1. CV回顾

（1）计算机视觉定义：看到图片理解图片的系统

【问题】人类是怎么分类的？（过程原理）

（2）计算机视觉三大任务：

a. 识别：车牌、人脸（精细：表情）

b. 目标检测：行人、车辆

object detection

= localization + classification

c. 分割：语义分割、个体分割

（个体分割更难=检测+分割）

（3）计算机视觉其他任务

I. 视频目标跟踪（单/多目标、车辆）

II. 视频分割（静态图片在时态域）

（4）计算机视觉的应用

风格迁移（风景画->艺术画）

代表技术GAN，【预测孩子.app】

视频换脸
视频生成（预测：股票、无人车、静态人走起来）

2. 深度学习简介

1) 代表性模型

2006 Hinton --- BP

2012 Hinton --- CNN

1989 RNN (预测、决策)

1997 LSTM(预测、决策)

2）发展情况

人脸识别：-->错误率超越人类，0.5%

图像分割：-->50%—75% 交并比

看图说话：

3）网络模型

VGG，Google，Res，Dense

【为什么模型这么发展？期待后面哲学层面的解释】

4）开发平台

Torch(Pytorch)，TensorFlow，Caffe，MatConvNet

3. 课程介绍

按照算法演进的过程

建议：通过博客来学习

[展开全文]

andy · 2018-02-20 · 计算机视觉历史回顾，从浅层学习到深度学习 1

计算机视觉基础入门课程（从算法到实战应用）

相关课程

授课教师

最新学员

学员动态