首页 AI学术青年与开发者社区

计算机视觉基础入门课程(从算法到实战应用)

开课时间:所有课时已更新完成,可随时开始学习
开课时长:24个课时,12次课
机器学习 基础入门
会员免费
现价:¥699.00
原价:¥999.00

  开通会员,立省699元 立即开通

  当前课程,会员领券立减59元>>

该课程已关闭

DCGAN

利用深度卷积模型来生成目标

1、取消所有池华层,利用反卷积上采样

D的网络中,加入步幅为二的卷积

反卷积:

把feature map做padding

把featue map 扩大

 

将输入数据作为0均值,标准化为1 的归一化,可以解决梯度消失或梯度爆炸的问题

 

全连接变为全卷积

G网络 用RELU 最后一层用Tanh

tanh 取值范围更大,具有对称性

 

D的判别用sigmod函数

 

RELU 和 leakrelu

relu x<0 输出为0,

leakrelu 输入加了很小的参数,

 

D、G均用了batch normalrelize

 

AC-GAN

限定生成某一类的物体

噪声串联一个label 的到新的,并且送入到生成器中

 

判别器不但要判别真假,还要判别类别

 

image2image

图像对,用来训练

生成器改为u-Net,根据不同的标签,将图像生成

判别函数也用图片对来做判别

[展开全文]

生成对抗网络:分割迁移

超分辨率图像修复

补全残缺数据

 

对抗生成模型:

利用高斯噪声采样,生成高维模数据

判别器

生成器

判别输入图像是否为真实图像,输出为真实图像的概率,输出为1 真实,0 判别为generator的图像

判别器训练,尽可能让判别器能够判断出假的图像D(G(z))->0

 

生成器对信息(输入噪声/)生成真实他图像,生成器尽可能输出的结果去迷惑生成器,使得判别器无法判别

以至于生成器可以生成最接近真值图像的网络

 

 

100 维噪声 全连接层1024维

reshape n*n*m

w,h不断变大,channel值不断减小

转置卷积(反卷积的操作)

 

最终生成为H*W*3的图像

 

判别器

 

minmaxV(D,G)

生成器训练判别器是生成器参数固定

同理判别器训练生成器的时候判别器的参数也固定

 

采样m个noisy

采样m个x真值

先训练k次D

再训练K次G

求导

 

两个数据分布的

JS散度,表明的是数据分布的距离

生成器优化min Ezlogd(1-g(z))

0~-无穷

当判别器很好的判别的时候,其很容易接近1/0容易造成梯度消失

min Ez(-logD(g(z)))

0~正无穷

优化目标不合理,容易生成很少类别的图片

model collapse

 

W-GAN

另一种衡量标准,werssitan distance

 

 

[展开全文]

课时6笔记:

人脸识别——deep learning age

1. 人脸识别流程

a. 检测

b. 对齐

c.特征提取

d.识别

2. 检测

1)回归

2)proposal+分类+合并

3)关键点检测

3.对齐(三个点即可 )

不共线的三对对应点决定了一个唯一的仿射变换

仿射变换

4.特征学习

1)Triplet Loss “ 同类相近,异类相远”

2)度量学习

5. 识别

1)人脸验证

2)人脸检索

6.回归问题

回归需要用UPDM loss

分类需要用softmax loss

[展开全文]

人脸检测(上)——前深度学习时代

 

1. 为什么选择人脸识别?

    容易采集。

2. 人脸识别缺点?

    计算复杂(算法的事),安全性低(伪造)

3. 人脸识别防伪技术——活体检测

  【问】支付宝的,眨眼,低头,转头,是活体检测技术吗?

4. 人脸识别应用有哪些?

    1:1比对,刷脸登录,如检票,登录

    1:N比对(10^2-10^3),智能门禁,如打卡

    1:N比对(N>10^9),智能寻亲

5. 人脸识别要解决的问题?

    1:1人脸识别-两个人是否为同一个人?

          [input:两张图片; output:是或否]

    1:1人脸检索-在数据库中找到同一个人?

          [input:query; output:ranked list]

6.特征表达

[展开全文]

1. 卷积神经网络介绍

2. 用caffe实战——图像分类

【问题1】卷积核大小的选择动机?

【问题2】con3-64?

3X3的卷积核,64通道

【问题3】什么是残差网络?

H(x) = F(x) + x

例:

5映射到5.1

F'(5)=5.1

H(5)=F(5)+5=5.1

F(x)=0.1

F'为引入残差前的映射,F为引入残差后的映射

【问题4】为什么说FC的参数过多,容易过拟合?

【问题5】怎么理解不同平台下(caffe版)的Alexnet的权重?

[展开全文]

卷积层




 

[展开全文]

计算机视觉应用:图像识别、目标检测、分割

VGGNet GoogleNet ResNet DenseNet

深度学习开发平台:Torch,TensorFlow,Caffe,MatConvNet Theano

[展开全文]

1. 图像分类介绍

1) 把图像归为某一类

2)图像分类的挑战:

   a.光照变化 

   b.形变

   c.大小变化(尺度)

   d.类内变化

【问题1】图像分类的应用场景有什么?

【问题2】a.深度学习,学习的图像特征效果更好,具体就是泛化能力更好,这里的“学习”怎么理解?特征表示更好是什么意思?

b. 为什么深度学习提的特征对遮挡有效?

个人理解:深度学习的特征是更高层的语义特征

 

2. 图像分类的定义

                y = f(x)

3. 图像特征

1)传统方法及特征:

颜色、全局形状、局部形状、纹理

SIFT特征、HOG特征、LBP特征、Harr特征(这些特征维度很低)

http://www.olfeat.org

 

4. 支持向量机

5. CNN特征

【问题3】为什么CNN特征对遮挡有效?

传统的特征为什么不行?

物理意义上怎么理解?

(在维度上的解释)

个人理解:CNN特征拿到了语义特征

6. 用神经网络做图像分类

【问题4】每层网络做非线性操作,在前传的过程中,达到了什么效果?

在数学上,非线性函数主要用来解决什么问题?

 

【问题5】1X3072这个向量是如何得来的?

 

【问题6】 全连接层作为输出层。Sigmoid函数作为输出层。怎么理解一个函数可以作为一个全连接层?

 

【问题7】损失函数的物理意义是什么?

 

7. 神经网络达到了实用的效果。深度学习让计算机视觉得到了广泛的发展。

 

[展开全文]
andy · 2018-02-22 · 图像分类介绍 0

1. CV回顾

(1)计算机视觉定义:看到图片理解图片的系统

【问题】人类是怎么分类的?(过程原理)

 

(2)计算机视觉三大任务:

         a. 识别:车牌、人脸(精细:表情)

         b. 目标检测:行人、车辆

             object detection 

             = localization + classification

         c. 分割:语义分割、个体分割

                   (个体分割更难=检测+分割)

 

(3)计算机视觉其他任务

         I. 视频目标跟踪(单/多目标、车辆)

         II. 视频分割(静态图片在时态域)

 

(4)计算机视觉的应用

  • 风格迁移(风景画->艺术画)

代表技术GAN,【预测孩子.app】

  • 视频换脸
  • 视频生成(预测:股票、无人车、静态人走起来)         

 

2. 深度学习简介

1) 代表性模型

 2006 Hinton --- BP

 2012 Hinton --- CNN

1989                    RNN (预测、决策)

1997                    LSTM(预测、决策)

2)发展情况

人脸识别:-->错误率超越人类,0.5%

图像分割:-->50%—75% 交并比

看图说话:

3)网络模型

VGG,Google,Res,Dense

【为什么模型这么发展?期待后面哲学层面的解释】

4)开发平台

Torch(Pytorch),TensorFlow,Caffe,MatConvNet

 

3. 课程介绍

按照算法演进的过程

建议:通过博客来学习

[展开全文]

相关课程

开课日期:深度学习鼻祖Hinton公开课视频,随到随学开始
免费课 31964
开课日期:2020-07-04 08:50开始
5172

授课教师

暂无教师
微信扫码分享课程