首页 AI学术青年与开发者社区

计算机视觉基础入门课程(从算法到实战应用)

开课时间:所有课时已更新完成,可随时开始学习
开课时长:24个课时,12次课
机器学习 基础入门
会员免费
现价:¥699.00
原价:¥999.00

  开通会员,立省699元 立即开通

  当前课程,会员领券立减59元>>

该课程已关闭

1 图像特征:SIFT,HoG,LBP,Harr
2 卷积神经网络可以自动提取图像特征,效果要比传统方法好很多
3 卷积神经网络包括:卷积层,激活层,池化层,全连接层
4 损失函数:交叉熵损失函数、Softmax损失函数、欧式距离损失函数、对比损失函数、Triplet loss

[展开全文]

计算机视觉任务分类:
1 图像识别
2 目标检测
3 图像语义分割-->个体分割=检测+分割
4 目标跟踪
5 视频分割
6 图像风格迁移
7 生成对抗网络
8 视频生成

深度学习:
1 CNN-->VGGNet,GoogleNet,ResNet,DenseNet
2 RNN-->LSTM
3 框架-->Torch,TensorFlow,Caffe

[展开全文]

三大任务:识别,检测,分割

识别:分类识别,车牌识别,人脸识别

目标检测(分类+定位):行人检测,车辆检测

分割:语义分割,个体分割(检测+分割)

其他:视觉目标跟踪,视频分割,GAN,视频生成etc.

[展开全文]

计算机视觉的三大任务:图像识别(车牌识别,人脸识别),目标检测,图像分割(语义分割,个体分割,视频分割)。有趣的应用:图像风格迁移。

计算机视觉中常用的网络结构:Alexnet, VGGnet, Googlenet, Resnet, Densenet';

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

[展开全文]

GAN网络:

应用:1、图像上色;

2、图形生成;

3、风格迁移;

4、图像分辨率修复。

问题:不知道原图形的分布等,如何解决?

模型:完全可见信念网络;变分自编码器;GAN

GAN:判别器(判别是否是是真实图片(可导函数))和生成器(根据输入信息生成真实图像)

 

[展开全文]

物体检测:

搜索+分类

原始方法:滑动窗口,但是只能检测固定尺寸的目标;针对变化的尺寸,我们可是使用图像金字塔。

传统的方法:

人工手动特征+浅层分类器

基于深度学习网络:

带有标签的数据+深度神经网络

[展开全文]

目标检测:

数据集:

数据集PASCAL VOC

特点:目标稀少,类别简单(20类)

数据集coco

特点:目标稠密,类别较多(80类)

怎么评价检测器的性能:

1、Intersection over Union(IoU)交并比

当真实与预测的IOU大于0.5时说明检测器成功预测出目标的位置。

2、precision-recall curve(PR曲线)

改变置信度的阀值计算精度和召回,做出曲线

特点:整体趋势随着召回率的增加精度下降,但局部会发生增加现象。

原因:整体下降:随着置信度阀值的降低召回率基本不变,而精度会逐渐降低;局部增加:整理中含有假真例子还造成局部增加。

[展开全文]

深度学习网络:

AlexNet、VGGNet、GoogleNet和Resnet

vggnet滤波器的尺寸减小但个数增加,深度增加;

GOOGLEnet发明了inception网络的宽度增加,去掉了全连接层,降低参数;

Resnet发明了参差层,网络的深度急剧增加,避免了梯度消失。

 

[展开全文]

图像分类:

挑战:1、光照条件;

2、形变;

3、同一类的多种展现形式。

定义:基于误差最小化构建分类函数模型,然后使用模型预测。

如何评价分类器的好坏:泛化能力

如何提高泛化能力:通过特征描述图像。

三部曲:a)提取特征;b)根据数据和标签训练分类器;c)预测分类。

图片特征:

全局特征:颜色直方图,形状;

局部特征:某个部位;

纹理特征:经过滤波得到纹理。

例如:sift(局部特征)、hog(检测)、LBP(人脸识别)、harr

分类器:svm间隔最大化

更好的特征:CNN特征

原因:学习出来的CNN特征具有更好的泛化能力,具有平移、尺度、旋转等不变性,鲁棒性比较好。

如何学习CNN特征:构建神经网络。

构建卷及网络:激活函数;卷基层(底层特征、中层以及高层);池化层;全连接层;损失函数

误差反传:正传计算出损失;反向传播误差,计算梯度和更新参数。

 

 

 

 

[展开全文]

RPN 网络

卷积输出的为是否有目标的置信度

rpn 中每个pixel 生成9个anchor 与groundtruth 的IOU >0.7 为正例

<0.3为负例

anchor的实际坐标为(x+0.5)*16

(y+0.5)*16,映射到原始的原始的图像

 

预测值为偏移量

计算的groundturnth 与anchor 的偏移量

 

softmax+entropy

网络对应类别的输出,每个anchor都判定这个anchor是否包含物体

label 看IOU>0.7为1 <0.3为0

rpn label 9 个anchor的偏移量

利用

smooth L1 损失计算变差

克服大的误差梯度的影响

propose就有了

 

将Pf 降序排序 取前12000 个框 取NMS后取前2000个框

 

2000个框与交并比大于0.5 前景小于0.5

总共取128个

 

最后用全连接计算类别和回归

 

利用双线性插值,插出来的值,找到该点的值,利用mask

[展开全文]

相关课程

开课日期:深度学习鼻祖Hinton公开课视频,随到随学开始
免费课 31884
开课日期:2020-07-04 08:50开始
5123

授课教师

暂无教师
微信扫码分享课程