1 图像特征:SIFT,HoG,LBP,Harr
2 卷积神经网络可以自动提取图像特征,效果要比传统方法好很多
3 卷积神经网络包括:卷积层,激活层,池化层,全连接层
4 损失函数:交叉熵损失函数、Softmax损失函数、欧式距离损失函数、对比损失函数、Triplet loss
¥
支付方式
请使用微信扫一扫 扫描二维码支付
请使用支付宝扫一扫 扫描二维码支付
开通会员,立省699元 立即开通
1 图像特征:SIFT,HoG,LBP,Harr
2 卷积神经网络可以自动提取图像特征,效果要比传统方法好很多
3 卷积神经网络包括:卷积层,激活层,池化层,全连接层
4 损失函数:交叉熵损失函数、Softmax损失函数、欧式距离损失函数、对比损失函数、Triplet loss
计算机视觉任务分类:
1 图像识别
2 目标检测
3 图像语义分割-->个体分割=检测+分割
4 目标跟踪
5 视频分割
6 图像风格迁移
7 生成对抗网络
8 视频生成
深度学习:
1 CNN-->VGGNet,GoogleNet,ResNet,DenseNet
2 RNN-->LSTM
3 框架-->Torch,TensorFlow,Caffe
三大任务:识别,检测,分割
识别:分类识别,车牌识别,人脸识别
目标检测(分类+定位):行人检测,车辆检测
分割:语义分割,个体分割(检测+分割)
其他:视觉目标跟踪,视频分割,GAN,视频生成etc.
计算机视觉的三大任务:图像识别(车牌识别,人脸识别),目标检测,图像分割(语义分割,个体分割,视频分割)。有趣的应用:图像风格迁移。
计算机视觉中常用的网络结构:Alexnet, VGGnet, Googlenet, Resnet, Densenet';
GAN网络:
应用:1、图像上色;
2、图形生成;
3、风格迁移;
4、图像分辨率修复。
问题:不知道原图形的分布等,如何解决?
模型:完全可见信念网络;变分自编码器;GAN
GAN:判别器(判别是否是是真实图片(可导函数))和生成器(根据输入信息生成真实图像)
物体检测:
搜索+分类
原始方法:滑动窗口,但是只能检测固定尺寸的目标;针对变化的尺寸,我们可是使用图像金字塔。
传统的方法:
人工手动特征+浅层分类器
基于深度学习网络:
带有标签的数据+深度神经网络
目标检测:
数据集:
数据集PASCAL VOC
特点:目标稀少,类别简单(20类)
数据集coco
特点:目标稠密,类别较多(80类)
怎么评价检测器的性能:
1、Intersection over Union(IoU)交并比
当真实与预测的IOU大于0.5时说明检测器成功预测出目标的位置。
2、precision-recall curve(PR曲线)
改变置信度的阀值计算精度和召回,做出曲线
特点:整体趋势随着召回率的增加精度下降,但局部会发生增加现象。
原因:整体下降:随着置信度阀值的降低召回率基本不变,而精度会逐渐降低;局部增加:整理中含有假真例子还造成局部增加。
深度学习网络:
AlexNet、VGGNet、GoogleNet和Resnet
vggnet滤波器的尺寸减小但个数增加,深度增加;
GOOGLEnet发明了inception网络的宽度增加,去掉了全连接层,降低参数;
Resnet发明了参差层,网络的深度急剧增加,避免了梯度消失。
图像分类:
挑战:1、光照条件;
2、形变;
3、同一类的多种展现形式。
定义:基于误差最小化构建分类函数模型,然后使用模型预测。
如何评价分类器的好坏:泛化能力
如何提高泛化能力:通过特征描述图像。
三部曲:a)提取特征;b)根据数据和标签训练分类器;c)预测分类。
图片特征:
全局特征:颜色直方图,形状;
局部特征:某个部位;
纹理特征:经过滤波得到纹理。
例如:sift(局部特征)、hog(检测)、LBP(人脸识别)、harr
分类器:svm间隔最大化
更好的特征:CNN特征
原因:学习出来的CNN特征具有更好的泛化能力,具有平移、尺度、旋转等不变性,鲁棒性比较好。
如何学习CNN特征:构建神经网络。
构建卷及网络:激活函数;卷基层(底层特征、中层以及高层);池化层;全连接层;损失函数
误差反传:正传计算出损失;反向传播误差,计算梯度和更新参数。
RPN 网络
卷积输出的为是否有目标的置信度
rpn 中每个pixel 生成9个anchor 与groundtruth 的IOU >0.7 为正例
<0.3为负例
anchor的实际坐标为(x+0.5)*16
(y+0.5)*16,映射到原始的原始的图像
预测值为偏移量
计算的groundturnth 与anchor 的偏移量
softmax+entropy
网络对应类别的输出,每个anchor都判定这个anchor是否包含物体
label 看IOU>0.7为1 <0.3为0
rpn label 9 个anchor的偏移量
利用
smooth L1 损失计算变差
克服大的误差梯度的影响
propose就有了
将Pf 降序排序 取前12000 个框 取NMS后取前2000个框
2000个框与交并比大于0.5 前景小于0.5
总共取128个
最后用全连接计算类别和回归
利用双线性插值,插出来的值,找到该点的值,利用mask