笔记笔记
¥
支付方式
请使用微信扫一扫 扫描二维码支付
请使用支付宝扫一扫 扫描二维码支付
开通会员,立省699元 立即开通
笔记笔记
本课程,主要涉及的算法是分类和回归.
计算机视觉目前主要的三大任务:(从简单到困难)
目前交通目标检测的功能,估算人流或者车流密度.
图像语义分割,是将图像中每个个体都要区分出来,
个体分割,相当于语义分割+目标检测
其他的任务:
多目标跟踪,主要对视频内容进行个体分割和检测.gpturn,eco
视频分割,对实时帧进行分割,可以用在自动汽车驾驶.segnet
图像风格迁移.
GAN,例如直播中cycleGAN
视频生成,根据现有的视频帧,预测或者生成下几帧的视频.GAN,WGAN
RNN & LSTM是深度学习和计算机视觉中常用的工具.
常用的深度学习的开发平台,tensorflow,pytorch
caffe,底层用c来写,比较方便改源码,学术界常用.
图像分类
图像特征:SIFT HOG LBP HAR
http://www.vlfeat.org/ 介绍了图像特征提取方法
支持向量机SVM: 支持向量 超平面
找出一个超平面,划分出正负样本
分类函数:
最大化间隔: 支持向量 到 超平面距离最远
cnn特征:
神经网络做图像分类
神经网络搭建
激励函数:Sigmoid tanh relu leaky Relu maxout elu
卷积层
卷积滤波的计算
池化层
全连接层
训练网络
损失函数 SIGMOID_CROSS_ENTROPY_LOSS A 二分问题
SOFTMAX_LOSS 多分问题
EUCLIDEAN_LOSS 回归问题
训练Siame(s)e网络 计算两个图像的相似度
Triplet loss
梯度反传来训练整个网络
课时2
1.泛化能力是衡量图像分类的一个重要指标
2.图像分类三部曲:(1)提取特征(2)用训练集和对应标签训练一个分类器(3)做出预测
3.特征分为全局特征和局部特征,全局特征可以通过颜色,形状,局部特征可以通过纹理(比如人脸) SIFI特征,HOG特征(用于目标检测精确检测出目标形状)LBP(人脸)Harr(形状,边缘)。 不同的任务选取不同的特征检测。
3.SVM(支持向量机)
4.CNN特征 它是通过构造神经网络学习而来。
5.激励函数是用来模拟神经元运算的分线性函数,然后大量的叠加来解决复杂的问题。
6.线性卷积(线性) 输出尺寸=[(输入尺寸+2*填充单位)-卷积核大小]/步长+1
7.池化 :矩阵的压缩 有最大池化,平均池化等,有位移不变性,使得特征更紧凑
8.全连接层:对向量进行运算,做输出层
9.loss 交叉熵用于二分类,比如判断是不是背景;sofmax用于多分类;欧氏距离用做回归;对比损失函数,图像匹配检测。
图像分类:
1. 目标
2. 挑战:光照变化、形变、尺度、类内变化
3 定义: y=f(x)
4 预测函数指标:泛化能力
训练集和标签
如何提高泛化能力? 图像特征
5. 训练和测试流程
输入图像-->提取特征--->SVM分类器--->标签输出
6. 手工图像特征:
颜色、全局形状、局部形状、纹理
7. 图像特征: SIFT、HoG、LBP、Harr
8 分类工具:SVM
以Iris兰花分类为例
9 CNN特征:深度学习
输入图像-->神经网络--->标签输出
10 卷积层可视化
低层特征--》中层特征--》高层特征--》
挑战:光照,形变,大小尺度,类内变化
分类任务:y=f(x)
f是预测函数,x是图像特征。需要训练这样的f分类框架。
为了提供模型的泛化能力,需要对图像的特征进行很好的刻画。训练集应该尽可能多的包含样本不同形态,不能以RGB图像扔进网络,而是图像特征。
**手工设计的特征:**
全局特征:颜色、形状(把形状扣出来,加一个PCA的降维);
局部特征:shape context、纹理(很多目标有均匀分布的纹理,gabor对纹理特征提取)
**SIFT特征**:局部特征,128维,计算一个小的图像区域,分成4×4的16个格,每个格子计算一个8维的梯度vector,然后将16个vector拼成一个128的特征。主要用于**图像分类**、**图像匹配**。
**Hog特征**:可以很好地捕捉目标的形状,用于**检测**、**目标跟踪**。
**LBP特征**:对局部区域进行编码,用于**人脸分类**。
**Harr特征**:多个滤波器,对不同部分有不同相位。