计算机视觉基础入门课程（从算法到实战应用）

笔记笔记

挑战：光照，形变，大小尺度，类内变化
分类任务：y=f(x)
f是预测函数，x是图像特征。需要训练这样的f分类框架。
为了提供模型的泛化能力，需要对图像的特征进行很好的刻画。训练集应该尽可能多的包含样本不同形态，不能以RGB图像扔进网络，而是图像特征。

**手工设计的特征：**
全局特征：颜色、形状（把形状扣出来，加一个PCA的降维）；
局部特征：shape context、纹理（很多目标有均匀分布的纹理，gabor对纹理特征提取）
**SIFT特征**：局部特征，128维，计算一个小的图像区域，分成4×4的16个格，每个格子计算一个8维的梯度vector，然后将16个vector拼成一个128的特征。主要用于**图像分类**、**图像匹配**。
**Hog特征**：可以很好地捕捉目标的形状，用于**检测**、**目标跟踪**。
**LBP特征**：对局部区域进行编码，用于**人脸分类**。
**Harr特征**：多个滤波器，对不同部分有不同相位。

[展开全文]

科尔温•贾德 · 2019-05-08 · 计算机视觉历史回顾，从浅层学习到深度学习 0

本课程,主要涉及的算法是分类和回归.

计算机视觉目前主要的三大任务:(从简单到困难)

图像识别,vggnet,googlenet,resnet,retiannet
目标检测(classification and localization),faster-rcnn
分割(图像语义分割,个体分割)

目前交通目标检测的功能,估算人流或者车流密度.

图像语义分割,是将图像中每个个体都要区分出来,

个体分割,相当于语义分割+目标检测

其他的任务:

多目标跟踪,主要对视频内容进行个体分割和检测.gpturn,eco

视频分割,对实时帧进行分割,可以用在自动汽车驾驶.segnet

图像风格迁移.

GAN,例如直播中cycleGAN

视频生成,根据现有的视频帧,预测或者生成下几帧的视频.GAN,WGAN

RNN & LSTM是深度学习和计算机视觉中常用的工具.

常用的深度学习的开发平台,tensorflow,pytorch

caffe,底层用c来写,比较方便改源码,学术界常用.

[展开全文]

蜜獾 · 2019-05-05 · 计算机视觉历史回顾，从浅层学习到深度学习 0

图像分类

图像特征：SIFT HOG LBP HAR

http://www.vlfeat.org/ 介绍了图像特征提取方法

支持向量机SVM: 支持向量超平面

找出一个超平面，划分出正负样本

分类函数：

最大化间隔：支持向量到超平面距离最远

cnn特征：

神经网络做图像分类

神经网络搭建

激励函数：Sigmoid tanh relu leaky Relu maxout elu

卷积层

卷积滤波的计算

池化层

全连接层

训练网络

损失函数 SIGMOID_CROSS_ENTROPY_LOSS A 二分问题

SOFTMAX_LOSS 多分问题

EUCLIDEAN_LOSS 回归问题

训练Siame（s）e网络计算两个图像的相似度

Triplet loss

梯度反传来训练整个网络

[展开全文]

BruceLee · 2019-04-30 · 图像分类介绍 0

图像分类

神经网络原理
卷积神经网络介绍
利用caffe搭建深度网络做图像分类

图像分类

泛化能力

1.图像特征：color，local shape，global shape，texture.

传统的特征方法：

SITF(local shape用在图像分类/匹配，128维-64)

HoG（用在检测，处理形状比较好32维）

LBP（人脸）

Harr（很多组滤波器，检测边缘比较强，处理形状比较好）

简单的识别效果挺好 www.vlfeat.org/ 提供代码进行检测

2.支持向量机SVM

CNN特征：学习出来的，通过大量的数据学习，会有很好的泛化能力

通过神经网络学习出来的

神经网络做图像分类

神经网络的构成：参考机器学习内容
卷积滤波的计算，输出尺寸=（输入尺寸+2*pad-kernel_size)/步长+1
池化层（pooling layer）最大值池化：特征更加紧凑，同时具有位移不变性
全连接层：作为输出层

常见损失函数：sigmoid, softmax, euclidean, contrastive, triplet loss

常见图像分类的卷积神经网络介绍（CNN）

AlexNet

5个卷积成，2个圈连接层

VGGNet

可以有11，13，16，19层

GoogleNet
ResNet

训练技巧，防止过拟合

1.数据增强（data augmentation）：水平反转，随机裁剪和平移变换，颜色、关照变换

2.Dropout

3.L1,L2正则化项

4.Batch Normalization

[展开全文]

艾德蒙•骚塞 · 2019-04-18 · 实战项目（上）：如何搭建和训练一个深度学习网络 0

图像分类与深度卷积模型

图像分类

神经网络原理

卷积神经网络介绍

利用caffe搭建深度网络做图像分类

图像分类

泛化能力

1.图像特征：color,local shape.global shape,texture.

传统的特征方法：SITF(local shape用在图像分类/匹配，128维-64),HoG（用在检测，处理形状比较好32维）,LBP（人脸）,Harr（很多组滤波器，检测边缘比较强，处理形状比较好）简单的识别效果挺好 www.vlfeat.org/ 提供代码进行检测

2.支持向量机SVM

CNN特征：学习出来的，通过大量的数据学习，会有很好的泛化能力

通过神经网络学习出来的

神经网络做图像分类

神经网络的构成

卷积滤波的计算，输出尺寸=（输入尺寸+2*pad-kernel_size)/步长+1

池化层（pooling layer）最大值池化：特征更加紧凑，同时具有位移不变性

全连接层：作为输出层

常见损失函数：sigmoid,softma(多分类)x,euclidean,contrastive,triplet loss

[展开全文]

艾德蒙•骚塞 · 2019-04-16 · 图像分类介绍 0

课时2

1.泛化能力是衡量图像分类的一个重要指标

2.图像分类三部曲：（1）提取特征（2）用训练集和对应标签训练一个分类器（3）做出预测

3.特征分为全局特征和局部特征，全局特征可以通过颜色，形状，局部特征可以通过纹理（比如人脸） SIFI特征，HOG特征（用于目标检测精确检测出目标形状）LBP（人脸）Harr（形状，边缘）。不同的任务选取不同的特征检测。

3.SVM（支持向量机）

4.CNN特征它是通过构造神经网络学习而来。

5.激励函数是用来模拟神经元运算的分线性函数，然后大量的叠加来解决复杂的问题。

6.线性卷积（线性）输出尺寸=[（输入尺寸+2*填充单位）-卷积核大小]/步长+1

7.池化：矩阵的压缩有最大池化，平均池化等，有位移不变性，使得特征更紧凑

8.全连接层：对向量进行运算，做输出层

9.loss 交叉熵用于二分类，比如判断是不是背景；sofmax用于多分类；欧氏距离用做回归；对比损失函数，图像匹配检测。

[展开全文]

SDXB · 2019-04-13 · 图像分类介绍 0

图像分类：

1. 目标

2. 挑战：光照变化、形变、尺度、类内变化

3 定义： y=f(x)

4 预测函数指标：泛化能力

训练集和标签

如何提高泛化能力? 图像特征

5. 训练和测试流程

输入图像-->提取特征--->SVM分类器--->标签输出

6. 手工图像特征：

颜色、全局形状、局部形状、纹理

7. 图像特征: SIFT、HoG、LBP、Harr

8 分类工具：SVM

以Iris兰花分类为例

9 CNN特征：深度学习

输入图像-->神经网络--->标签输出

10 卷积层可视化

低层特征--》中层特征--》高层特征--》

[展开全文]

芭芭拉•克里 · 2019-04-11 · 图像分类介绍 0

挑战：光照，形变，大小尺度，类内变化
分类任务：y=f(x)
f是预测函数，x是图像特征。需要训练这样的f分类框架。
为了提供模型的泛化能力，需要对图像的特征进行很好的刻画。训练集应该尽可能多的包含样本不同形态，不能以RGB图像扔进网络，而是图像特征。

**手工设计的特征：**
全局特征：颜色、形状（把形状扣出来，加一个PCA的降维）；
局部特征：shape context、纹理（很多目标有均匀分布的纹理，gabor对纹理特征提取）
**SIFT特征**：局部特征，128维，计算一个小的图像区域，分成4×4的16个格，每个格子计算一个8维的梯度vector，然后将16个vector拼成一个128的特征。主要用于**图像分类**、**图像匹配**。
**Hog特征**：可以很好地捕捉目标的形状，用于**检测**、**目标跟踪**。
**LBP特征**：对局部区域进行编码，用于**人脸分类**。
**Harr特征**：多个滤波器，对不同部分有不同相位。

[展开全文]

Tree123456 · 2019-04-02 · 图像分类介绍 2