首页 AI学术青年与开发者社区

计算机视觉基础入门课程(从算法到实战应用)

开课时间:所有课时已更新完成,可随时开始学习
开课时长:24个课时,12次课
机器学习 基础入门
会员免费
现价:¥699.00
原价:¥999.00

  开通会员,立省699元 立即开通

  当前课程,会员领券立减59元>>

该课程已关闭

本课程,主要涉及的算法是分类和回归.

计算机视觉目前主要的三大任务:(从简单到困难)

  1. 图像识别,vggnet,googlenet,resnet,retiannet
  2. 目标检测(classification and localization),faster-rcnn
  3. 分割(图像语义分割,个体分割)

目前交通目标检测的功能,估算人流或者车流密度.

图像语义分割,是将图像中每个个体都要区分出来,

个体分割,相当于语义分割+目标检测

其他的任务:

多目标跟踪,主要对视频内容进行个体分割和检测.gpturn,eco

视频分割,对实时帧进行分割,可以用在自动汽车驾驶.segnet

图像风格迁移.

GAN,例如直播中cycleGAN

视频生成,根据现有的视频帧,预测或者生成下几帧的视频.GAN,WGAN

RNN & LSTM是深度学习和计算机视觉中常用的工具.

常用的深度学习的开发平台,tensorflow,pytorch

caffe,底层用c来写,比较方便改源码,学术界常用.

[展开全文]

图像分类

图像特征:SIFT HOG LBP HAR 

http://www.vlfeat.org/ 介绍了图像特征提取方法

支持向量机SVM: 支持向量  超平面

找出一个超平面,划分出正负样本

分类函数:

最大化间隔: 支持向量 到 超平面距离最远

cnn特征:

神经网络做图像分类

神经网络搭建

激励函数:Sigmoid  tanh  relu   leaky Relu  maxout elu

卷积层

卷积滤波的计算

池化层

全连接层

 

训练网络

损失函数  SIGMOID_CROSS_ENTROPY_LOSS A 二分问题

SOFTMAX_LOSS 多分问题

EUCLIDEAN_LOSS 回归问题

训练Siame(s)e网络 计算两个图像的相似度

Triplet loss 

梯度反传来训练整个网络

 

 

 

 

 

 

 

[展开全文]
  • 图像分类
  1. 神经网络原理
  2. 卷积神经网络介绍
  3. 利用caffe搭建深度网络做图像分类
图像分类
泛化能力
     1.图像特征:color,local shape,global  shape,texture.
       传统的特征方法:
            SITF(local shape用在图像分类/匹配,128维-64)
            HoG(用在检测,处理形状比较好32维)
            LBP(人脸)
            Harr(很多组滤波器,检测边缘比较强,处理形状比较好)
        简单的识别效果挺好 www.vlfeat.org/  提供代码进行检测
     2.支持向量机SVM
        CNN特征:学习出来的,通过大量的数据学习,会有很好的泛化能力
        通过神经网络学习出来的
神经网络做图像分类
  1.  神经网络的构成:参考机器学习内容
  2.  卷积滤波的计算,输出尺寸=(输入尺寸+2*pad-kernel_size)/步长+1
  3.  池化层(pooling layer)最大值池化:特征更加紧凑,同时具有位移不变性
  4.  全连接层:作为输出层
       常见损失函数:sigmoid, softmax, euclidean, contrastive, triplet loss
 
常见图像分类的卷积神经网络介绍(CNN)
  • AlexNet
5个卷积成,2个圈连接层
  • VGGNet
可以有11,13,16,19层
  • GoogleNet
  • ResNet
训练技巧,防止过拟合
1.数据增强(data augmentation):水平反转,随机裁剪和平移变换,颜色、关照变换
2.Dropout
3.L1,L2正则化项
4.Batch Normalization
 
 
 
 
 
 
 
 
 
 
 
 
 
 
[展开全文]
 
图像分类与深度卷积模型
图像分类
神经网络原理
卷积神经网络介绍
利用caffe搭建深度网络做图像分类
图像分类
泛化能力
     1.图像特征:color,local shape.global          shape,texture.
传统的特征方法:SITF(local shape用在图像分类/匹配,128维-64),HoG(用在检测,处理形状比较好32维),LBP(人脸),Harr(很多组滤波器,检测边缘比较强,处理形状比较好)简单的识别效果挺好 www.vlfeat.org/  提供代码进行检测
     2.支持向量机SVM
CNN特征:学习出来的,通过大量的数据学习,会有很好的泛化能力
通过神经网络学习出来的
神经网络做图像分类
神经网络的构成
卷积滤波的计算,输出尺寸=(输入尺寸+2*pad-kernel_size)/步长+1
池化层(pooling layer)最大值池化:特征更加紧凑,同时具有位移不变性
全连接层:作为输出层
常见损失函数:sigmoid,softma(多分类)x,euclidean,contrastive,triplet loss
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
[展开全文]

课时2

1.泛化能力是衡量图像分类的一个重要指标

2.图像分类三部曲:(1)提取特征(2)用训练集和对应标签训练一个分类器(3)做出预测

3.特征分为全局特征和局部特征,全局特征可以通过颜色,形状,局部特征可以通过纹理(比如人脸) SIFI特征,HOG特征(用于目标检测精确检测出目标形状)LBP(人脸)Harr(形状,边缘)。 不同的任务选取不同的特征检测。

3.SVM(支持向量机)

4.CNN特征 它是通过构造神经网络学习而来。

5.激励函数是用来模拟神经元运算的分线性函数,然后大量的叠加来解决复杂的问题。

6.线性卷积(线性) 输出尺寸=[(输入尺寸+2*填充单位)-卷积核大小]/步长+1

7.池化 :矩阵的压缩 有最大池化,平均池化等,有位移不变性,使得特征更紧凑

8.全连接层:对向量进行运算,做输出层

9.loss 交叉熵用于二分类,比如判断是不是背景;sofmax用于多分类;欧氏距离用做回归;对比损失函数,图像匹配检测。

[展开全文]
SDXB · 2019-04-13 · 图像分类介绍 0

图像分类:

1. 目标

2. 挑战:光照变化、形变、尺度、类内变化

3 定义:  y=f(x)

4 预测函数指标:泛化能力

  训练集和标签

 如何提高泛化能力? 图像特征

5. 训练和测试流程

    输入图像-->提取特征--->SVM分类器--->标签输出

6. 手工图像特征:

      颜色、全局形状、局部形状、纹理

    

7. 图像特征:  SIFT、HoG、LBP、Harr

8 分类工具:SVM

       以Iris兰花分类为例

9 CNN特征:深度学习

     输入图像-->神经网络--->标签输出

10 卷积层可视化

     低层特征--》中层特征--》高层特征--》

[展开全文]

挑战:光照,形变,大小尺度,类内变化
分类任务:y=f(x)
f是预测函数,x是图像特征。需要训练这样的f分类框架。
为了提供模型的泛化能力,需要对图像的特征进行很好的刻画。训练集应该尽可能多的包含样本不同形态,不能以RGB图像扔进网络,而是图像特征。

**手工设计的特征:**
全局特征:颜色、形状(把形状扣出来,加一个PCA的降维);
局部特征:shape context、纹理(很多目标有均匀分布的纹理,gabor对纹理特征提取)
**SIFT特征**:局部特征,128维,计算一个小的图像区域,分成4×4的16个格,每个格子计算一个8维的梯度vector,然后将16个vector拼成一个128的特征。主要用于**图像分类**、**图像匹配**。
**Hog特征**:可以很好地捕捉目标的形状,用于**检测**、**目标跟踪**。
**LBP特征**:对局部区域进行编码,用于**人脸分类**。
**Harr特征**:多个滤波器,对不同部分有不同相位。

[展开全文]
  • 图像特征
SIFT特征:局部特征,128维,计算小的图像区域,把该区域分为4*4=16个小区域,每个区域里是8维的特征的向量(图像分类、图像匹配)
HoG特征(目标检测):擅长处理目标的形状,因此一般用目标检测、目标追踪
LBP特征(人脸识别):将局部特征进行编码,对于人脸分类,实际使用的是一些关键部位(区域),LBP擅长捕捉这些区域的响应
Harr特征:由不同的滤波器组成,处理不同的特征,比如A对竖直的边缘的检测效果好,B对横平的边缘检测好,C对连续变化的边缘检测好,D则对斜侧边缘检测好(对形状敏感)
 
 
  • 卷积之后的图片大小:输出尺寸 = (输入尺寸+2*pad-kernel_size)/stride+1        pad是指填充
 
  • 池化层(pooling layer):最大值池化和平均值池化,可以使特征表达更加紧凑,同时具有位移不变性
 
  • 损失函数,不同损失函数对应不同的任务
sigmoid_cross_entropy_loss(交叉熵损失函数)
使用sigmoid函数作为输出层
其损失函数为            
常用于二分类问题
 
 
softmax_loss(softmax损失函数)
使用softmax作为输出层
其损失函数
常用于多分类问题
 
euclidean_loss(欧式距离损失函数)
[展开全文]

相关课程

开课日期:深度学习鼻祖Hinton公开课视频,随到随学开始
免费课 31964
开课日期:2020-07-04 08:50开始
5173

授课教师

暂无教师
微信扫码分享课程