首页 AI学术青年与开发者社区

计算机视觉基础入门课程(从算法到实战应用)

开课时间:所有课时已更新完成,可随时开始学习
开课时长:24个课时,12次课
机器学习 基础入门
会员免费
现价:¥699.00
原价:¥999.00

  开通会员,立省699元 立即开通

  当前课程,会员领券立减59元>>

该课程已关闭

从获取图像到读懂图像

1、数据(图片、视频)

2、算法(机器学习算法、神经网络)回归+分类

计算机视觉应用

三大任务

1、图像识别

包括精细识别,例如:车牌识别(ETC)、人脸识别(属性显示)

2、目标检测

行人检测、车辆检测等

3、图像分割

图像语义分割、个体分割=检测+分割

其它任务

视觉目标跟踪(Tracking)

例如:多目标跟踪、车辆跟踪等

视频分割

有趣的应用:图像风格迁移、生成对抗网路(GAN)、视频生成(预测)

二、深度学习简介

1、全神经网路

2、卷积神经网路

3、RNN(递归神经网络)

4、LSTM

VGGNet、GoogleNet、ResNet、DenseNet

常见深度学习开发平台:Torch、TensorFlow、Caffe。。。

pyTorch

 

 

 

 

 

 

[展开全文]

卷积层:

Stride = 1, pad = 2

输出尺寸 = (输入尺寸 + 2*pad-卷积核的大小)/ Stride +1

池化层也就是下采样,作用使得表达更加紧凑,同时具有唯一不变性

损失函数:交叉熵损失函数:sigmoid函数作为输出层;应用于二分类问题

SOFTMAX_LOSS:siftmax作为输出层;

欧式hi距离损失函数:对回归比较重要

对比损失函数:训练siamese网络

[展开全文]

计算机视觉是从图像和视频中提出数值或符号信息的计算系统,是计算机看到并理解图像。

三大任务:

1、检测

车牌识别,人脸识别,目标检测

行人检测:估计人群

车辆检测:估计车流密度

2、分割

图像语义分割:图片分割成一个个独立的个体。

个体分割=检测+分割

视频分割

3、视觉目标跟踪

多目标跟踪、车辆跟踪

 

有趣应用:

图像风格迁移

GAN(生成对抗网络):换脸,视频合成

 

深度学习简介

人脸识别:LFW上错误率5%下降到了0.5%

图像分割:50%到75%(交并比)

看图说话(图题生成)

 

图像识别:

Alexnet,VGGnet,GoogleNet,ReesNet

目标检测:

Fast-rcnn,faster-rcnn,Yolo,Retina-Net

图像分割:

FCN,Mask-Rcnn

目标跟踪:

GOTURN,ECO

图像生成:

GAN,WGAN

光流:

FlowNet

视频分割:

Segnet

 

 

[展开全文]

图像分类的挑战:

1、关照的影响;(明暗)

2、目标的形变;(同一个物体)

3、目标类别的变换;(同类物体)

 

图像分类的步骤: 训练,预测。训练就是用正向样本,训练一个预测函数;预测就是用训练的预测函数进行预测。

 

泛化能力: 预测函数的泛化能力是衡量模型的重要指标,比如说对于半个苹果,也能正常的识别这是苹果。

 

图片分类的流程:

特征提取和目标标签提供给网络进行训练,得到预测函数(分类器);

提取测试样本的特征,上训练好的分类器进行预测分类。

 

图像特征:

SIFT ; HoG;LBP;Harr 

 

SVM:最大化间隔,把两个类别区分开

 

CNN特征: 学习出来的特征。

 

神经网络是一层层的结构

神经网络的基本单元: 神经元。 激励函数对应着神经元的单位,也就是基本的神经元。

 

卷积层: 卷积神经网络的核心。卷积的结果就是特征图(Feature Map)。

池化层:下采样

全连接层:分类结果输出

损失函数:计算结果精确性,也就是标签的正确性计算。

梯度反传: 训练网络的核心。前向传播,样本+标签;计算损失函数,计算损失函数的梯度,然后回传,每一层更新参数(这里的参数就是神经网络的W权重和B偏差,其实就是不断的优化参数)。

测试:取置信度最大的值作为结果输出

 

[展开全文]

计算机视觉概述和深度学习简介

• 1. 计算机视觉回顾
定义:计算机视觉(computer vision)是从图像和视频中提出数值或符号信息的计算系统,更形象一点说,计算机视觉是让计算机具备像人类一样的眼睛,看到图像,并理解图像。

主要内容:

图像识别 image classification

eg:车牌识别,人脸识别

目标检测 object detection=classification + localization(图像识别的进一步发展)

eg:行人检测,车辆检测

分割:图像语义分割,个体分割=检测+分割

视觉目标跟踪(Tracking)

视频分割

图像风格迁移

生成对抗网络(GAN)

如何实现直播换脸

视频生成(应用无人驾驶,电影拍摄)

• 2.深度学习简介
• 3.课程介绍

本课程将系统的介绍计算机视觉的图像识别,目标检测,图像和视频分割,目标跟踪,图像和视频生成。并结合深度学习讲解实现这些任务需要的算法,模型以及实战应用。
图像识别:
Alexnet, VGGnet, GoogleNet, ResNet, RetinaNet
目标检测:
Fast-rcnn, faster-rcnn, Yolo, Retina-Net
图像分割:
FCN,Mask-Rcnn
目标跟踪:
GOTURN, ECO
图像生成:
GAN,WGAN
光流:
FlowNet
视频分割:
Segnet

 

 

[展开全文]

 卷积神经网络

AlexNet,VGGNet,GoogleNet,ResNet

卷积、池化、全连接、softmax

VGGNet层数更多,VGG16具有16个权重层

VGGNet中采用3x3代替AlexNet中的11x11,两个3x3的滤波器等价于一个5x5的滤波器,((w-3)/1+1-3)=(w-5)/1+1,但是需要学习的参数变少了。feature map的尺寸不断减小,但是个数增多。

GoogleNet更深,没有全连接层,参数减少。增减inception模块,用横向扩展取代纵向加深。

ResNet:学习的是期望的输出与输入之间的残差。能够只能增加到很深的层数。

训练技巧、防止过拟合:

1、数据增强:水平翻转、随机裁剪和平移、颜色、光照变换

2、Dropout

3、 L1、L2正则化

4、Batch Normalization 批归一化

 

[展开全文]

主要内容:

1图像分类

2神经网络原理

3卷积神经网络介绍

4利用caffe搭建深度学习网络做图像分类

 

计算机理解图片

图像分类:识别图像目标,

类内变化,形变,光照变化,形态,尺度,

图像分类定义:y=f(x)

y:输出

f:预测函数

x:图像特征

利用训练集获得f

对于函数的能力衡量标准泛化能力(对于同一事物图像不同形态与状态也能识别)

图像提取特征+标签->训练->分类器

测试内容提取特征->分类器->预测

图像特征:颜色(RGB),全局形状(PCA?),局部特征,纹理,SIFT(图像分类,图像匹配),HoG(目标检测,目标跟踪),LBP(人脸分类),Harr(目标形状)

推荐网站:www.vlfeat.org

SVM(支持向量机)最优超平面

最大化间隔,点到面的距离

CNN特征,学习出来的,需要构造神经网络进行图像分类

神经网络搭建,一层一层堆起来的,基本单位为神经元,权重叠加。激励函数有很多可以,模拟神经元的非线性函数

卷积网络,卷积层,卷积核,卷积滤波计算,输出的尺寸=(输入尺寸+2*  填充元素个数-卷积核大小)/步长+1

可以得到底层的特征,中层特征和高层特征,特征的叠加

池化层,通道不变,缩小图像大小,压缩取最大,特征表达更加紧凑,同时具有位移不变性。

全连接层,矩阵乘积

损失函数,交叉熵损失函数,应用于二分类问题

softmax损失函数,多分类问题

欧式距离损失函数,回归问题

对比损失函数,计算两个图象之间的相似度,image match

triplrt loss ?

 

 

 

 

 

 

[展开全文]

lesson23 目标跟踪原理与算法

 

1. 目标跟踪: 是对视频序列中单个或者多个目标进行定位的过程.

单目标跟踪, 多目标跟踪(主要是行人)

 

2. 目标跟踪的应用: 

智能监控(异常检测-人与人的交互情况)

无人驾驶

人机交互

医学图像分析

 

3. 目标跟踪问题描述(建模)

给定初始帧目标的位置, 或者通过检测的方法获得第一帧多个目标的位置, 然后估计出次后每一帧目标的位置.

 

一. 单目标跟踪

4. 单目标问题 是 one-shot learning的问题,

没有先验知识, 只有第一帧的信息, 正样本就是目标区域,负样本随机画框采样目标区域外的框.

5. 单目标跟踪流程

目标初始化 -> 外观建模 ->状态估计

卡尔曼滤波, 粒子滤波, TLD算法, L1跟踪算法...

6. 评价指标

1) 基于overlap ratio的 area under curve,  IOU

2) distance precison 距离精度

 

7. 常见测试数据集

单目标跟踪: OTB(国内),  VOT(update)

多目标跟踪: MOT(对接真实场景)

 

8. 单目标跟踪算法的主要流程:

> 起始帧 

> 运动建模 (采样, 密集\采样/随机采样/循环采样)

>特征提取 (HoG, color name, Harr, CNN特征)

>观测模型 (SVM, adaboost, correlation filter)

> ensemble

> final prediction 预测下一帧目标位置

9. 单目标常用算法

1) TLD算法: Tracking - Learning - Detection 基于检测, 滑窗

跟/踪器, 检测器, 学习模块

2) KCF: 核相关滤波器

KCF 将目标跟踪看做是一个回归问题, 循环采样, 核技巧.

速度快, 效果好.

3) 深度学习的算法:  HCFT,   ECO(有效卷积)

 

 

 

 

 

 

 

 

 

 

[展开全文]

相关课程

开课日期:深度学习鼻祖Hinton公开课视频,随到随学开始
免费课 31964
开课日期:2020-07-04 08:50开始
5173

授课教师

暂无教师
微信扫码分享课程