首页 AI学术青年与开发者社区

计算机视觉基础入门课程(从算法到实战应用)

开课时间:所有课时已更新完成,可随时开始学习
开课时长:24个课时,12次课
机器学习 基础入门
会员免费
现价:¥699.00
原价:¥999.00

  开通会员,立省699元 立即开通

  当前课程,会员领券立减59元>>

该课程已关闭

计算机三大任务

1)识别

现在已经往更专业的方向做

计算机视觉更精细的识别,如工业上更多特定的目标识别:车牌识别、人脸识别(表情识别)。

2)目标检测=识别+定位

对于学术界来说是一个有趣的方向,因为非常有用但又比较难做。

给定一张图像,我们需要把我们感兴趣的前景目标检测出来,并贴上类别标签。

应用:

行人检测。在一个智能摄像头的终端,我需要把摄像头中的所有行人检测出来,用处:如果摄像头中的行人的人流量非常大,就可以把摄像头里面的人群给估计出来,对于将来可能发生的异常事件,起到一个预警作用。

车辆检测。通过检测道路中的车辆,就可以估计车辆的个数,来实时监控道路车辆的密度,对于疏散城市交通也是非常有帮助的。

3)图像分割

a、图像语义分割

给定一张图片,要想将整个图片割成一块一块独立的个体。我要知道哪些地方是前景哪些地方是背景,目标是什么。

b、个体的分割=检测+分割

不仅要区分不同的目标,还要知道目标在那个位置。

[展开全文]

图像分类具有的挑战?

a. 光照的变化

b. 形变

c. 类内变化

如何用数学的方法描述图像的分类?

常用的损失函数softmax

网络的泛化能力?

1. 制作合适的训练集(数据太重要了)

图像特征的提取?

深度方法vs传统方法

    a. 颜色直方图(全局特征)

    b. 形状特征(全局特征)

    c. 局部特征

    d. 纹理特征

传统的图像特征?

SIFT 一般是128维的

HOG 一般使用在检测里面,对形状描述比较好

LBP 用于人脸

Harr 角点特征,对于处理形状比较敏感的任务比较有用

svm的原理?

常用的激活函数?

基本的神经网络-》卷积神经网络?

常见的损失函数?

       最重要的是siamese网络contrastive loss

[展开全文]

三大任务:

识别,检测(recogniaztion+localization),分割,其难度逐渐提升)

应用:

1.目标追踪

2.视频分割(对于无人驾驶十分重要)

3.图像风格迁移(GAN),直播换脸(CycleGan)

4.视频生成(lstm,预测未来,股票预测,可以先预测来分割以减少计算量)

lstm(hochreiter,97)是rnn(williams,89)的改进版

视觉识别演进:HOG、DPM ->AlexNet(RCNN,8layers) -> VGG(RCNN, 16layers) ->ResNet(Faster RCNN, 101layers)

主流深度学习平台:TensorFlow,caffe,Pytorch

图像识别:Alexnet,VGGnet,GoogleNet,RestNet,DenseNet

目标检测:

Fast-rcnn,faster-rcnn,Yolo,Retina-Net

图像分割:

FCN,Mask-Rcnn

目标跟踪:

GOTURN,ECO

图像生成:

GAN,WGAN(可以考虑让静态图片动起来)

光流:FlowNet(辅助性很强的工作)

视频分割:Segnet(无人驾驶基础)

[展开全文]

计算机视觉任务分类:
1 图像识别
2 目标检测
3 图像语义分割-->个体分割=检测+分割
4 目标跟踪
5 视频分割
6 图像风格迁移
7 生成对抗网络
8 视频生成

深度学习:
1 CNN-->VGGNet,GoogleNet,ResNet,DenseNet
2 RNN-->LSTM
3 框架-->Torch,TensorFlow,Caffe

[展开全文]

三大任务:识别,检测,分割

识别:分类识别,车牌识别,人脸识别

目标检测(分类+定位):行人检测,车辆检测

分割:语义分割,个体分割(检测+分割)

其他:视觉目标跟踪,视频分割,GAN,视频生成etc.

[展开全文]

计算机视觉的三大任务:图像识别(车牌识别,人脸识别),目标检测,图像分割(语义分割,个体分割,视频分割)。有趣的应用:图像风格迁移。

计算机视觉中常用的网络结构:Alexnet, VGGnet, Googlenet, Resnet, Densenet';

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

[展开全文]

计算机视觉应用:图像识别、目标检测、分割

VGGNet GoogleNet ResNet DenseNet

深度学习开发平台:Torch,TensorFlow,Caffe,MatConvNet Theano

[展开全文]

1. CV回顾

(1)计算机视觉定义:看到图片理解图片的系统

【问题】人类是怎么分类的?(过程原理)

 

(2)计算机视觉三大任务:

         a. 识别:车牌、人脸(精细:表情)

         b. 目标检测:行人、车辆

             object detection 

             = localization + classification

         c. 分割:语义分割、个体分割

                   (个体分割更难=检测+分割)

 

(3)计算机视觉其他任务

         I. 视频目标跟踪(单/多目标、车辆)

         II. 视频分割(静态图片在时态域)

 

(4)计算机视觉的应用

  • 风格迁移(风景画->艺术画)

代表技术GAN,【预测孩子.app】

  • 视频换脸
  • 视频生成(预测:股票、无人车、静态人走起来)         

 

2. 深度学习简介

1) 代表性模型

 2006 Hinton --- BP

 2012 Hinton --- CNN

1989                    RNN (预测、决策)

1997                    LSTM(预测、决策)

2)发展情况

人脸识别:-->错误率超越人类,0.5%

图像分割:-->50%—75% 交并比

看图说话:

3)网络模型

VGG,Google,Res,Dense

【为什么模型这么发展?期待后面哲学层面的解释】

4)开发平台

Torch(Pytorch),TensorFlow,Caffe,MatConvNet

 

3. 课程介绍

按照算法演进的过程

建议:通过博客来学习

[展开全文]

相关课程

开课日期:深度学习鼻祖Hinton公开课视频,随到随学开始
免费课 31964
开课日期:2020-07-04 08:50开始
5172

授课教师

暂无教师
微信扫码分享课程