首页 AI学术青年与开发者社区

计算机视觉基础入门课程(从算法到实战应用)

开课时间:所有课时已更新完成,可随时开始学习
开课时长:24个课时,12次课
机器学习 基础入门
会员免费
现价:¥699.00
原价:¥999.00

  开通会员,立省699元 立即开通

  当前课程,会员领券立减59元>>

该课程已关闭

从获取图像到读懂图像

1、数据(图片、视频)

2、算法(机器学习算法、神经网络)回归+分类

计算机视觉应用

三大任务

1、图像识别

包括精细识别,例如:车牌识别(ETC)、人脸识别(属性显示)

2、目标检测

行人检测、车辆检测等

3、图像分割

图像语义分割、个体分割=检测+分割

其它任务

视觉目标跟踪(Tracking)

例如:多目标跟踪、车辆跟踪等

视频分割

有趣的应用:图像风格迁移、生成对抗网路(GAN)、视频生成(预测)

二、深度学习简介

1、全神经网路

2、卷积神经网路

3、RNN(递归神经网络)

4、LSTM

VGGNet、GoogleNet、ResNet、DenseNet

常见深度学习开发平台:Torch、TensorFlow、Caffe。。。

pyTorch

 

 

 

 

 

 

[展开全文]

计算机视觉是从图像和视频中提出数值或符号信息的计算系统,是计算机看到并理解图像。

三大任务:

1、检测

车牌识别,人脸识别,目标检测

行人检测:估计人群

车辆检测:估计车流密度

2、分割

图像语义分割:图片分割成一个个独立的个体。

个体分割=检测+分割

视频分割

3、视觉目标跟踪

多目标跟踪、车辆跟踪

 

有趣应用:

图像风格迁移

GAN(生成对抗网络):换脸,视频合成

 

深度学习简介

人脸识别:LFW上错误率5%下降到了0.5%

图像分割:50%到75%(交并比)

看图说话(图题生成)

 

图像识别:

Alexnet,VGGnet,GoogleNet,ReesNet

目标检测:

Fast-rcnn,faster-rcnn,Yolo,Retina-Net

图像分割:

FCN,Mask-Rcnn

目标跟踪:

GOTURN,ECO

图像生成:

GAN,WGAN

光流:

FlowNet

视频分割:

Segnet

 

 

[展开全文]

计算机视觉概述和深度学习简介

• 1. 计算机视觉回顾
定义:计算机视觉(computer vision)是从图像和视频中提出数值或符号信息的计算系统,更形象一点说,计算机视觉是让计算机具备像人类一样的眼睛,看到图像,并理解图像。

主要内容:

图像识别 image classification

eg:车牌识别,人脸识别

目标检测 object detection=classification + localization(图像识别的进一步发展)

eg:行人检测,车辆检测

分割:图像语义分割,个体分割=检测+分割

视觉目标跟踪(Tracking)

视频分割

图像风格迁移

生成对抗网络(GAN)

如何实现直播换脸

视频生成(应用无人驾驶,电影拍摄)

• 2.深度学习简介
• 3.课程介绍

本课程将系统的介绍计算机视觉的图像识别,目标检测,图像和视频分割,目标跟踪,图像和视频生成。并结合深度学习讲解实现这些任务需要的算法,模型以及实战应用。
图像识别:
Alexnet, VGGnet, GoogleNet, ResNet, RetinaNet
目标检测:
Fast-rcnn, faster-rcnn, Yolo, Retina-Net
图像分割:
FCN,Mask-Rcnn
目标跟踪:
GOTURN, ECO
图像生成:
GAN,WGAN
光流:
FlowNet
视频分割:
Segnet

 

 

[展开全文]

整体流程框架:
1. selective search在一张图片中得到约2k个object proposal(这里称为RoI);
2. (joint training)缩放图片的scale得到图片金字塔,FP得到conv5的特征金字塔
3. (joint training)对于每个scale的每个ROI,求取映射关系,在conv5中crop出
patch。并用一个单层的SPP layer(这里称为Rol pooling layer)来统一到一样的
(对于AlexNet是6x6);
4. (joint training)继续经过两个全连接得到特征,这特征有分别share到两个新的
连接上两个优化目标。第一个优化目标是分类,使用softmax,第二个优化目标是
regression,使用了一个smooth的L1-loss。
5. 训练时没有这步,测试的时候需加上NMS处理:利用窗口得分分别对每一类物体
大值抑制剔除重叠建议框,最终得到每个类别中回归修正后的得分最高的窗口

 

[展开全文]

本课程,主要涉及的算法是分类和回归.

计算机视觉目前主要的三大任务:(从简单到困难)

  1. 图像识别,vggnet,googlenet,resnet,retiannet
  2. 目标检测(classification and localization),faster-rcnn
  3. 分割(图像语义分割,个体分割)

目前交通目标检测的功能,估算人流或者车流密度.

图像语义分割,是将图像中每个个体都要区分出来,

个体分割,相当于语义分割+目标检测

其他的任务:

多目标跟踪,主要对视频内容进行个体分割和检测.gpturn,eco

视频分割,对实时帧进行分割,可以用在自动汽车驾驶.segnet

图像风格迁移.

GAN,例如直播中cycleGAN

视频生成,根据现有的视频帧,预测或者生成下几帧的视频.GAN,WGAN

RNN & LSTM是深度学习和计算机视觉中常用的工具.

常用的深度学习的开发平台,tensorflow,pytorch

caffe,底层用c来写,比较方便改源码,学术界常用.

[展开全文]

三大任务:

识别,检测(recogniaztion+localization),分割,其难度逐渐提升)

应用:

1.目标追踪

2.视频分割(对于无人驾驶十分重要)

3.图像风格迁移(GAN),直播换脸(CycleGan)

4.视频生成(lstm,预测未来,股票预测,可以先预测来分割以减少计算量)

lstm(hochreiter,97)是rnn(williams,89)的改进版

视觉识别演进:HOG、DPM ->AlexNet(RCNN,8layers) -> VGG(RCNN, 16layers) ->ResNet(Faster RCNN, 101layers)

主流深度学习平台:TensorFlow,caffe,Pytorch

图像识别:Alexnet,VGGnet,GoogleNet,RestNet,DenseNet

目标检测:

Fast-rcnn,faster-rcnn,Yolo,Retina-Net

图像分割:

FCN,Mask-Rcnn

目标跟踪:

GOTURN,ECO

图像生成:

GAN,WGAN(可以考虑让静态图片动起来)

光流:FlowNet(辅助性很强的工作)

视频分割:Segnet(无人驾驶基础)

[展开全文]

相关课程

开课日期:深度学习鼻祖Hinton公开课视频,随到随学开始
免费课 31963
开课日期:2020-07-04 08:50开始
5172

授课教师

暂无教师
微信扫码分享课程