计算机视觉基础入门课程（从算法到实战应用）

从获取图像到读懂图像

1、数据（图片、视频）

2、算法（机器学习算法、神经网络）回归+分类

计算机视觉应用

三大任务

1、图像识别

包括精细识别，例如：车牌识别(ETC)、人脸识别(属性显示)

2、目标检测

行人检测、车辆检测等

3、图像分割

图像语义分割、个体分割=检测+分割

其它任务

视觉目标跟踪（Tracking）

例如：多目标跟踪、车辆跟踪等

视频分割

有趣的应用：图像风格迁移、生成对抗网路(GAN)、视频生成(预测)

二、深度学习简介

1、全神经网路

2、卷积神经网路

3、RNN（递归神经网络）

4、LSTM

VGGNet、GoogleNet、ResNet、DenseNet

常见深度学习开发平台：Torch、TensorFlow、Caffe。。。

pyTorch

[展开全文]

威尔•边沁 · 2020-05-08 · 计算机视觉历史回顾，从浅层学习到深度学习 1

卷积层：

Stride = 1, pad = 2

输出尺寸 = （输入尺寸 + 2*pad-卷积核的大小）/ Stride +1

池化层也就是下采样，作用使得表达更加紧凑，同时具有唯一不变性

损失函数：交叉熵损失函数：sigmoid函数作为输出层;应用于二分类问题

SOFTMAX_LOSS：siftmax作为输出层；

欧式hi距离损失函数：对回归比较重要

对比损失函数:训练siamese网络

[展开全文]

比尔•奥尼尔 · 2020-04-08 · 图像分类介绍 1

计算机视觉是从图像和视频中提出数值或符号信息的计算系统，是计算机看到并理解图像。

三大任务：

1、检测

车牌识别，人脸识别，目标检测

行人检测：估计人群

车辆检测：估计车流密度

2、分割

图像语义分割：图片分割成一个个独立的个体。

个体分割=检测+分割

视频分割

3、视觉目标跟踪

多目标跟踪、车辆跟踪

有趣应用：

图像风格迁移

GAN(生成对抗网络)：换脸，视频合成

深度学习简介

人脸识别：LFW上错误率5%下降到了0.5%

图像分割：50%到75%（交并比）

看图说话（图题生成）

图像识别：

Alexnet,VGGnet,GoogleNet,ReesNet

目标检测：

Fast-rcnn,faster-rcnn,Yolo,Retina-Net

图像分割：

FCN,Mask-Rcnn

目标跟踪：

GOTURN,ECO

图像生成：

GAN,WGAN

光流：

FlowNet

视频分割：

Segnet

[展开全文]

亚力士•沃格 · 2020-01-29 · 计算机视觉历史回顾，从浅层学习到深度学习 0

图像分类的挑战：

1、关照的影响；（明暗）

2、目标的形变；（同一个物体）

3、目标类别的变换；（同类物体）

图像分类的步骤：训练，预测。训练就是用正向样本，训练一个预测函数；预测就是用训练的预测函数进行预测。

泛化能力：预测函数的泛化能力是衡量模型的重要指标，比如说对于半个苹果，也能正常的识别这是苹果。

图片分类的流程：

特征提取和目标标签提供给网络进行训练，得到预测函数（分类器）；

提取测试样本的特征，上训练好的分类器进行预测分类。

图像特征：

SIFT ； HoG；LBP；Harr

SVM：最大化间隔，把两个类别区分开

CNN特征：学习出来的特征。

神经网络是一层层的结构

神经网络的基本单元：神经元。激励函数对应着神经元的单位，也就是基本的神经元。

卷积层：卷积神经网络的核心。卷积的结果就是特征图（Feature Map）。

池化层：下采样

全连接层：分类结果输出

损失函数：计算结果精确性，也就是标签的正确性计算。

梯度反传：训练网络的核心。前向传播，样本+标签；计算损失函数，计算损失函数的梯度，然后回传，每一层更新参数（这里的参数就是神经网络的W权重和B偏差，其实就是不断的优化参数）。

测试：取置信度最大的值作为结果输出

[展开全文]

韩弗理•凯洛 · 2019-09-01 · 图像分类介绍 0

[展开全文]

追梦人lcz9102 · 2019-08-15 · 实战项目（上）：如何搭建和训练一个深度学习网络 1

计算机视觉概述和深度学习简介

• 1. 计算机视觉回顾
定义：计算机视觉(computer vision)是从图像和视频中提出数值或符号信息的计算系统，更形象一点说，计算机视觉是让计算机具备像人类一样的眼睛，看到图像，并理解图像。

主要内容：

图像识别 image classification

eg：车牌识别，人脸识别

目标检测 object detection=classification + localization（图像识别的进一步发展）

eg：行人检测，车辆检测

分割：图像语义分割，个体分割=检测+分割

视觉目标跟踪(Tracking)

视频分割

图像风格迁移

生成对抗网络（GAN）

如何实现直播换脸

视频生成（应用无人驾驶，电影拍摄）

• 2.深度学习简介
• 3.课程介绍

本课程将系统的介绍计算机视觉的图像识别，目标检测，图像和视频分割，目标跟踪，图像和视频生成。并结合深度学习讲解实现这些任务需要的算法，模型以及实战应用。
图像识别：
Alexnet, VGGnet, GoogleNet, ResNet, RetinaNet
目标检测：
Fast-rcnn, faster-rcnn, Yolo, Retina-Net
图像分割：
FCN，Mask-Rcnn
目标跟踪：
GOTURN， ECO
图像生成：
GAN，WGAN
光流：
FlowNet
视频分割：
Segnet

[展开全文]

马休•鲍勃 · 2019-08-02 · 计算机视觉历史回顾，从浅层学习到深度学习 2

卷积神经网络

AlexNet，VGGNet，GoogleNet，ResNet

卷积、池化、全连接、softmax

VGGNet层数更多，VGG16具有16个权重层

VGGNet中采用3x3代替AlexNet中的11x11，两个3x3的滤波器等价于一个5x5的滤波器，((w-3)/1+1-3)=(w-5)/1+1，但是需要学习的参数变少了。feature map的尺寸不断减小，但是个数增多。

GoogleNet更深，没有全连接层，参数减少。增减inception模块，用横向扩展取代纵向加深。

ResNet：学习的是期望的输出与输入之间的残差。能够只能增加到很深的层数。

训练技巧、防止过拟合：

1、数据增强：水平翻转、随机裁剪和平移、颜色、光照变换

2、Dropout

3、 L1、L2正则化

4、Batch Normalization 批归一化

[展开全文]

格吉尔•马丁 · 2019-07-26 · 实战项目（上）：如何搭建和训练一个深度学习网络 1

[展开全文]

尖沙咀117 · 2019-07-26 · 计算机视觉历史回顾，从浅层学习到深度学习 1

主要内容：

1图像分类

2神经网络原理

3卷积神经网络介绍

4利用caffe搭建深度学习网络做图像分类

计算机理解图片

图像分类：识别图像目标，

类内变化，形变，光照变化，形态，尺度，

图像分类定义：y=f（x）

y：输出

f：预测函数

x：图像特征

利用训练集获得f

对于函数的能力衡量标准泛化能力（对于同一事物图像不同形态与状态也能识别）

图像提取特征+标签->训练->分类器

测试内容提取特征->分类器->预测

图像特征：颜色（RGB），全局形状（PCA？），局部特征，纹理，SIFT（图像分类，图像匹配）,HoG（目标检测，目标跟踪），LBP（人脸分类）,Harr（目标形状）

推荐网站：www.vlfeat.org

SVM(支持向量机）最优超平面

最大化间隔，点到面的距离

CNN特征，学习出来的，需要构造神经网络进行图像分类

神经网络搭建，一层一层堆起来的，基本单位为神经元，权重叠加。激励函数有很多可以，模拟神经元的非线性函数

卷积网络，卷积层，卷积核，卷积滤波计算，输出的尺寸=（输入尺寸+2* 填充元素个数-卷积核大小）/步长+1

可以得到底层的特征，中层特征和高层特征，特征的叠加

池化层，通道不变，缩小图像大小，压缩取最大，特征表达更加紧凑，同时具有位移不变性。

全连接层，矩阵乘积

损失函数，交叉熵损失函数，应用于二分类问题

softmax损失函数，多分类问题

欧式距离损失函数，回归问题

对比损失函数，计算两个图象之间的相似度，image match

triplrt loss ？

[展开全文]

杰克•韦布 · 2019-07-10 · 图像分类介绍 1

lesson23 目标跟踪原理与算法

1. 目标跟踪: 是对视频序列中单个或者多个目标进行定位的过程.

单目标跟踪, 多目标跟踪(主要是行人)

2. 目标跟踪的应用:

智能监控(异常检测-人与人的交互情况)

无人驾驶

人机交互

医学图像分析

3. 目标跟踪问题描述(建模)

给定初始帧目标的位置, 或者通过检测的方法获得第一帧多个目标的位置, 然后估计出次后每一帧目标的位置.

一. 单目标跟踪

4. 单目标问题是 one-shot learning的问题,

没有先验知识, 只有第一帧的信息, 正样本就是目标区域,负样本随机画框采样目标区域外的框.

5. 单目标跟踪流程

目标初始化 -> 外观建模 ->状态估计

卡尔曼滤波, 粒子滤波, TLD算法, L1跟踪算法...

6. 评价指标

1) 基于overlap ratio的 area under curve, IOU

2) distance precison 距离精度

7. 常见测试数据集

单目标跟踪: OTB(国内), VOT(update)

多目标跟踪: MOT(对接真实场景)

8. 单目标跟踪算法的主要流程:

> 起始帧

> 运动建模 (采样, 密集\采样/随机采样/循环采样)

>特征提取 (HoG, color name, Harr, CNN特征)

>观测模型 (SVM, adaboost, correlation filter)

> ensemble

> final prediction 预测下一帧目标位置

9. 单目标常用算法

1) TLD算法: Tracking - Learning - Detection 基于检测, 滑窗

跟/踪器, 检测器, 学习模块

2) KCF: 核相关滤波器

KCF 将目标跟踪看做是一个回归问题, 循环采样, 核技巧.

速度快, 效果好.

3) 深度学习的算法: HCFT, ECO(有效卷积)

[展开全文]

auto_孤竹孙 · 2019-07-09 · 目标跟踪原理与算法 1

计算机视觉基础入门课程（从算法到实战应用）

相关课程

授课教师

最新学员

学员动态