首页 AI学术青年与开发者社区

计算机视觉基础入门课程(从算法到实战应用)

开课时间:所有课时已更新完成,可随时开始学习
开课时长:24个课时,12次课
机器学习 基础入门
会员免费
现价:¥699.00
原价:¥999.00

  开通会员,立省699元 立即开通

  当前课程,会员领券立减59元>>

该课程已关闭

--gpu自然是选择设备上的gpu核心,以目前我的认知,训练过程只能选择一个gpu核心,所以需要的显存不是一般电脑可以接受的;

--solver这是一个控制训练过程或者说设置训练过程中的一些参数的文件,它不决定网络的参数,但是它决定了学习率,动量值,以及其它一些在训练过程中可以调整的参数,具体会在学习solver的时候再整理;--iters就是训练的轮数,faster-rcnn每轮的训练都是选取两张图片并从中选取128(每张64)个bounding box进行网络的训练,当然其中包含有正样本也有随机选取的负样本,负样本与正样本的IOU应小于一个阈值;

--weights这是需要你给出预训练的模型,原理上看就是说很多有实力的机构用高级GPU且花费大量时间训练得到的模型(指模型中的参数,模型的结构当然是已经定好的),深度学习的参数太多,想从0开始训练就需要有足够的数据和足够的时间最重要的是要有足够强大的硬件支持,所以imagenet这个1.几T的高清图片数据库就为深度学习的训练提供了足够的数据,现有的大量工作都是在各种预训练好的模型基础上完成的;
--------------------- 
作者:o_ochao 
来源:CSDN 
原文:https://blog.csdn.net/o_ochao/article/details/51981950 
版权声明:本文为博主原创文章,转载请附上博文链接!

[展开全文]

课时10 目标检测原理与应用(中)

怎么实现物体检测

物体检测:搜索+分类

传统检测方法:

滑动窗,提取窗口内的部分进行物体检测。

框的大小固定,将图像resize为各种大小的图片集合(图像金字塔),使得框内的部分大小变化,从而实现用固定大小的框检测不同大小的物体

 

传统方法

论文1 Robust Real-Time Face Detection

使用了滑动窗+图像金字塔

Haar特征,用白框的像素值减去灰框中的像素值,得到的结果是该区域的Haar特征值

级联分类器

论文2 Deformable Part Models----------

特征HOG

分类器SVM

 

深度学习方法

论文1 R-CNN-------------------

传统方法与神经网络结合,使用传统方法生成候选区域,resize后,送入CNN分类。

主要贡献:用CNN取代了原来的特征提取和分类器。

论文2 Fast RCNN-------------------

RCNN的问题是会重复计算。

FastRCNN将图片送入CNN,得到特征图,

使用了ROI pooling,转为固定尺寸的大小

主要贡献:避免了相同区域的特征重复提取

论文3 Faster RCNN-------------------

引入了RPN结构

论文4 R-FCN------------------

论文5 YOLO-------------------

对一张图片直接计算回归,得到bb的位置和类别

论文6 SSD-------------------

可以看做强化版的RPN

用不同阶段的特征图进行预测,所以可以检测不同尺度的物体。

论文7 FPN-------------------

多尺度检测

将深层的特征图与浅层的特征图相加,提升表达能力。

论文8 Mask RCNN-------------------

论文9 Focal Loss-------------------

one stage准确率低于two stage的原因:

样本不均衡,负样本太多

 

 

 

 

 

 

[展开全文]

物体检测:

搜索+分类

原始方法:滑动窗口,但是只能检测固定尺寸的目标;针对变化的尺寸,我们可是使用图像金字塔。

传统的方法:

人工手动特征+浅层分类器

基于深度学习网络:

带有标签的数据+深度神经网络

[展开全文]

怎么实现物体检测:不管是传统方法还是深度学习方法都可以看作是搜索加分类;搜索可以用滑窗来实现,不过缺点是滑窗只能固定大小,可以使用图像金字塔来实现多尺度滑窗。

传统方法:人工设计特征+浅层分类器;代表为:ROBUST REAL TIME FACE DETECTION; DPMs

深度学习:使用原始图像数据+图像标注,训练神经网络;

 

1. RCNN: 图片-》生成候选区域-》resize-》使用CNN进行特征提取-》检测分类+检测框回归; CNN部分使用的是ImageNet 预训练模型,之后进行finetune。 缺点是每一张图片的候选区域数量很大,所以RCNN速度很慢。

 

2. FastRCNN是对RCNN的改进方法;具体改进是将原始图片直接送进CNN网络,之后在输出的feature map上进行候选区域的选择;同时引入了一层ROI pooling,用来将候选区域转换为固定大小的feature map。转化出来的feature map转换为全连接层,之后继续进行特征分类以及BB回归。这种方法共享了特征图计算,节省了大量计算量。

 

3. Faster RCNN是进一步改进,具体改进是引入了RPN来进行候选区域的提出。

 

4.FRCN,全CNN进行检测。

5.YOLO ,利用整张图作为输入,直接在输出层输出bb位置以及类别,是一种grid based 方法。

6.SSD, 类似于强化版的RPN;可以进行多尺度检测,

7.FPN, 利用各尺度特征图进行检测。

8.Mask Rcnn, 相比较于Faster RCNN的改进是将roi pooling改为roi allign,并加了一个分支网络,这个分支网络用来实现像素分割。

9.Focal Loss,它认为one-stage 检测器不如two-stage检测器的原因是正负样本不均衡,负样本占总loss比重大,对loss function进行了修改。

 

 

[展开全文]

相关课程

开课日期:深度学习鼻祖Hinton公开课视频,随到随学开始
免费课 29882
开课日期:2020-07-04 08:50开始
4906

授课教师

暂无教师
微信扫码分享课程