计算机视觉基础入门课程（从算法到实战应用）

--gpu自然是选择设备上的gpu核心，以目前我的认知，训练过程只能选择一个gpu核心，所以需要的显存不是一般电脑可以接受的；

--solver这是一个控制训练过程或者说设置训练过程中的一些参数的文件，它不决定网络的参数，但是它决定了学习率，动量值，以及其它一些在训练过程中可以调整的参数，具体会在学习solver的时候再整理；--iters就是训练的轮数，faster-rcnn每轮的训练都是选取两张图片并从中选取128（每张64）个bounding box进行网络的训练，当然其中包含有正样本也有随机选取的负样本，负样本与正样本的IOU应小于一个阈值；

--weights这是需要你给出预训练的模型，原理上看就是说很多有实力的机构用高级GPU且花费大量时间训练得到的模型（指模型中的参数，模型的结构当然是已经定好的），深度学习的参数太多，想从0开始训练就需要有足够的数据和足够的时间最重要的是要有足够强大的硬件支持，所以imagenet这个1.几T的高清图片数据库就为深度学习的训练提供了足够的数据，现有的大量工作都是在各种预训练好的模型基础上完成的；
---------------------
作者：o_ochao
来源：CSDN
原文：https://blog.csdn.net/o_ochao/article/details/51981950
版权声明：本文为博主原创文章，转载请附上博文链接！

[展开全文]

梅薇思•图尔 · 2019-05-30 · 目标检测原理与应用（中） 0

课时10 目标检测原理与应用（中）

怎么实现物体检测

物体检测：搜索+分类

传统检测方法：

滑动窗，提取窗口内的部分进行物体检测。

框的大小固定，将图像resize为各种大小的图片集合(图像金字塔)，使得框内的部分大小变化，从而实现用固定大小的框检测不同大小的物体

传统方法

论文1 Robust Real-Time Face Detection

使用了滑动窗+图像金字塔

Haar特征，用白框的像素值减去灰框中的像素值，得到的结果是该区域的Haar特征值

级联分类器

论文2 Deformable Part Models----------

特征HOG

分类器SVM

深度学习方法

论文1 R-CNN-------------------

传统方法与神经网络结合，使用传统方法生成候选区域，resize后，送入CNN分类。

主要贡献：用CNN取代了原来的特征提取和分类器。

论文2 Fast RCNN-------------------

RCNN的问题是会重复计算。

FastRCNN将图片送入CNN，得到特征图，

使用了ROI pooling，转为固定尺寸的大小

主要贡献：避免了相同区域的特征重复提取

论文3 Faster RCNN-------------------

引入了RPN结构

论文4 R-FCN------------------

论文5 YOLO-------------------

对一张图片直接计算回归，得到bb的位置和类别

论文6 SSD-------------------

可以看做强化版的RPN

用不同阶段的特征图进行预测，所以可以检测不同尺度的物体。

论文7 FPN-------------------

多尺度检测

将深层的特征图与浅层的特征图相加，提升表达能力。

论文8 Mask RCNN-------------------

论文9 Focal Loss-------------------

one stage准确率低于two stage的原因：

样本不均衡，负样本太多

[展开全文]

哈瑞斯•埃米 · 2019-05-25 · 目标检测原理与应用（中） 1

物体检测：

搜索+分类

原始方法：滑动窗口，但是只能检测固定尺寸的目标；针对变化的尺寸，我们可是使用图像金字塔。

传统的方法：

人工手动特征+浅层分类器

基于深度学习网络：

带有标签的数据+深度神经网络

[展开全文]

局外者 · 2018-10-04 · 目标检测原理与应用（中） 1

怎么实现物体检测：不管是传统方法还是深度学习方法都可以看作是搜索加分类；搜索可以用滑窗来实现，不过缺点是滑窗只能固定大小，可以使用图像金字塔来实现多尺度滑窗。

传统方法：人工设计特征＋浅层分类器；代表为：ＲＯＢＵＳＴ　ＲＥＡＬ　ＴＩＭＥ　ＦＡＣＥ　ＤＥＴＥＣＴＩＯＮ；　ＤＰＭｓ

深度学习：使用原始图像数据＋图像标注，训练神经网络；

１．　RCNN: 图片－》生成候选区域－》ｒｅｓｉｚｅ－》使用ＣＮＮ进行特征提取－》检测分类＋检测框回归；　ＣＮＮ部分使用的是ＩｍａｇｅＮｅｔ　预训练模型，之后进行ｆｉｎｅｔｕｎｅ。　缺点是每一张图片的候选区域数量很大，所以ＲＣＮＮ速度很慢。

２．　ＦａｓｔＲＣＮＮ是对ＲＣＮＮ的改进方法；具体改进是将原始图片直接送进ＣＮＮ网络，之后在输出的ｆｅａｔｕｒｅ　ｍａｐ上进行候选区域的选择；同时引入了一层ＲＯＩ　ｐｏｏｌｉｎｇ，用来将候选区域转换为固定大小的ｆｅａｔｕｒｅ　ｍａｐ。转化出来的ｆｅａｔｕｒｅ　ｍａｐ转换为全连接层，之后继续进行特征分类以及ＢＢ回归。这种方法共享了特征图计算，节省了大量计算量。

３．　Ｆａｓｔｅｒ　ＲＣＮＮ是进一步改进，具体改进是引入了ＲＰＮ来进行候选区域的提出。

４．ＦＲＣＮ，全ＣＮＮ进行检测。

５．ＹＯＬＯ　，利用整张图作为输入，直接在输出层输出ｂｂ位置以及类别，是一种ｇｒｉｄ　ｂａｓｅｄ　方法。

６．ＳＳＤ，　类似于强化版的ＲＰＮ；可以进行多尺度检测，

７．ＦＰＮ, 利用各尺度特征图进行检测。

８．Ｍａｓｋ　Ｒｃｎｎ，　相比较于Ｆａｓｔｅｒ　ＲＣＮＮ的改进是将ｒｏｉ　ｐｏｏｌｉｎｇ改为ｒｏｉ　ａｌｌｉｇｎ，并加了一个分支网络，这个分支网络用来实现像素分割。

９．Ｆｏｃａｌ　Ｌｏｓｓ，它认为ｏｎｅ－ｓｔａｇｅ　检测器不如ｔｗｏ－ｓｔａｇｅ检测器的原因是正负样本不均衡，负样本占总ｌｏｓｓ比重大，对ｌｏｓｓ　ｆｕｎｃｔｉｏｎ进行了修改。

[展开全文]

帝福尼•拉曼 · 2018-01-12 · 目标检测原理与应用（中） 1

计算机视觉基础入门课程（从算法到实战应用）

相关课程

授课教师

最新学员

学员动态