首页 AI学术青年与开发者社区

计算机视觉基础入门课程(从算法到实战应用)

开课时间:所有课时已更新完成,可随时开始学习
开课时长:24个课时,12次课
机器学习 基础入门
会员免费
现价:¥699.00
原价:¥999.00

  开通会员,立省699元 立即开通

  当前课程,会员领券立减59元>>

该课程已关闭

深度学习时代的 人脸识别

 

pipeline 

->检测  (boarding bolds)

->对齐 (关键点检测)

-> 特征提取 (高维-低维)

-> 识别,(验证)

 

1. 人脸检测

1) 难点: 尺度/肤色/遮挡/角度/光照...

2) 人脸检测有两种方法: 回归问题, Proposal+分类+合并

2.1) 回归问题

建模(设计参数系), 从原始图像中学习一个函数, 从中回归初设计的4个参数.

[x,y,w,h] = f(I), f函数可以是设计,也可以neural network.

问题: 多目标检测, 参数爆炸.

2.2) Proposal+分类+合并.

滑窗 - 分类器(二分类) - 合并, 是人脸识别的主流思想

滑窗, 密集滑,有意义的滑(proposal, 多尺寸)

分类器, CNN- softmax. 级联10跟小分类器(检测率叠乘,误检率叠乘), adaboost思想,弱分类器组合成强分类器.使用单一强分类器,耗时太大(滑窗的尺寸有不同.)

合并, 非极大值抑制. 流程:1)将所有框分数排名取最大; 2)遍历其余框,和当前最高框重合度大于阈值删除; 3)从未处理的框中选最高的,重复上述过程. (类似聚类,置信度)

 

 

2. 人脸对齐(转正)

1) 确定人脸中的标定点 landmark 的位置, 3个点即可.

2) 放射变换: 

二维坐标到另外的二维坐标之间的线性变换(平移/缩放/旋转); 

不共线的3对对应点(6个参数)决定了一个唯一的放射变换. c1c2平移的量, a1b2缩放的量.

3) landmark detection 一般检测5个点, 回归10个参数的量.

4) 回归问题, loss function.

不是 softmax-loss(用于分类的loss);

是 cross-entropy-loss,or,ucdn-loss;

多次回归,级联的思想

 

 

3. 特征学习

1) 分类模型: Deepface, deepID, VGG, ResNet. 问题在于最后的softmax,如果是10000分类的话..

2) 度量学习模型, Triplet Loss, 谷歌, 同类相近异类相远. 对距离进行学习(欧式距离).

 

4. 人脸验证.

1:1 人脸比对.

1) 假定两张人脸提取的特征向量是xj和xk, 欧氏距离or余弦距离.

2)  余弦距离方法笔记方法比较简单, 可以快速判断特征提取网络的性能, 但对于人脸验证的问题, Joint Bayesian方法具有更好的性能.

3) Joint Bayesian方法: 后验概率, EM算法迭代.

1:N 人脸搜索.

1) 人脸特征向量, 逐一比对.

2) 对人脸特征向量做hash编码, 得到只包含0/1元素的向量, 只需要计算向量间的汉明距离(即两个特征向量之间做异成,可大大缩小比较时间), 且特征向量按比特存储,减少内存的消耗.( 大规模图像检索,也需要hash编码)

3) 公开的人脸识别图片数据库.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

[展开全文]

# lesson5 <人脸识别的算法(上)>笔记

 

1. 人脸识别是生物识别的一种, 生物识别物/生物特征还有很多,比如步态/耳廓/瞳孔虹膜/指纹/手相/牙齿/眼底视网膜/签名/声波/敲击键盘pattern等.(啊这么多啊). 活体检测.

2. 人脸识别的应用 

1) 1:1比对, 刷脸登录/自动通关,远程身份认证;

2) 1:N(N*=10幂3)比对, 智能门禁&考勤

    1:N(N>10幂9)比对, 智能寻亲,跨年龄人脸识别技术.

3. 人脸识别,最简单的方法:模板匹配

1) 维度灾难,内存/速度问题.

2)准确率问题.

4. 将问题转化为: 在低维特征空间,同一个人的特征尽可能接近,不同人的特征尽可能分离.

5. 如何找到低维空间:?

前深度学习时代: 

1)  主成分分析. 方法类似于4.

2) Eigen Face(特征脸): 原始图片-> N维向量x. 减去平均脸,数据归一化.

3) 由特征脸(特征向量)组成的降维特征子空间, 任何一幅中心化的人脸图像都可以通过下面的式子投影到特征脸子空间,获得一组坐标系数.(高维投影到低维, 获得低维表达)

4) 输入人脸 --投影-->平均人脸+sigma(权重*特征脸)

5) 特征脸存在的问题: a.特征表达能力有限,b.知识和小数据库.

6) eigen face 存在无数开源代码, 可以用来复现.

 

 

 

 

 

 

 

 

 

 

[展开全文]

lesson2笔记-图像分类与深度卷积网络的模型

 

1.图像分类的挑战:a.光照变化,b.形变,c.类内变化.

2. 图像分类的定义函数: y=f(x)

3. 如何提高泛化能力: 用图像特征来描述图像.

泛化能力,是评价模型分类器的效果.

4. 图像特征: Color; Shape(global shape, local shape, 指标有translation-scale-rotation-occlusion); Texture

5. 优良的组合性图像特征:  SIFT(用在分类, 128-4-64),  HoG(用在检测,擅长形状), LBP(人脸), Harr(滤波器,对形状). 在深度学习之前,常用, 维度也不高. 推荐一个网站:http://www.vlfeat.org/

[展开全文]

整体流程框架:
1. selective search在一张图片中得到约2k个object proposal(这里称为RoI);
2. (joint training)缩放图片的scale得到图片金字塔,FP得到conv5的特征金字塔
3. (joint training)对于每个scale的每个ROI,求取映射关系,在conv5中crop出
patch。并用一个单层的SPP layer(这里称为Rol pooling layer)来统一到一样的
(对于AlexNet是6x6);
4. (joint training)继续经过两个全连接得到特征,这特征有分别share到两个新的
连接上两个优化目标。第一个优化目标是分类,使用softmax,第二个优化目标是
regression,使用了一个smooth的L1-loss。
5. 训练时没有这步,测试的时候需加上NMS处理:利用窗口得分分别对每一类物体
大值抑制剔除重叠建议框,最终得到每个类别中回归修正后的得分最高的窗口

 

[展开全文]
图像分类与深度卷积模型
图像分类
神经网络原理
卷积神经网络介绍
利用caffe搭建深度网络做图像分类
图像分类
泛化能力
     1.图像特征:color,local shape.global          shape,texture.
传统的特征方法:SITF(local shape用在图像分类/匹配,128维-64),HoG(用在检测,处理形状比较好32维),LBP(人脸),Harr(很多组滤波器,检测边缘比较强,处理形状比较好)简单的识别效果挺好 www.vlfeat.org/  提供代码进行检测
     2.支持向量机SVM
CNN特征:学习出来的,通过大量的数据学习,会有很好的泛化能力
通过神经网络学习出来的
神经网络做图像分类
神经网络的构成
卷积滤波的计算,输出尺寸=(输入尺寸+2*pad-kernel_size)/步长+1
池化层(pooling layer)最大值池化:特征更加紧凑,同时具有位移不变性
全连接层:作为输出层
常见损失函数:sigmoid,softma(多分类)x,euclidean,contrastive,triplet loss
[展开全文]

强化学习与其他机器学习方法的区别:

  • 强化学习无指导数据,只有反馈信息,而监督学习有groundtruth和类标。
  • 反馈信息是有延迟的,可用于下一阶段的指导。
  • 要处理的数据是时序的
  • Agent的行为会影响到其随后将收到的数据。
强化学习的基本模型:
状态:Ot,行为At,反馈Rt
 
所有的强化学习都是建立在马尔可夫决策过程之上的,即,任何一个强化学习问题都是一个MDP问题。
马尔可夫链:

其中:

马尔可夫状态转移图:

状态转移图对应的状态转移矩阵

马尔可夫奖赏过程(MRP):

马尔可夫决策过程;

 

 

[展开全文]

--gpu自然是选择设备上的gpu核心,以目前我的认知,训练过程只能选择一个gpu核心,所以需要的显存不是一般电脑可以接受的;

--solver这是一个控制训练过程或者说设置训练过程中的一些参数的文件,它不决定网络的参数,但是它决定了学习率,动量值,以及其它一些在训练过程中可以调整的参数,具体会在学习solver的时候再整理;--iters就是训练的轮数,faster-rcnn每轮的训练都是选取两张图片并从中选取128(每张64)个bounding box进行网络的训练,当然其中包含有正样本也有随机选取的负样本,负样本与正样本的IOU应小于一个阈值;

--weights这是需要你给出预训练的模型,原理上看就是说很多有实力的机构用高级GPU且花费大量时间训练得到的模型(指模型中的参数,模型的结构当然是已经定好的),深度学习的参数太多,想从0开始训练就需要有足够的数据和足够的时间最重要的是要有足够强大的硬件支持,所以imagenet这个1.几T的高清图片数据库就为深度学习的训练提供了足够的数据,现有的大量工作都是在各种预训练好的模型基础上完成的;
--------------------- 
作者:o_ochao 
来源:CSDN 
原文:https://blog.csdn.net/o_ochao/article/details/51981950 
版权声明:本文为博主原创文章,转载请附上博文链接!

[展开全文]

课时10 目标检测原理与应用(中)

怎么实现物体检测

物体检测:搜索+分类

传统检测方法:

滑动窗,提取窗口内的部分进行物体检测。

框的大小固定,将图像resize为各种大小的图片集合(图像金字塔),使得框内的部分大小变化,从而实现用固定大小的框检测不同大小的物体

 

传统方法

论文1 Robust Real-Time Face Detection

使用了滑动窗+图像金字塔

Haar特征,用白框的像素值减去灰框中的像素值,得到的结果是该区域的Haar特征值

级联分类器

论文2 Deformable Part Models----------

特征HOG

分类器SVM

 

深度学习方法

论文1 R-CNN-------------------

传统方法与神经网络结合,使用传统方法生成候选区域,resize后,送入CNN分类。

主要贡献:用CNN取代了原来的特征提取和分类器。

论文2 Fast RCNN-------------------

RCNN的问题是会重复计算。

FastRCNN将图片送入CNN,得到特征图,

使用了ROI pooling,转为固定尺寸的大小

主要贡献:避免了相同区域的特征重复提取

论文3 Faster RCNN-------------------

引入了RPN结构

论文4 R-FCN------------------

论文5 YOLO-------------------

对一张图片直接计算回归,得到bb的位置和类别

论文6 SSD-------------------

可以看做强化版的RPN

用不同阶段的特征图进行预测,所以可以检测不同尺度的物体。

论文7 FPN-------------------

多尺度检测

将深层的特征图与浅层的特征图相加,提升表达能力。

论文8 Mask RCNN-------------------

论文9 Focal Loss-------------------

one stage准确率低于two stage的原因:

样本不均衡,负样本太多

 

 

 

 

 

 

[展开全文]

图像分类与深度卷积网络的模型

1、图像分类

    给定一个图片,判断是否为某一类别。

干扰条件:光照、突然形变、尺寸变换、类内变化(同一类别的变化很大)

    y = f(x)

训练:通过训练集获得一个预测函数f,使它在训练集上的误差最小。

测试:输入一个x,通过预测函数f得到一个y。使得最大程度上获得正确的分类。

泛化能力:由已知特性推到同一样本的不同形态

图像特征:颜色特征、全局特征、局部特征、纹理特征。具有代表的图像特征有:SIFT、Hog、LBP、Harr……图像特征提取的一个网站:www.vlfeat.org/

支持向量机(SVM)

给定训练集,分类学习的最基本的想法是基于训练集的样本空间中找到一个划分超平面

更好的特征(CNN)

卷积层可视化(低层特征——中层特征——高层特征——线性分类)

池化层(特征表达更加紧凑,同时具有位移不变性)

训练网络

通过梯度反传来训练整个网络。

 

 

[展开全文]
 
图像分类
泛化能力
1.图像特征:
  • color,
  • local shape
  • global shape
传统的特征方法:
  • SITF(local shape用在图像分类/匹配,128维-64)
  • HoG(用在检测,处理形状比较好32维)
  • LBP(人脸)
  • Harr(很多组滤波器,检测边缘比较强,处理形状比较好) www.vlfeat.org/  提供代码进行检测
 2.支持向量机SVM
 
3.CNN特征:学习出来的,通过大量的数据学习,会有很好的泛化能力
 
 
4.神经网络的构成
卷积滤波的计算,输出尺寸=(输入尺寸+2*pad-kernel_size)/步长+1
池化层(pooling layer)最大值池化:特征更加紧凑,同时具有位移不变性
全连接层:作为输出层
常见损失函数:sigmoid,softma(多分类)x,euclidean,contrastive,triplet loss
[展开全文]

相关课程

开课日期:深度学习鼻祖Hinton公开课视频,随到随学开始
免费课 31963
开课日期:2020-07-04 08:50开始
5172

授课教师

暂无教师
微信扫码分享课程