首页 AI学术青年与开发者社区

【中文字幕】2017春季CS231n 斯坦福深度视觉识别课

开课时间:2017年11月10日
开课时长:讲座共有6个lecture,3个 Guest Talk,已完结。加入小组即可立即观看(完全免费):https://ai.yanxishe.com/page/groupDetail/19。
免费课 基础入门
现价: 免费
该课程已关闭

add gate

max gate

[展开全文]

计算机视觉历史

5亿四千万年前,生物视觉出现

50% 人类大脑神经元与视觉相关

相机:17世纪文艺复兴

1959:Hubel&Wiesel,电极插入视觉神经

 

从简单到复杂

 人脸识别

 

ImageNEt

 

[展开全文]

计算机视觉:视觉数据大爆炸,计算机世界中的反物质 

[展开全文]

1966年: MIT--THE SUMMER VISION PROJECT

 

70年代: MIT--David Marr: A BOOK that 2D raw image to 3D model:

原始图像:边缘顶点和虚拟线条曲线边界,早期对图像的处理主要集中在边缘的简单处理

2.5维草图:将表面,深度信息,层或者视觉场景的不连续性拼凑在一起

将表面和体积图放在3d模型里

这种思维影响了计算机视觉领域很久,是传统的方式

70年代 另一个有影响的:如何越过简单的块状直接识别和表示图像

将物体的复杂结构简约城一个更简单的形状和结构,重新表达。

 

80年代:识别并重建,大部分都是直线和直线之间的关系。

 

总结:60-80年代,识别计算机视觉中的物体都是只停留在少样本的简单的几何图像,没有太多进展。

------------------------------

图像目标分割:将图像中的像素点进行归类

面部监测:1999-2000 机器学习加速发展,svm,boosting ,图模型等

2006年,实时监测面部的数码相机

基于特征的目标识别,sift特证

空间金字塔匹配:将各种物体的最为一个特征,放在SVM中计算

方向梯度直方图,可变形部件模型,识别人体姿势。

总结:随着各方向发展,21世纪早期,非常重要的基本问题--目标识别。

有名的标注数据集:基于2007-2012年PASCAL性能提升

同期提出了:是否具备了识别世界中所有物体的能力,或者大部分物体。

大部分的机器学习算法,都很可能在训练的过程中过拟合,太复杂导致模型维数太高,无法很好的泛化,当训练数据量不够时,就产生了过拟合问题,ImageNet项目来解决这个问题。

ImageNet带来巨大的数据集,将目标检测算法发展到新的高度。

2010年:ImageNet举办了挑战比赛,分类识别检测计算机视觉算法。

2010-2015年错误率一直下降,低于人类。2012年错误率显著下降,而其算法就是卷积神经网络的深度学习算法。

 

 

 

 

 

 

[展开全文]

线性分类 linear classification

f(x,w)=Wx

输入一张picture,最简单的2x2,将它变成一个列向量,四行一列,4x1,有三个分类,想要结果是3X1,那么权重weignt=3X4,bias=3X1

3X4 * 4X1 =3X1

 

[展开全文]

L2 distance -- 欧式距离

d(I1,I2)=根号下L1的平方

 

hyperparameter 

无法从训练中得到,而是你事先制定的,比如K的值。

cross-validation 在小数据中常使用

交叉验证

 

[展开全文]

 python 3

numpy

google cloud

 

图片其实是很多数字的像素

pixel grid 像素网格

illumination 照明

deformation 变形

occlusion 遮挡

background clutter 背景混乱

intraclass variation 类内差异

应用程序接口英语:Application Programming Interface,简称:API),又称为应用编程接口,就是软件系统不同组成部分衔接的约定。

有一种方法是写下一些规则去识别猫

但这张算法不是很好,很容易出错

 

data driven approach 

不制定规则,而是自己学习数据

 

train function

predict function

 

KNN

CIFAR 10

L1 distance--Manhattan distance

d(I1,I2)=Sigma|I1p-I2p|

对于KNN,train function 就是数据集,prediction function 是L1距离

问题是:因为训练只需要存储数据,--很快。而预测时则需要计算每一个与每一个存储数据的距离,--很慢。------不是我们想要的。

我们想要的是训练是相对可以慢一点,但是测试时要很快的模型。

 

 

 

 

 

 

[展开全文]

  图像识别image recognition

object detection 目标识别

image captioning 图像摘要生成

CNN convnet 2012年

residual network 残差网络 152 层

1998 BEll lab

什么限制了神经网络

计算能力/GPU

数据 带标签

 

visual genome

 

 

[展开全文]

相关课程

开课日期:直播已结束,可回看开始
智能驾驶 基础入门 87051
开课日期:开始
机器学习 基础入门 111844

授课教师

暂无教师
微信扫码分享课程