首页 AI学术青年与开发者社区

【中文字幕】2017春季CS231n 斯坦福深度视觉识别课

开课时间:2017年11月10日
开课时长:讲座共有6个lecture,3个 Guest Talk,已完结。加入小组即可立即观看(完全免费):https://ai.yanxishe.com/page/groupDetail/19。
免费课 基础入门
现价: 免费
该课程已关闭

1.Hubel和Wiesel的理想化的观点:

a.视觉处理的早期阶段由很多关于像边缘和曲线的简单结构

b.2.5D草图:将表面、深度信息、层或视觉场景的不连续性拼凑在一起

c.将所有内容放在一起,将表面和体积等分层组织了一个3D模型

2.另一个重要的问题:如何越过简单的块状世界,开始识别或表示现实世界的对象?

Difficulties:数据、计算机运算速度

方法:广义圆柱体,图形结构(用简单的元素组成实体)

共性:停留在简单样本的阶段,没有很大进展

3.识别目标太难,先进行目标分割。

图像分割:将一张图片中的像素点归类到有意义的区域。

4.面部检测先于其他领域取得进展。

使用AdaBoost算法进行实时面部检测。

5.90年代末到2000年一个非常有影响力的思想方法:基于特征的目标识别。SIFT特征:匹配整个目标。启发:特征在变化中的不变性。目标识别的首要任务:在目标上确认关键特征。

另一进展:识别整幅图的场景。算法:空间金字塔匹配(从图片的各部分像素中抽取特征,在特征描述符上支持向量机)

6.在图片中设计人体姿态、辨认人体姿态

a.方向梯度直方图

b.可变形部件模型

7.重要的问题:目标识别

21世纪才拥有标注数据集

8.一个更艰难的问题:我们是否具备了识别大部分物体的能力?

大部分机器学习算法都很可能过拟合。原因:模型复杂,维数高,数据少时容易过拟合,不能很好地泛化。

数据搜集:IMAGENET.将目标检测算法推到了一个新的高度。

2015年目标识别已超过人

2012年的显著提升:卷积神经网络算法

[展开全文]

感知系统 超过一半的神经系统

大脑视觉处理机制

 

 

[展开全文]

1. 到2016年为止,我们的世界85%都是以像素形式呈现的。而像素数据就好像暗物质,虽然无法具体的描述出来,但是可以用数学模型来进行推断和模拟。在Youtube上面,平均每60秒就有150小时的视频上传,这意味着大量像素数据需要被标记、分类以及索引等等操作以便广告商或者用户检索等功能的相关应用扩展。

 

 

2.随着互联网逐渐成为人类获取信息的主要载体以及视觉传感器(如智能手机、行车记录仪等设备)数量的增多,计算机视觉逐渐走入人们的视线,计算机视觉和很多领域都密切相连,跨学科。属于深度学习的一个超集(即深度学习也属于计算机视觉的一个子集,即在计算机视觉领域的一个发展子方向)

深度学习和机器学习的差别深度学习是机器学习的更高级的算法 (深度学习不是算法,是一种层次化分解任务的思想—>传统机器学习一步一步进行,具有算法的步骤;而深度学习则是多层次处理,对数据进行每一步特征提取具有整体性所有层都是一个整体,就像编译型,传统就像解释型,原始信息不易丢失(传话),避免多层的噪声引入),比之机器学习具备多层架构的感知器,正确率更高,如果这样看,可以说机器学习是深度学习的超集】—>【与本课程相联系的—在ImageNet 竞赛中,2012年后,基本所有夺冠模型都使用了使用了卷积神经网络,取代了以前特征提取+向量机的方法】

 

 

3.计算机视觉的历史:

 (1).五亿四千万年前,寒武纪生命大爆发,Andrew Parker:这一切都源于眼睛的出现。

 (2).文艺复兴时期:达芬奇发明的camero obscura,照相暗盒。现代视觉工程技术的开端。“复制这个世界”,但此时人们对视觉的需求不涉及理解

 (3).哈佛的研究:清醒但是被麻醉的猫,用一根电极探针插入猫的基础视觉皮质层—整个视觉处理流程的前期开端(在后脑勺部位。50%的大脑参与了视觉处理),记录神经元的活动。每次换幻灯片的动作会使得神经元被激活,生成了一个边缘刺激神经元的激活,每一列神经元按序排列,对特定的有反应。此时人们开始尝试理解视觉,并意识到视觉处理的前期是对简单的结构形状和边缘结构(由一些允许变形的“弹簧”连接。)进行处理和解析。(方块世界)

(4).David Marr:视觉是分层的。第一层是边缘结构(原始草图);第二层是2.5D—将2D视觉成像处理为3D真实世界模型(即遮挡问题等)。此时人们研究的方向转为研究如何重建一个3D模型,以便我们识别。

(5).在1997年,VIOLA JONES FACE DETECTOR实现人脸检测(富士2006数码相机),虽然这个模型没有用到深度学习,但是运用了特征学习的思想,算法试图寻找黑白的过滤器特征值(向量在此变换下缩放的比例)。人们开始处理彩色图像,将图片分割成有意义的几部分,将像素进行分组。此时人们研究的重点从建立3D建模跳到了我们识别的是什么。

(6).Kunihiko Fukushima: (邦彦福岛)提出了Neocognitron模型—现代神经网络架构的开端

          Yann Lecun 反向传播和学习策略     识别手写数字:边缘结构—滤波—池化等

 

Neocognitron模型的优化:竞赛中也有人使用了Neocognitron模型,但是在顺序和量级两个方面进行了优化。不同的在于运用了 1.摩尔定律。解决算法太慢等问题  2.大数据。高性能架构的执行力,解决过拟合overfitting(为了得到一致假设而使假设变得过度严格,没有从带干扰的观察中找到事物真正的规律。除了学习的全局特征,如果样本存在太多局部特征则会使得预测不准确。于是机器无法正确识别符合概念定义的“正确”样本的几率也会上升,也就是所谓的“泛化性”变差,这是过拟合会造成的最大问题.)的问题。】

 

4.仍在研究中的技术:密集检测、动作场景方面、3D方面

 

 

5.愿景:

 

1.Neural Style

 

Github:https://github.com/jcjohnson/neural-style

这个项目是对论文“A Neural Algorithm of Artistic Style”用深度学习框架Torch7 的一个实现。该论文提出一种采用卷积神经网络将一幅图像的内容与另一幅图像的风格进行组合的改进算法。例如将梵高《星夜》的艺术风格转移到斯坦福大学校园夜景的照片中.

 

2.Show and Tell

 

GitHub:https://github.com/tensorflow/models/tree/master/im2txt

这是 论文Show and Tell: Lessons learned from the 2015 MSCOCO Image Captioning Challenge 用TensorFlow实现的 image-to-text 图片说明生成模型.即给机器一张图片,生成解释的文字。

 

 

3.Neural Doodle

 

Github:https://github.com/alexjc/neural-doodle

基于Combining Markov Random Fields and Convolutional Neural Networks for Image Synthesis中的 Neural Patches 算法,根据文章Semantic Style Transfer and Turning Two-Bit Doodles into Fine Artworks,使用深度神经网络把你的二流涂鸦变成艺术一般的作品的一个实现。

 

 

4.Open Face

 

Github: https://github.com/cmusatyalab/openface

OpenFace 是一个使用深度神经网络,用 Python 和 Torch 实现人脸识别的项目。神经网络模型基于 论文FaceNet: A Unified Embedding for Face Recognition and Clustering,Torch7 让网络可以在 CPU 或 CUDA 上运行。

 

5.PaintsChainer

http://paintschainer.preferred.tech/

 

Github: https://github.com/pfnet/PaintsChainer

PaintsChainer可以给手绘的线稿进行自动上色,并且可以规划不同区域的不同颜色进行定制上色。

 
[展开全文]

1,眼睛的出现触发big bang

2, 相机的小孔成像也是模拟最初的视觉成像

3,物体识别是计算机视觉领域的大难点,先发展了物体分割,同时在小数据时代,20年代初期人脸识别得到突破

4,为了促进计算机视觉发展,李飞飞等收集了4000万张,2万类左右的图片数据库ImgaeNet,然后组织了ImageNet大赛。大赛在2012年比2010年的误差降了10%,这是使用cnn模型做到的。深度学习开始在其它领域得到发展。

著名的猫大脑视觉实验,认识物体先从纹理,轮廓。。。。

[展开全文]

计算机视觉历史

5亿四千万年前,生物视觉出现

50% 人类大脑神经元与视觉相关

相机:17世纪文艺复兴

1959:Hubel&Wiesel,电极插入视觉神经

 

从简单到复杂

 人脸识别

 

ImageNEt

 

[展开全文]

1966年: MIT--THE SUMMER VISION PROJECT

 

70年代: MIT--David Marr: A BOOK that 2D raw image to 3D model:

原始图像:边缘顶点和虚拟线条曲线边界,早期对图像的处理主要集中在边缘的简单处理

2.5维草图:将表面,深度信息,层或者视觉场景的不连续性拼凑在一起

将表面和体积图放在3d模型里

这种思维影响了计算机视觉领域很久,是传统的方式

70年代 另一个有影响的:如何越过简单的块状直接识别和表示图像

将物体的复杂结构简约城一个更简单的形状和结构,重新表达。

 

80年代:识别并重建,大部分都是直线和直线之间的关系。

 

总结:60-80年代,识别计算机视觉中的物体都是只停留在少样本的简单的几何图像,没有太多进展。

------------------------------

图像目标分割:将图像中的像素点进行归类

面部监测:1999-2000 机器学习加速发展,svm,boosting ,图模型等

2006年,实时监测面部的数码相机

基于特征的目标识别,sift特证

空间金字塔匹配:将各种物体的最为一个特征,放在SVM中计算

方向梯度直方图,可变形部件模型,识别人体姿势。

总结:随着各方向发展,21世纪早期,非常重要的基本问题--目标识别。

有名的标注数据集:基于2007-2012年PASCAL性能提升

同期提出了:是否具备了识别世界中所有物体的能力,或者大部分物体。

大部分的机器学习算法,都很可能在训练的过程中过拟合,太复杂导致模型维数太高,无法很好的泛化,当训练数据量不够时,就产生了过拟合问题,ImageNet项目来解决这个问题。

ImageNet带来巨大的数据集,将目标检测算法发展到新的高度。

2010年:ImageNet举办了挑战比赛,分类识别检测计算机视觉算法。

2010-2015年错误率一直下降,低于人类。2012年错误率显著下降,而其算法就是卷积神经网络的深度学习算法。

 

 

 

 

 

 

[展开全文]

History of computer vision

 

[展开全文]

相关课程

开课日期:直播已结束,可回看开始
智能驾驶 基础入门 87051
开课日期:开始
机器学习 基础入门 111844

授课教师

暂无教师
微信扫码分享课程