【中文字幕】2017春季CS231n 斯坦福深度视觉识别课

[展开全文]

头皮发麻 · 2018-02-01 · 1.1 计算机视觉概述 0

[展开全文]

JoeChen · 2018-01-29 · 1.1 计算机视觉概述 0

[展开全文]

布鲁诺•奥卡 · 2018-01-23 · 1.1 计算机视觉概述 0

1. 到2016年为止，我们的世界85%都是以像素形式呈现的。而像素数据就好像暗物质，虽然无法具体的描述出来，但是可以用数学模型来进行推断和模拟。在Youtube上面，平均每60秒就有150小时的视频上传，这意味着大量像素数据需要被标记、分类以及索引等等操作以便广告商或者用户检索等功能的相关应用扩展。

80%都是视频。

2.随着互联网逐渐成为人类获取信息的主要载体以及视觉传感器（如智能手机、行车记录仪等设备）数量的增多，计算机视觉逐渐走入人们的视线，计算机视觉和很多领域都密切相连，跨学科。属于深度学习的一个超集（即深度学习也属于计算机视觉的一个子集，即在计算机视觉领域的一个发展子方向）

【深度学习和机器学习的差别？深度学习是机器学习的更高级的算法（深度学习不是算法，是一种层次化分解任务的思想—>传统机器学习一步一步进行，具有算法的步骤；而深度学习则是多层次处理，对数据进行每一步特征提取具有整体性（所有层都是一个整体，就像编译型，传统就像解释型），原始信息不易丢失（传话），避免多层的噪声引入），比之机器学习具备多层架构的感知器，正确率更高，如果这样看，可以说机器学习是深度学习的超集】—>【与本课程相联系的—在ImageNet 竞赛中，2012年后，基本所有夺冠模型都使用了使用了卷积神经网络，取代了以前特征提取+向量机的方法】

3.计算机视觉的历史：

（1）.五亿四千万年前，寒武纪生命大爆发，Andrew Parker：这一切都源于眼睛的出现。

（2）.文艺复兴时期：达芬奇发明的camero obscura,照相暗盒。现代视觉工程技术的开端。“复制这个世界”，但此时人们对视觉的需求不涉及理解。

（3）.哈佛的研究：清醒但是被麻醉的猫，用一根电极探针插入猫的基础视觉皮质层—整个视觉处理流程的前期开端（在后脑勺部位。50%的大脑参与了视觉处理），记录神经元的活动。每次换幻灯片的动作会使得神经元被激活，生成了一个边缘刺激神经元的激活，每一列神经元按序排列，对特定的有反应。此时人们开始尝试理解视觉，并意识到视觉处理的前期是对简单的结构形状和边缘结构（由一些允许变形的“弹簧”连接。）进行处理和解析。（方块世界）

（4）.David Marr：视觉是分层的。第一层是边缘结构（原始草图）；第二层是2.5D—将2D视觉成像处理为3D真实世界模型（即遮挡问题等）。此时人们研究的方向转为研究如何重建一个3D模型，以便我们识别。

（5）.在1997年，VIOLA JONES FACE DETECTOR实现人脸检测（富士2006数码相机），虽然这个模型没有用到深度学习，但是运用了特征学习的思想，算法试图寻找黑白的过滤器特征值（向量在此变换下缩放的比例）。人们开始处理彩色图像，将图片分割成有意义的几部分，将像素进行分组。此时人们研究的重点从建立3D建模跳到了我们识别的是什么。

（6）.Kunihiko Fukushima: （邦彦福岛）提出了Neocognitron模型—现代神经网络架构的开端。

Yann Lecun 反向传播和学习策略识别手写数字：边缘结构—滤波—池化等

【Neocognitron模型的优化：竞赛中也有人使用了Neocognitron模型，但是在顺序和量级两个方面进行了优化。不同的在于运用了 1.摩尔定律。解决算法太慢等问题 2.大数据。高性能架构的执行力，解决过拟合overfitting（为了得到一致假设而使假设变得过度严格，没有从带干扰的观察中找到事物真正的规律。除了学习的全局特征，如果样本存在太多局部特征则会使得预测不准确。于是机器无法正确识别符合概念定义的“正确”样本的几率也会上升，也就是所谓的“泛化性”变差，这是过拟合会造成的最大问题.）的问题。】

4.仍在研究中的技术：密集检测、动作场景方面、3D方面

5.愿景：

1.Neural Style

Github：https://github.com/jcjohnson/neural-style

这个项目是对论文“A Neural Algorithm of Artistic Style”用深度学习框架Torch7 的一个实现。该论文提出一种采用卷积神经网络将一幅图像的内容与另一幅图像的风格进行组合的改进算法。例如将梵高《星夜》的艺术风格转移到斯坦福大学校园夜景的照片中.

2.Show and Tell

GitHub:https://github.com/tensorflow/models/tree/master/im2txt

这是论文Show and Tell: Lessons learned from the 2015 MSCOCO Image Captioning Challenge 用TensorFlow实现的 image-to-text 图片说明生成模型.即给机器一张图片，生成解释的文字。

3.Neural Doodle

Github：https://github.com/alexjc/neural-doodle

基于Combining Markov Random Fields and Convolutional Neural Networks for Image Synthesis中的 Neural Patches 算法，根据文章Semantic Style Transfer and Turning Two-Bit Doodles into Fine Artworks，使用深度神经网络把你的二流涂鸦变成艺术一般的作品的一个实现。

4.Open Face

Github: https://github.com/cmusatyalab/openface

OpenFace 是一个使用深度神经网络，用 Python 和 Torch 实现人脸识别的项目。神经网络模型基于论文FaceNet: A Unified Embedding for Face Recognition and Clustering，Torch7 让网络可以在 CPU 或 CUDA 上运行。

5.PaintsChainer

http://paintschainer.preferred.tech/

Github: https://github.com/pfnet/PaintsChainer

PaintsChainer可以给手绘的线稿进行自动上色，并且可以规划不同区域的不同颜色进行定制上色。

[展开全文]

奥菲莉亚•李 · 2018-01-16 · 1.1 计算机视觉概述 0