首页意见反馈 AI学术青年与开发者社区

登录

...

【中文字幕】2017春季CS231n 斯坦福深度视觉识别课

【中文字幕】2017春季CS231n 斯坦福深度视觉识别课

开课时间：2017年11月10日

开课时长：讲座共有6个lecture，3个 Guest Talk，已完结。加入小组即可立即观看（完全免费）：https://ai.yanxishe.com/page/groupDetail/19。

免费课基础入门

现价：免费

课程未发布

该课程已关闭

排序：最新笔记
- 最新笔记
- 点赞最多

add gate

max gate

多明尼克•勃 · 2017-12-07 · 4.1 反向传播 0

hubing · 2017-12-06 · 1.1 计算机视觉概述 0

计算机视觉历史

5亿四千万年前，生物视觉出现

50% 人类大脑神经元与视觉相关

相机：17世纪文艺复兴

1959：Hubel&Wiesel，电极插入视觉神经

从简单到复杂

人脸识别

ImageNEt

万卡王 · 2017-11-28 · 1.2 计算机视觉历史背景 0

计算机视觉：视觉数据大爆炸，计算机世界中的反物质

万卡王 · 2017-11-27 · 1.1 计算机视觉概述 0

def train():
    return

布莱克•丹尼 · 2017-11-26 · 2.1 图像分类 - 数据驱动方法 0

1966年： MIT--THE SUMMER VISION PROJECT

70年代: MIT--David Marr: A BOOK that 2D raw image to 3D model：

原始图像：边缘顶点和虚拟线条曲线边界，早期对图像的处理主要集中在边缘的简单处理

2.5维草图：将表面，深度信息，层或者视觉场景的不连续性拼凑在一起

将表面和体积图放在3d模型里

这种思维影响了计算机视觉领域很久，是传统的方式

70年代另一个有影响的：如何越过简单的块状直接识别和表示图像

将物体的复杂结构简约城一个更简单的形状和结构，重新表达。

80年代：识别并重建，大部分都是直线和直线之间的关系。

总结：60-80年代，识别计算机视觉中的物体都是只停留在少样本的简单的几何图像，没有太多进展。

------------------------------

图像目标分割：将图像中的像素点进行归类

面部监测：1999-2000 机器学习加速发展，svm，boosting ，图模型等

2006年，实时监测面部的数码相机

基于特征的目标识别，sift特证

空间金字塔匹配：将各种物体的最为一个特征，放在SVM中计算

方向梯度直方图，可变形部件模型，识别人体姿势。

总结：随着各方向发展，21世纪早期，非常重要的基本问题--目标识别。

有名的标注数据集：基于2007-2012年PASCAL性能提升

同期提出了：是否具备了识别世界中所有物体的能力，或者大部分物体。

大部分的机器学习算法，都很可能在训练的过程中过拟合，太复杂导致模型维数太高，无法很好的泛化，当训练数据量不够时，就产生了过拟合问题，ImageNet项目来解决这个问题。

ImageNet带来巨大的数据集，将目标检测算法发展到新的高度。

2010年：ImageNet举办了挑战比赛，分类识别检测计算机视觉算法。

2010-2015年错误率一直下降，低于人类。2012年错误率显著下降，而其算法就是卷积神经网络的深度学习算法。

王琪123412431 · 2017-11-25 · 1.2 计算机视觉历史背景 1

线性分类 linear classification

f(x,w)=Wx

输入一张picture,最简单的2x2，将它变成一个列向量，四行一列，4x1，有三个分类，想要结果是3X1，那么权重weignt=3X4,bias=3X1

3X4 * 4X1 =3X1

塞西尔•本 · 2017-11-20 · 2.3 图像分类 - 线性分类I 0

L2 distance -- 欧式距离

d(I1,I2)=根号下L1的平方

hyperparameter

无法从训练中得到，而是你事先制定的，比如K的值。

cross-validation 在小数据中常使用

交叉验证

塞西尔•本 · 2017-11-20 · 2.2 图像分类 - K最近邻算法 0

python 3

numpy

google cloud

图片其实是很多数字的像素

pixel grid 像素网格

illumination 照明

deformation 变形

occlusion 遮挡

background clutter 背景混乱

intraclass variation 类内差异

应用程序接口（英语：Application Programming Interface，简称：API），又称为应用编程接口，就是软件系统不同组成部分衔接的约定。

有一种方法是写下一些规则去识别猫

但这张算法不是很好，很容易出错

data driven approach

不制定规则，而是自己学习数据

train function

predict function

KNN

CIFAR 10

L1 distance--Manhattan distance

d(I1,I2)=Sigma|I1p-I2p|

对于KNN，train function 就是数据集，prediction function 是L1距离

问题是：因为训练只需要存储数据，--很快。而预测时则需要计算每一个与每一个存储数据的距离，--很慢。------不是我们想要的。

我们想要的是训练是相对可以慢一点，但是测试时要很快的模型。

塞西尔•本 · 2017-11-20 · 2.1 图像分类 - 数据驱动方法 0

图像识别image recognition

object detection 目标识别

image captioning 图像摘要生成

CNN convnet 2012年

residual network 残差网络 152 层

1998 BEll lab

什么限制了神经网络

计算能力／GPU

数据带标签

visual genome

塞西尔•本 · 2017-11-20 · 1.3 课程后勤 0

相关课程

未来汽车大讲堂——智能驾驶第一课

￥399.00 ￥599

会员￥258

开课日期：直播已结束，可回看开始

智能驾驶基础入门 87051

从Python入门-如何成为一名AI工程师

￥299.00 ￥499

会员免费

开课日期：开始

机器学习基础入门 111844

Hinton《面向机器学习的神经网络》中文版

免费

开课日期：深度学习鼻祖Hinton公开课视频，随到随学开始

免费课 29879

授课教师

暂无教师

微信扫码分享课程

最新学员

学员动态

wwwzzZ 加入课程【中文字幕】2017春季CS2...

伊蒂丝•劳森开始学习课时 1.2 计算机视觉历史背景

郑卓峰开始学习课时 3.1 损失函数

德维特•柯林开始学习课时 6.2 批量归一化

凯尔•贺拉斯开始学习课时 5.3 视觉之外的卷积神经网络