首页 AI学术青年与开发者社区

【中文字幕】2017春季CS231n 斯坦福深度视觉识别课

开课时间:2017年11月10日
开课时长:讲座共有6个lecture,3个 Guest Talk,已完结。加入小组即可立即观看(完全免费):https://ai.yanxishe.com/page/groupDetail/19。
免费课 基础入门
现价: 免费
该课程已关闭

本节课讲解 CS231n 课程的主要内容。

  • 视觉识别的一个主要问题——图像分类,以及和图像分类相关的目标检测(Object detection)、图像摘要生成(Image captioning)、动作分类(Action classification)等等。
  • 目标检测相比于对一整幅图像的分类,需要在图像中标出边界框(bounding box) 确定不同目标的位置。
  • 图像摘要则为一副图像生成一句话来描述该图像的内容。
 
  • 深度学习能够在2012年后飞速发展的主要原因:
    • 计算能力提升:包括CPU的提升和GPU的出现。
    • 数据:由于互联网的发展和技术进步,数据获得了数量级的增长。
[展开全文]

本节主要介绍了计算机视觉的发展历史。

  • 通过提出广义圆柱体(generalized cylinder)和图形结构(pictorial structure)(深度学习之前,人体姿态估计常用方法的理论基础),将每个对象由简单的几何图单位组成,达到识别和表示对象的目的。
  • 机器学习在视觉领域的一大突破是使用 AdaBoost 算法进行实时面部检测(2001)。2006 年,富士推出了第一个能够实现实时面部检测的数码相机。
  • 90 年代末到 2000 年的前十年,基于特征的目标识别极具影响力。主要有 SIFT 特征(在图片中找到能够在变化中具有表现性和不变性的特征,使用这些关键特征进行匹配)、HOG、空间金字塔特征(从图片的各个部分、各像素抽取特征,然后把他们放在一起作为一个特征描述符,使用特征描述符训练分类器)。
  • 另一个热门方向是如何在实际图片中设计人体姿态和辨认人体姿态,早期的方法主要有方向梯度直方图可变形部件模型。
  • 目标识别的主要数据集有 PASCAL VOC(20多类)、ImageNET(2000多类)。
[展开全文]

 

K-近邻

线性分类器--SVM    逻辑回归

两层NN

numpy

 

数据驱动方法

不写具体的分类规则来识别一只猫或鱼
而是:用大量猫的图片数据集+标签
机器分类,总结核心要素,
测试
训练集:接收数据和标签生成模型
测试集:接收模型和数据进行预测
 
最近邻 2-17

 

 

[展开全文]

层次化的,分很多层

池化,多层处理

传递给线性SVN

了解内部到底发生了哪些事情

架构的设置会产生什么样的影响

网络是如何训练和测试的

正向/反向传播

[展开全文]

使用sigmoid,x输入均值要为0.避免X全正或负,否则梯度更新只能沿着一个方向。W的梯度永远为一个符号,相同于X

[展开全文]

output size:

N-F/stride+1

为了保证输出图像维持不变,用0补齐边缘

[展开全文]

sigmoid函数作为激活函数,在每一次W和B处理X之后在进行非线性变化,以便传到下一层。

def feed_forward_nuero(x):

f = lambda x: 1/(1+np.exp(-x))

x = np.random.randn(1,3)

h1 = f(np.dot(W1,x)+bias1)

h2 = f(np.dot(W2,h1)+bias2)

out_put =  np.dot(W3,h2)+bias3

[展开全文]

返回的梯度,与当前节点的输入维度一致,可作为检查梯度的验证。

[展开全文]
高层神经网络,特征提取得不会很模糊,因为一个类别不只是学习一个模板 线性分类器的局限性:不能分类奇偶性这种离散的问题,不能分类在多个象限中出现了同一种类的问题
[展开全文]

改变坐标轴会改变L1

但是  不会L2

L1:在各个坐标有个实际意义时候表现更好

k是超参数 是学不到的

不能总是调整 超参数 使得训练结果最好

也不能使得验证结果最好

也就是你不不能瞎几把调

 

 

还有一种方法:交叉验证(小数据集中使用)

把训练集分成4组,交叉验证

 

knn分类局限性:1、就是用数据将把样本空间分成几块

如果维度太高,那数据太少肯定不行,数据必

须密集

 

2、L1 L2距离并不能真实地反应两张图的差别

 

 

[展开全文]

相关课程

开课日期:深度学习鼻祖Hinton公开课视频,随到随学开始
免费课 31927

授课教师

暂无教师
微信扫码分享课程