add gate
max gate
¥
支付方式
请使用微信扫一扫 扫描二维码支付
请使用支付宝扫一扫 扫描二维码支付
add gate
max gate
计算机视觉历史
5亿四千万年前,生物视觉出现
50% 人类大脑神经元与视觉相关
相机:17世纪文艺复兴
1959:Hubel&Wiesel,电极插入视觉神经
从简单到复杂
人脸识别
ImageNEt
计算机视觉:视觉数据大爆炸,计算机世界中的反物质
def train():
return
1966年: MIT--THE SUMMER VISION PROJECT
70年代: MIT--David Marr: A BOOK that 2D raw image to 3D model:
原始图像:边缘顶点和虚拟线条曲线边界,早期对图像的处理主要集中在边缘的简单处理
2.5维草图:将表面,深度信息,层或者视觉场景的不连续性拼凑在一起
将表面和体积图放在3d模型里
这种思维影响了计算机视觉领域很久,是传统的方式
70年代 另一个有影响的:如何越过简单的块状直接识别和表示图像
将物体的复杂结构简约城一个更简单的形状和结构,重新表达。
80年代:识别并重建,大部分都是直线和直线之间的关系。
总结:60-80年代,识别计算机视觉中的物体都是只停留在少样本的简单的几何图像,没有太多进展。
------------------------------
图像目标分割:将图像中的像素点进行归类
面部监测:1999-2000 机器学习加速发展,svm,boosting ,图模型等
2006年,实时监测面部的数码相机
基于特征的目标识别,sift特证
空间金字塔匹配:将各种物体的最为一个特征,放在SVM中计算
方向梯度直方图,可变形部件模型,识别人体姿势。
总结:随着各方向发展,21世纪早期,非常重要的基本问题--目标识别。
有名的标注数据集:基于2007-2012年PASCAL性能提升
同期提出了:是否具备了识别世界中所有物体的能力,或者大部分物体。
大部分的机器学习算法,都很可能在训练的过程中过拟合,太复杂导致模型维数太高,无法很好的泛化,当训练数据量不够时,就产生了过拟合问题,ImageNet项目来解决这个问题。
ImageNet带来巨大的数据集,将目标检测算法发展到新的高度。
2010年:ImageNet举办了挑战比赛,分类识别检测计算机视觉算法。
2010-2015年错误率一直下降,低于人类。2012年错误率显著下降,而其算法就是卷积神经网络的深度学习算法。
线性分类 linear classification
f(x,w)=Wx
输入一张picture,最简单的2x2,将它变成一个列向量,四行一列,4x1,有三个分类,想要结果是3X1,那么权重weignt=3X4,bias=3X1
3X4 * 4X1 =3X1
L2 distance -- 欧式距离
d(I1,I2)=根号下L1的平方
hyperparameter
无法从训练中得到,而是你事先制定的,比如K的值。
cross-validation 在小数据中常使用
交叉验证
python 3
numpy
google cloud
图片其实是很多数字的像素
pixel grid 像素网格
illumination 照明
deformation 变形
occlusion 遮挡
background clutter 背景混乱
intraclass variation 类内差异
应用程序接口(英语:Application Programming Interface,简称:API),又称为应用编程接口,就是软件系统不同组成部分衔接的约定。
有一种方法是写下一些规则去识别猫
但这张算法不是很好,很容易出错
data driven approach
不制定规则,而是自己学习数据
train function
predict function
KNN
CIFAR 10
L1 distance--Manhattan distance
d(I1,I2)=Sigma|I1p-I2p|
对于KNN,train function 就是数据集,prediction function 是L1距离
问题是:因为训练只需要存储数据,--很快。而预测时则需要计算每一个与每一个存储数据的距离,--很慢。------不是我们想要的。
我们想要的是训练是相对可以慢一点,但是测试时要很快的模型。
图像识别image recognition
object detection 目标识别
image captioning 图像摘要生成
CNN convnet 2012年
residual network 残差网络 152 层
1998 BEll lab
什么限制了神经网络
计算能力/GPU
数据 带标签
visual genome