首页 AI学术青年与开发者社区

【中文字幕】2017春季CS231n 斯坦福深度视觉识别课

开课时间:2017年11月10日
开课时长:讲座共有6个lecture,3个 Guest Talk,已完结。加入小组即可立即观看(完全免费):https://ai.yanxishe.com/page/groupDetail/19。
免费课 基础入门
现价: 免费
该课程已关闭

本节课讲解 CS231n 课程的主要内容。

  • 视觉识别的一个主要问题——图像分类,以及和图像分类相关的目标检测(Object detection)、图像摘要生成(Image captioning)、动作分类(Action classification)等等。
  • 目标检测相比于对一整幅图像的分类,需要在图像中标出边界框(bounding box) 确定不同目标的位置。
  • 图像摘要则为一副图像生成一句话来描述该图像的内容。
 
  • 深度学习能够在2012年后飞速发展的主要原因:
    • 计算能力提升:包括CPU的提升和GPU的出现。
    • 数据:由于互联网的发展和技术进步,数据获得了数量级的增长。
[展开全文]

层次化的,分很多层

池化,多层处理

传递给线性SVN

了解内部到底发生了哪些事情

架构的设置会产生什么样的影响

网络是如何训练和测试的

正向/反向传播

[展开全文]

原来已经发展到这种程度了么。

正处在一个大变革的时代,

一旦强人工智能实现,整个世界将会完全变得不一样。人类历史大变革。就在此刻

[展开全文]

02:57是SVM吧,不是SVN

[展开全文]

计算能力

大数据

pascal,imagenet

[展开全文]
xialotte · 2018-10-10 · 1.3 课程后勤 0

视觉识别问题

图像分类

目标检测 object detection 

action classification 

图像摘要image captioning 描述图片

CNN convnets

2010 NEC UIUC

2012 SuperVision Hinton 7层神经网络 Alexnet

2014 GoogLeNet VGG  19层

2015 MSRA 152 ResNet 残差网络 微软研究所

CNN 1998 Yann LeCun 贝尔实验室 数字识别

pooling 池化 

卷积层 下采样 全连接层

增大算法规模 增加数据 互联网

挑战 语义分割 semantic segmentation 

知觉分组 perceptual grouping

理解图像中的每个像素

3D理解 由图片重构世界

动作识别 activity recognition

增强现实 虚拟现实

把图片作为一组语义的集合 对象关系 属性

场景中的动作

500ms内 人类视觉描述了图像

医学诊断 自动驾驶

DeepDream NeuralStyle GAN?
从零开始实现CNN使用Python

完整实现正向传播 反向传播

从框架实现 tensorflow torch  caffe

使用RNN 的图片摘要

风格迁移

 

 

[展开全文]

计算机视觉的发展历史:

 

[展开全文]

1.7层卷积神经网络,现在以AlexNet而闻名,AlexNet这个神经网络有七或八层,它取决于你需要计算的精确度,2015年有了更深的网络-VGG网络,他们有19层网络。同年微软研究院研究出残差网络,有152层

 

[展开全文]

相关课程

开课日期:直播已结束,可回看开始
智能驾驶 基础入门 86962
开课日期:开始
机器学习 基础入门 111694

授课教师

暂无教师
微信扫码分享课程