¥
支付方式
请使用微信扫一扫 扫描二维码支付
请使用支付宝扫一扫 扫描二维码支付
开通会员,立省699元 立即开通
Segmentation includes semantic segmentation and instance segmentation.
Semantic segmentation requires telling which category each pixel falls while instance segmenation requires separating each object.
We can use IoU to evaluate the performance of one object and use mean IoU to evaluete the general performance on the entire image.
Segmentation is widely used in areas like remote sensing, medeical image analysis , scene understanding and SLAM etc.
traditional method includes: graph-cut, super-pixel segmentaion and edge detection etc.
modern method: finding a mapping between certain input X and P(i,j) where i, j means each pixel. The output is a tensor of shape [w, h, k] where k means number of classes.
this mapping is normally realized using Fully Convoluitional Networks, also known as FCN.
But how to find out the perfect mapping?
1. Large number of traininng samples;
2. resonalble loss;
3, optimization method.
As it is fundamentally a classification problem, we should use cross-entropy loss to meausre the mismatch between label and output. the loss is not a scalar, but a matrix as each pixel has a scalar output.
something we need to note:
1. why batch norm?
increase nonlinearity, improve noise resistance, prevent overfitting.
2. why pooling during downsampling?
improve receptive field, decrease parameters.
3. softmax in the last layer.
1.deconv: apply conv after apply padding .
2.context shareing : introduce the help from other image levels.
example: Pyramid scene parsing network (best performance in cityscope) also known as PspNet.
3.Full-resolution residual network.
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
Instance Segmentation Problem:
Approaches:
1. Mask R-CNN
2. detect the edge of each object -> Deep Watershed Transform.
The output of Direction Net outputs the direction of each pixel towards the nearest boundary inside each object. Each direction can be represented as the combination of two channels vector field.
3. Instance-sensitive fully convolutional networks.
人脸识别:
模版匹配:比较简单的想法,将人脸图像变成为向量,然后处理两个向量之间的欧氏距离或其他距离,通过距离大小来判断两个人脸是否相似。
为什么进行人脸对齐:希望神经网络只学习身份信息,而不是学习人脸的角度等信息。
为什么选3个点进行人脸对齐:不共线的3个点决定了唯一的仿射变换,其中a、b值决定了缩放量,c值决定了平移量
sift特征:主要用于图像分类和图像匹配
hog特征:主要用于图像检测/图像跟踪
LBP特征:主要用于人脸识别
Harr特征:
http://www.vfleat.org/ 该网站有很多图像特征提取方法
cnn的low-level层表征的特征类似融合了上述各类图像特征提取方法,但CNN的优势是同时在Mid-level、High-level层能够表征图像的抽象特征,这在图像处理中特别有用。
池化层其实就是一个下采样过程。特征表达更加紧凑,同时具有位移不变性。
损失函数:
AlexNet:5个卷机层、2个全连接层
VGGNet:
GoogleNet:
趋势:层数越来越多、深度越来越深、卷积核尺寸越来越小、参数越来越少
图像分割——成硕
1.概述
问题:语义图像分割和实例图像分割。
本质:像素级分类任务。
评价标准:IOU
2.应用
遥感、自动驾驶、医用、体育、语义地图、3D重建
3.示例
IOU值: 路面》车子》路标
4. 用DeepLearning解决图形分割
1)传统算法:细节差
2)DP
对抗式生成网络‐‐‐应用
1. DCGAN
2. 池化、激活函数的作用
epoch、iteration
3. ACGAN
4. text2image
5. image2image
GAN
1. 动机:
1)提升表征能力
2)嵌入到强化学习
3)数据标注
4)输出多样性
2. 应用
a. 图像编辑和生成
编辑:鞋子,尺度变化、颜色
生成:轮廓sketch->图像
b. 人脸修饰
c. 图像着色
d. 风格迁移:油画、动物、季节、edge2cats
e. 图像超分辨及图像修复
总结:
部分信息推理全局信息的能力
已有数据推测新数据的过程
生成模型:
(1)完全可见信念网络
(2)变分自编码器
(3)对抗式生成网络
GAN 应用
1.DCGAN-deep convolutional GAN
一个非常基础的模型,特点有:取消池化,使用转置卷积,使用BN,去掉全连接,G网络中使用relu,D网络中使用leakyrelu.
总而言之,DCGAN是一个下采样+上采样结构的网络。传统的GAN是全连接的,DCGAN是卷积层构成的。
2.ACGAN:额外添加了类别信息,产生制定类别的图片
3.text2image:用一个向量来表示一句话,向量中的每一个元素作为词语的索引,使用向量作为生成器的输入,从而实现了一个文字到图像的生成。
4.image2image