lesson21笔记- 深度学习在序列数据中的应用
1. 序列分析对应的是(单张)图像分析.
图像分析回顾: 图像分类, 目标检测, 图像分割.
特点是 one to one
1) 固定大小输入
2) 固定大小输出
3) 固定模型结构
4) 局部卷积层
2) 序列分析初探:
模型结构不是 one2one,
而是更多,
one2many - 图像标注(label是多个语义单词),
many2one - 动作识别(label是单个语义单词),
many2many(处理层的cell>输入的cell) - 机器翻译, 视频标注(解说),
many2many(另外的架构, 处理层的cell=输入的cell) - 动作是必然(帧级别), 每个输入都有一个输出.
一.
2. 序列分析的主要工具是:RNN
RNN 在空间上展开为链状结构;
RNN存在的问题: 梯度消失, 长期依赖. 因为迭代相同的w权重.
3. 解决RNN的梯度问题 -- LSTM
LSTM可一定程度上解决梯度问题;
LSTM可以脊柱长时间内的信息;
LSTM使用门(gate) 结构 :
1) 细胞状态( cell state) , 水平最上的轴
2) 门(gate) , 控制进入出,过滤信息.
a) 遗忘门forget gate (乘法入细胞状态): 决定细胞状态需要丢弃的部分;
b) 输入门input gate (加法入细胞状态): 决定让多少新的信息加入到细胞状态中来 * 产生新的备选细胞状态
c) 细胞状态更新 :
遗忘门forget gate (乘法入细胞状态) + 输入门input gate (加法入细胞状态)
d) 输出门output gate :
决定输出哪些细胞状态 * 只输出我们希望输出的细胞状态
LSTM梯度能传播超过80个节点
4 序列问题的实例 LSTM 图像标注
START不做输入, 作为开始的标记;
CNN作为v 输入到h0;
最后输出END
5. LSTM扩展1 - attention LSTM
在LSTM网络基础上加入attention机制
动作识别
多物体识别
生成门牌号
6. LSTM扩展2 - ConvLSTM
全连接的相乘, 改为卷积
降雨预测
二.
7. 序列分析的另外的方法: C3D
3D卷积,可以理解为相邻的3幅图用3个不同的卷积核进行卷积,并把卷积结果相加, 卷积结果还是3d的.
C3D适用窄,动作识别, 视频生成(有demo链接)