首页 AI学术青年与开发者社区

NLP工程师入门实践:基于深度学习的自然语言处理

开课时间:2月开课,每周定时更新
开课时长:三大模块,预计20个课时
NLP领域 基础入门
会员免费
现价:¥599.00
原价:¥699.00

  开通会员,立省599元 立即开通

  当前课程,会员领券立减59元>>

一、自然语言处理具体应用领域:

  • (文字或语言)检索
  • 在线广告匹配
  • 自动(辅助)翻译
  • 语音识别
  • 聊天/对话代理
  1. 自动客服
  2. 设备控制
  3. 订购商品

 二、基于深度学习的自然语言处理还可以应用于:

  • 文本分类/情感分析
  • 问答/对话/图像问答/基于图像的对话
  • 机器翻译
  • 图像描述生成

 三、深度学习与人工智能的关系:人工智能是宏观上的概念,从技术上来说,主要是用到了机器学习技术,而机器学习中有一种算法是神经网络算法,神经网络是分层的,当层数大于3层时,我们一般就把这样的网络称为深度网络,而目前的深度学习算法就是经过一定的预处理之后,训练深度网络的算法。目前主要有卷积神经网络与循环神经网络。

四、本课程以应用为主,结合了两种常用的深度网络,且主要是循环神经网络,通过Pytorch(一种实现深度学习算法的框架)来完成某些特定的与自然语言处理相关的内容。

 

[展开全文]

MT就是使用计算机实现从一种自然语言文本到另一种自然语言文本的翻译。

按需求分类可以将MT应用于:

  • 传播信息
  • 浏览信息
  • 交流信息
  • 查询信息

从技术角度来看,又可根据理性主意和经验主意进行划分

基于理性主义(基于规则的方法,目前使用的较少)的划分:

  • 直接翻译法
  • 转换法
  • 中间语言法

基于经验主义(基于语料库、统计的方法,是目前的主流方法):

  • EBMT(基于实例的翻译)
  • Translation Memory
  • Pattern-Based MT
  • Statistical approach to MT

词语对齐是机器翻译中的重要技术,但是目前自动词语对齐技术一般都嵌入在处理过程中自动完成。

一般来说,篇章、段落、句子、短语、词语等都需要不同级别的对齐,其目的就是从双语互译的文本中找出互译的片段。

其中篇章、段落、句子的对齐技术主要用于语料库的整理,而短语和词语对齐,就是要找出相互翻译的文本中对应的词与词、短语和短语之间的相互翻译对。

在机器翻译领域,seq2seq模型是目前最常用的技术之一。

在NMT中,通常采用encoder-decorder来实现seq2seq的转换。其中的encoder和decoder通常都使用RNN来实现。

基本encoder-decoder是一个end-to-end的网络,所有的参数都可以学习。只要给定训练数据即可训练处效果还不错的模型,省去了很多特征抽取以及各种复杂中间步骤。

 

[展开全文]

应用:

1、语法检查、关键词搜索、查找同义词

2、从网站提取信息

3、分类

4、机器翻译

5、口头对话系统

6、复杂问答

7、对话

 

CNN:文本分类、关系提取与分类、垃圾检测、语义关系提取

RNN:机器翻译、文本问答系统、图片捕获、图片问答系统、关系分类、对象检测

[展开全文]

条件概率

假设给定B事件是真的,A在给定B的条件下的条件概率表示:P(A|B),如下图:

联合概率计算:

联合概率二维表格:

 

联合概率,边缘概率,条件概率

https://blog.csdn.net/libing_zeng/article/details/74625849

贝叶斯:

P(A|B) = P(A ∩ B)/P(B) 

P(A|B) = P(B|A)P(A)/P(B) 

贝叶斯关注空间参数细节 ,频率学派并不关心空间参数细节

伯努利分布/二项分布:

符合以下4个特点的就是二项分布:

1. 做某件事的次数是固定的;
2. 每一件事情都有两个可能的结果(成功,或失败)
3. 每一次成功的概率都是相等的
4. 你最感兴趣的是成功x次的概率是多少

joint entropy(交叉熵/相对熵)

mutual information(互信息)

 

 

 

 

 

 

 

 

 

 

[展开全文]

复杂模型在自然语言方面不能 work 的原因在于数据和计算。GPU 和数据的结合使得深度学习在自然语言处理和计算机视觉中得到很大的发展。

自然语言处理主要是理解给定文本的含义和结构;而文本挖掘是通过模式识别提取文本数据的隐藏信息。

机器翻译发展快且成熟。建议从无监督角度出发做 research。没有标注数据,如何从无监督角度出发,得到一个翻译模型,是非常有意义的。

问答,对话可以做的比较多。现实生活中不仅是基于文本的问答,通过摄像头捕获周围环境做成图像或视频,基于此进行问答,叫做 Visual Question Answering, VQA。

淘宝客服已经有自动对话,是基于模板的。对话非常死板,机器回答没有多样性。

语言不仅仅是信号,而是经过思考的交流。这一过程很像编码-解码。

大数据 Volume, Velocity ( Effective,real-time, dynamic, predictive ), Variety ( Multi-Modal )

机器学习用算法来解析数据,从中学习,然后对真实世界的事件做出决策和预测。

建议不要局限于深度学习,比如说把一个网络怎么优化得更好,更多的是结合机器学习的方法(无监督学习,增强学习)。

从 research 角度, 建议未来几年 focus on 无监督学习或半监督学习。 

[展开全文]

CNN (Convolutional Neural Network) 基本驵成

LeNet-5 例子:

  • 输入尺寸:32*32
  • 卷积层 (Convolution Layer) : 3 个
  • 降采样层 (Downsampling/Subsampling/Pooling) : 2 个
  • 全连接层 (Fully-connected Layer) : 1 个
  • 输出 (Output Layer: SVM 等): 10 个类别 (数子0-9 机率)

卷积层

  • 原始图片的与特定的Feature Detector(filter)做卷积运算
  • Feature Detector(Filter)会随机产生好几种(ex:6种),Feature Detector的目的就是帮助我们萃取出图片当中的一些特征(ex:形状)

池化层

  • 将图片资料量减少并保留重要资讯的方法,把原本的资料做一个最大化 (Max Pooling) 或是平均化的降维计算
  • 最重要目的是减少参数,防止过度拟合 (overfitting)

全连接层

  • 一般负责维度转换,最后用来做分类或回归

激活函数

  • 将 "激活的神经元的特征" 透过函数把特征保留并映射出来
  • 这是神经网路能解决非线性问题关键
  • 常见激活函数
    • Tanh
    • Sigmoid
    • ReLU
[展开全文]

文本匹配应用

  • 讯息检索
  • 自动问答
  • 机器翻译
  • 机器对话

文本匹配挑战

  • 词语匹配多元性
    • 荷花, 莲花, 水芙蓉
    • Apple vs Apple
  • 短语匹配结构
    • 机器学习 vs 学习机器
  • 文本匹配层次
    • 词语组成短语
    • 短语组成句子
    • 句子组成段落
    • 段落组成篇章

文本匹配趋势

  • 自动从原始数据抽取特征
  • Deep Learning 结合 Word2Vec 技术来解决词语匹配的多元性问题,以及来满足短语匹配结构和文本匹配的层次性的特征

Deep Learning 文本匹配的分类

  • 单语意文档表达深度学习
    • Deep Semantic Similarity Model
  • 多语意文档表达深度学习
    • MultiGranCNN, uRAN
  • 直接建模匹配深度学习
    • DeepMatch, Match-SRNN

文本匹配问题的定义

  • Training Data
    • 有 S1, S2 两段文本集 (问题 vs 答案)
    • 已知 s1, s2 两段文本的匹配程度 (问题和答案的相关程度)
  • Target
    • 找出 mapping function f 来计算 s1, s2 的匹配度
    • 对于测试资料上输入 s1,它能够预测与每一个 s2 的匹配程度
    • 透过匹配度排序来得到最适合 s1 的 s2  资料

文本匹配问题的评价

  • 真实排序前 k 个文本,匹配文本的数量 Gk
  • 预测排序前 k 个文本, 匹配文本的数量 Yk
  • Precision (P@k)
    • P@k = Yk / k
  • Recall (R@k)
    • R@k = Yk / Gk
  • MAP (平均准确率)
    • 平均准确率(mean Average Precision, mAP)。其规范的定义是,设P(R) 为系统在召回率为R时的准确率
    • MAP = Sum(P@k1, P@k2, ..., P@kr) / r
    • k1, k2, k3... 当匹配文件为 1, 2, 3  时的排序位置
[展开全文]

单语义文档表达的 Deep Learning Model

  • 文件表达
    • 利用深度学习来生成文档的高维度向量
      • FCN (全连结网络)
      • RNN
      • CNN
    • 得到两个文档的表达后,计算这两个向量的相似度
  • 优点
    • 文本可以映射为一个简结的表达式 (representation)
    • 匹配的计算速度快
    • 可以透过大量无监督的数据来进行预训
  • 缺点
    • 很多匹配问题不具备递移性
    • 只能有效捕捉到与描述对匹配有用的局部化讯息

 

补充说明:Word Hashing
英文的输入层处理方式是通过Word Hashing。举个例子,假设用letter-trigams 来切分单词(3 个字母为一组,#表示开始和结束符),boy 这个单词会被切为#-bo, boy, oy-#,可以用letter- 3-gram 的vector 来表示,因此可以来减少计算上所需要的维度。

 

[展开全文]

1 word embeddings 、

通俗的翻译可以认为是单词嵌入,就是把X所属空间的单词映射为到Y空间的多维向量,那么该多维向量相当于嵌入到Y所属空间中,一个萝卜一个坑。

保持相似度的同时又有一定的区分度

2 distributed representation 分布式表达· 

找先验关系

3 无监督学习 

不知道预期学习到的mapping,且不知道学习到的y是什么

训练方法 1) 用输入词做周边词预测中间词

              2)

 

[展开全文]

输入x—卷积层conv1—激活层relu(求和)

—池化层maxpool2d(二维)

 

loss函数的作用:描述模型的预测值与真实值之间的差距大小

指导模型在训练过程中朝着收敛的方向前进。

[展开全文]

相关课程

开课日期:2月开课,每周定时更新开始
NLP领域 基础入门 40822

授课教师

新加坡南洋理工大学 博士
微信扫码分享课程