首页 AI学术青年与开发者社区

NLP工程师入门实践:基于深度学习的自然语言处理

开课时间:2月开课,每周定时更新
开课时长:三大模块,预计20个课时
NLP领域 基础入门
会员免费
现价:¥599.00
原价:¥699.00

  开通会员,立省599元 立即开通

  当前课程,会员领券立减59元>>

该课程已关闭

一、自然语言处理具体应用领域:

  • (文字或语言)检索
  • 在线广告匹配
  • 自动(辅助)翻译
  • 语音识别
  • 聊天/对话代理
  1. 自动客服
  2. 设备控制
  3. 订购商品

 二、基于深度学习的自然语言处理还可以应用于:

  • 文本分类/情感分析
  • 问答/对话/图像问答/基于图像的对话
  • 机器翻译
  • 图像描述生成

 三、深度学习与人工智能的关系:人工智能是宏观上的概念,从技术上来说,主要是用到了机器学习技术,而机器学习中有一种算法是神经网络算法,神经网络是分层的,当层数大于3层时,我们一般就把这样的网络称为深度网络,而目前的深度学习算法就是经过一定的预处理之后,训练深度网络的算法。目前主要有卷积神经网络与循环神经网络。

四、本课程以应用为主,结合了两种常用的深度网络,且主要是循环神经网络,通过Pytorch(一种实现深度学习算法的框架)来完成某些特定的与自然语言处理相关的内容。

 

[展开全文]

NLP工程师课程---课时1 NLP发展历史

  • 什么是自然语言:机器能够通过文字和语言理解人类语言
  1. 自然语言处理是计算机科学/人工智能/语言学的交叉领域
  2. 计算机处理或理解自然语言,以便执行有用的任务:问答等。
  • 自然语言应用:语法检查/关键词/同义词;分类任务;机器翻译;对话系统;问答等
  • 人类语言特点:
  1. 人类语言是一个用于传递含义的系统;
  2. 人类语言是离散/符号化信号系统
  3. 人类语言是象征性/分类化信号系统
  4. 机器学习进行词汇编码存在稀疏的问题
  • 大数据:Volume/Velocity/Varirty
  • 深层VS浅层网络
  1. 相同数量的非线性模块,深层接口比浅层结构更加昂贵;
  2. 浅层网络需要更多的隐藏层节点来弥补缺乏表达性。
  • 无监督训练
  1. 大多数可训练的NLP&机器学习方法都需要有标签的训练数据,实际上,现实中大多数据都是没有标签的
  2. 深层网络利用无监督学习通过学习数据的良好表示来利用未标记的数据。
  3. 人类最初学习就是从无标签数据开始。
  • 判别式模型VS生成式模型
  1. 生成式模型:联合分布
  2. 判别式模型:条件分布
  • 深度学习在NLP领域常见任务
  1. 自然语言处理
  2. 词性标注
  3. 分词
  4. 文本分类
  5. 自动文摘
  6. 机器翻译
  7. 问答系统
  8. 图像自动描述生成
  9. 基于文本的检索

 

[展开全文]

NLP发展现状

传统NLP方法面临的调整

大数据和深度学习给NLP带来的变革和机遇

NLP的发展趋势,以及和各行各业的结合应用

 

自然语言处理具体应用领域:

(文字或语言)检索

  • 在线广告匹配
  • 自动(辅助)翻译
  • 语音识别
  • 聊天/对话代理
  1. 自动客服
  2. 设备控制
  3. 订购商品

 基于深度学习的自然语言处理还可以应用于:

文本分类/情感分析

问答/对话/图像问答/基于图像的对话

机器翻译

图像描述生成

 深度学习与人工智能的关系:人工智能是宏观上的概念,从技术上来说,主要是用到了机器学习技术,而机器学习中有一种算法是神经网络算法,神经网络是分层的,当层数大于3层时,我们一般就把这样的网络称为深度网络,而目前的深度学习算法就是经过一定的预处理之后,训练深度网络的算法。目前主要有卷积神经网络与循环神经网络。

 

[展开全文]

复杂模型在自然语言方面不能 work 的原因在于数据和计算。GPU 和数据的结合使得深度学习在自然语言处理和计算机视觉中得到很大的发展。

自然语言处理主要是理解给定文本的含义和结构;而文本挖掘是通过模式识别提取文本数据的隐藏信息。

机器翻译发展快且成熟。建议从无监督角度出发做 research。没有标注数据,如何从无监督角度出发,得到一个翻译模型,是非常有意义的。

问答,对话可以做的比较多。现实生活中不仅是基于文本的问答,通过摄像头捕获周围环境做成图像或视频,基于此进行问答,叫做 Visual Question Answering, VQA。

淘宝客服已经有自动对话,是基于模板的。对话非常死板,机器回答没有多样性。

语言不仅仅是信号,而是经过思考的交流。这一过程很像编码-解码。

大数据 Volume, Velocity ( Effective,real-time, dynamic, predictive ), Variety ( Multi-Modal )

机器学习用算法来解析数据,从中学习,然后对真实世界的事件做出决策和预测。

建议不要局限于深度学习,比如说把一个网络怎么优化得更好,更多的是结合机器学习的方法(无监督学习,增强学习)。

从 research 角度, 建议未来几年 focus on 无监督学习或半监督学习。 

[展开全文]

消除歧义

词法模糊:冬天能穿多少穿多少,夏天能穿多少穿多少

句法模糊:是(老男人)和女人呢,还是年老的(男人和女人)?

谐音误解

预期违背

同文异读

指代

应用领域

文本分类/情感分析

问答

对话

机器翻译

图像描述生成

图像问答

基于图像的对话

调整学习率

调整学习率(learning rate)可以帮助跳出局部最小值

两种类型的分类算法

1. 生成式模型(Generative):联合概率模型

2. 判别式模型(Discriminative):条件概率模型

 

[展开全文]

研究难点

编辑
单词的边界界定
在口语中,词与词之间通常是连贯的,而界定字词边界通常使用的办法是取用能让给定的上下文最为通顺且在文法上无误的一种最佳组合。在书写上,汉语也没有词与词之间的边界。
词义的消歧
许多字词不单只有一个意思,因而我们必须选出使句意最为通顺的解释。
句法的模糊性
自然语言的文法通常是模棱两可的,针对一个句子通常可能会剖析(Parse)出多棵剖析树(Parse Tree),而我们必须要仰赖语意及前后文的资讯才能在其中选择一棵最为适合的剖析树。
有瑕疵的或不规范的输入
例如语音处理时遇到外国口音或地方口音,或者在文本的处理中处理拼写,语法或者光学字符识别(OCR)的错误。
语言行为与计划
句子常常并不只是字面上的意思;例如,“你能把盐递过来吗”,一个好的回答应当是把盐递过去;在大多数上下文环境中,“能”将是糟糕的回答,虽说回答“不”或者“太远了我拿不到”也是可以接受的。再者,如果一门课程去年没开设,对于提问“这门课程去年有多少学生没通过?”回答“去年没开这门课”要比回答“没人没通过”好。
[展开全文]

(1)复杂特征集和合一语法;

(2)语言学研究中的词汇主义;

(3)语料库方法和统计语言模型。

这三个成果将继续对语言学、计算语言学和NLP的研究产生深远影响。为了理解这些成果的意义,先介绍一下两个相关事实。

自然语言处理中识别句子句法结构的句法分析的全过程:

(1)把句子中的词一个一个地切分出来;

(2)查词典,给句子中的每个词指派一个合适的词性(part of speech);

(3)用句法规则把句子里包含的句法成分,如名词短语、动词短语、小句等,逐个地识别出来。

(4)判断每个短语的句法功能,如主语、谓语、宾语等,及其语义角色,最终得到句子的意义表示,如逻辑语义表达式。

[展开全文]

NLP applications:

文本分类;sentiment analysis

Q & A

dialogue agents

machine translation

image captioning

visual Q & A

visual dialog

[展开全文]

应用:

1、语法检查、关键词搜索、查找同义词

2、从网站提取信息

3、分类

4、机器翻译

5、口头对话系统

6、复杂问答

7、对话

 

CNN:文本分类、关系提取与分类、垃圾检测、语义关系提取

RNN:机器翻译、文本问答系统、图片捕获、图片问答系统、关系分类、对象检测

[展开全文]

文本标签

人的理解,需要学习过程

 

[展开全文]

授课教师

新加坡南洋理工大学 博士
微信扫码分享课程