首页 AI学术青年与开发者社区

NLP工程师入门实践:基于深度学习的自然语言处理

开课时间:2月开课,每周定时更新
开课时长:三大模块,预计20个课时
NLP领域 基础入门
会员免费
现价:¥599.00
原价:¥699.00

  开通会员,立省599元 立即开通

  当前课程,会员领券立减59元>>

该课程已关闭

文本匹配应用

  • 讯息检索
  • 自动问答
  • 机器翻译
  • 机器对话

文本匹配挑战

  • 词语匹配多元性
    • 荷花, 莲花, 水芙蓉
    • Apple vs Apple
  • 短语匹配结构
    • 机器学习 vs 学习机器
  • 文本匹配层次
    • 词语组成短语
    • 短语组成句子
    • 句子组成段落
    • 段落组成篇章

文本匹配趋势

  • 自动从原始数据抽取特征
  • Deep Learning 结合 Word2Vec 技术来解决词语匹配的多元性问题,以及来满足短语匹配结构和文本匹配的层次性的特征

Deep Learning 文本匹配的分类

  • 单语意文档表达深度学习
    • Deep Semantic Similarity Model
  • 多语意文档表达深度学习
    • MultiGranCNN, uRAN
  • 直接建模匹配深度学习
    • DeepMatch, Match-SRNN

文本匹配问题的定义

  • Training Data
    • 有 S1, S2 两段文本集 (问题 vs 答案)
    • 已知 s1, s2 两段文本的匹配程度 (问题和答案的相关程度)
  • Target
    • 找出 mapping function f 来计算 s1, s2 的匹配度
    • 对于测试资料上输入 s1,它能够预测与每一个 s2 的匹配程度
    • 透过匹配度排序来得到最适合 s1 的 s2  资料

文本匹配问题的评价

  • 真实排序前 k 个文本,匹配文本的数量 Gk
  • 预测排序前 k 个文本, 匹配文本的数量 Yk
  • Precision (P@k)
    • P@k = Yk / k
  • Recall (R@k)
    • R@k = Yk / Gk
  • MAP (平均准确率)
    • 平均准确率(mean Average Precision, mAP)。其规范的定义是,设P(R) 为系统在召回率为R时的准确率
    • MAP = Sum(P@k1, P@k2, ..., P@kr) / r
    • k1, k2, k3... 当匹配文件为 1, 2, 3  时的排序位置
[展开全文]

文本匹配是自然语言理解中的一个核心问题,经常应用于信息检索、自动回答、机器翻译、机器对话等领域。

文本匹配面临的挑战:

  • 词语匹配的多元性:a、一词多义,b、多词一义
  • 短语匹配问题

文本匹配的层次包含:词语组成短语、短语组成句子、句子组成段落、段落组成篇章。

传统文本匹配主要是通过相似度计算来展开,需要大量的人工一定和抽取的特征,存在人工代价大、不精确、性能低等问题。

基于深度学习的方法:

  • 可自动从原始数据中抽取特征
  • 迁移成本低
  • 结合词嵌入技术,可以较好的解决词语匹配的多元性问题
  • 能够更好的满足短语匹配的结构性和文本匹配的层次性的特征。

基于DL的文本匹配可分为三种类型(此处不太明白,需要重新听一下):

  • Single Semantic Document
  • Multi Semantic Document
  • Model Based
DL文本匹配的优势:
  • DL Model可以通过词嵌入技术将单词表示为语义空间中的向量。
  • 其自身结构是层次化和序列化的,能够比较自然地描述自然语言中的层次结构、序列结构和组合操作。
  • 能够很好地利用大规模数据的优势和日益发展的高性能计算能力。

DL文本匹配已经被应用于词性标注、词法分析、情感分析、关系分类等领域了。CNN、RNN是其主要方法。

 

[展开全文]

授课教师

新加坡南洋理工大学 博士
微信扫码分享课程