文本匹配应用
- 讯息检索
- 自动问答
- 机器翻译
- 机器对话
文本匹配挑战
- 词语匹配多元性
- 荷花, 莲花, 水芙蓉
- Apple vs Apple
- 短语匹配结构
- 机器学习 vs 学习机器
- 文本匹配层次
- 词语组成短语
- 短语组成句子
- 句子组成段落
- 段落组成篇章
文本匹配趋势
- 自动从原始数据抽取特征
- Deep Learning 结合 Word2Vec 技术来解决词语匹配的多元性问题,以及来满足短语匹配结构和文本匹配的层次性的特征
Deep Learning 文本匹配的分类
- 单语意文档表达深度学习
- Deep Semantic Similarity Model
- 多语意文档表达深度学习
- MultiGranCNN, uRAN
- 直接建模匹配深度学习
- DeepMatch, Match-SRNN
文本匹配问题的定义
- Training Data
- 有 S1, S2 两段文本集 (问题 vs 答案)
- 已知 s1, s2 两段文本的匹配程度 (问题和答案的相关程度)
- Target
- 找出 mapping function f 来计算 s1, s2 的匹配度
- 对于测试资料上输入 s1,它能够预测与每一个 s2 的匹配程度
- 透过匹配度排序来得到最适合 s1 的 s2 资料
文本匹配问题的评价
- 真实排序前 k 个文本,匹配文本的数量 Gk
- 预测排序前 k 个文本, 匹配文本的数量 Yk
- Precision (P@k)
- P@k = Yk / k
- Recall (R@k)
- R@k = Yk / Gk
- MAP (平均准确率)
- 平均准确率(mean Average Precision, mAP)。其规范的定义是,设P(R) 为系统在召回率为R时的准确率
- MAP = Sum(P@k1, P@k2, ..., P@kr) / r
- k1, k2, k3... 当匹配文件为 1, 2, 3 时的排序位置