单语义文档表达的 Deep Learning Model
- 文件表达
- 利用深度学习来生成文档的高维度向量
- FCN (全连结网络)
- RNN
- CNN
- 得到两个文档的表达后,计算这两个向量的相似度
- 利用深度学习来生成文档的高维度向量
- 优点
- 文本可以映射为一个简结的表达式 (representation)
- 匹配的计算速度快
- 可以透过大量无监督的数据来进行预训
- 缺点
- 很多匹配问题不具备递移性
- 只能有效捕捉到与描述对匹配有用的局部化讯息
补充说明:Word Hashing
英文的输入层处理方式是通过Word Hashing。举个例子,假设用letter-trigams 来切分单词(3 个字母为一组,#表示开始和结束符),boy 这个单词会被切为#-bo, boy, oy-#,可以用letter- 3-gram 的vector 来表示,因此可以来减少计算上所需要的维度。