文本摘要常用方法:
- 基于句子抽取的方法
- 压缩文本摘要方法
- 生成式摘要
文本的压缩和融合一般用于生成信息更加紧凑的摘要,获得更好的摘要效果,常用方法包括:
- 从句子中删除词语
- 对句子中的词语进行替换、重排序或插入
句子融合技术主要是合并两个或多个包含重叠内容的相关句子得到一个句子
文本复述生成技术通过对给定文本进行改写,生成全新的复述文本,一般要求文本的输入和输出在表达上不同,但是表达的意思基本一样。应用领域:
- 机器翻译
- 用户查询改写
- 文本难度转换
文本复述的方法:
- 基于自然语言生成的方法
- 基于机器翻译的方法
- 基于Pivot的方法(借助于中间语言)
示例模型:
- Bi-LSTM作为编码器
- LSTM作为译码器
- 使用Attention机制进行增强
其他方法包括:
- Global RL-based reward
- Local supervision
Teacher forcing algorithm:一个模型在生成一个摘要时使用参考摘要,并且该模型在每生成一个新单词时会被分配一个逐词误差。