MT就是使用计算机实现从一种自然语言文本到另一种自然语言文本的翻译。
按需求分类可以将MT应用于:
从技术角度来看,又可根据理性主意和经验主意进行划分
基于理性主义(基于规则的方法,目前使用的较少)的划分:
基于经验主义(基于语料库、统计的方法,是目前的主流方法):
- EBMT(基于实例的翻译)
- Translation Memory
- Pattern-Based MT
- Statistical approach to MT
词语对齐是机器翻译中的重要技术,但是目前自动词语对齐技术一般都嵌入在处理过程中自动完成。
一般来说,篇章、段落、句子、短语、词语等都需要不同级别的对齐,其目的就是从双语互译的文本中找出互译的片段。
其中篇章、段落、句子的对齐技术主要用于语料库的整理,而短语和词语对齐,就是要找出相互翻译的文本中对应的词与词、短语和短语之间的相互翻译对。
在机器翻译领域,seq2seq模型是目前最常用的技术之一。
在NMT中,通常采用encoder-decorder来实现seq2seq的转换。其中的encoder和decoder通常都使用RNN来实现。
基本encoder-decoder是一个end-to-end的网络,所有的参数都可以学习。只要给定训练数据即可训练处效果还不错的模型,省去了很多特征抽取以及各种复杂中间步骤。