机器翻译:人工智能的一项重要技术
署名2021-02-23

机器翻译是一种重要的人工智能技术,广泛应用于网页、应用程序等具有翻译功能的软硬件中。

今天,让我们来介绍机器翻译的基本知识。满是干货,别错过了!

机器翻译的一般过程

机器翻译实际上是通过计算机将一种自然语言翻译成另一种自然语言的过程。基本过程分为三个部分:预处理、核心翻译和后处理。

预处理是机器翻译对语言进行规范化处理,用标点符号将长句划分成若干短句,过滤一些与意义无关的语气词和词语,机器翻译将一些数字和非标准表达整合成标准句。

机器翻译核心翻译模块是将输入字符单元和序列翻译成目标语言序列的过程,是机器翻译中最关键、最核心的部分。

机器翻译后处理模块将翻译结果转化为事例,拼接建模单元,对特殊符号进行处理,使机器翻译结果更符合人们的阅读习惯。

淘系技术.png

机器翻译的技术原理

在讨论机器翻译的技术原理之前,我们先来谈谈机器翻译技术的发展历史

20世纪80年代,基于规则的机器翻译开始应用,这是机器翻译的第一代技术。随着机器翻译的应用越来越复杂,基于规则的机器翻译的局限性开始显现。随着应用场景的增多,需要的规则越来越多,规则之间的冲突也逐渐显现。

于是许多研究者开始思考机器能否自动从数据库中学习相应的规则。1993年,IBM提出了基于词的统计翻译模型,标志着第二代机器翻译技术的兴起。

2014年,谷歌和蒙特利尔大学提出了第三代机器翻译技术,即端到端的神经机器翻译,这标志着第三代机器翻译技术的到来。

在看了机器翻译技术的迭代发展之后,让我们了解下三代机器翻译的核心技术:规则机器翻译、统计机器翻译和神经机器翻译。

规则机器翻译

基于规则的机器翻译有三种技术路线。第一种是直接翻译。在对源语言进行分词后,将源语言中的每个词翻译成目标语言中的相关词,然后将它们拼接在一起得到翻译结果。

由于源语言和目标语言不在同一个系统中,句法顺序也有很大差异,直接拼接的结果往往不理想。

因此研究者提出了第二规则机器翻译方法,即利用语言学的相关知识对源语言中的句子进行分析。由于运用了句法语言学的相关知识,译文更准确。

但这里还有一个问题。只有当语言规则很强,机器能够分析时,这种方法才更有效。

因此,有研究者在此基础上提出了基于规则的机器翻译能否借助人脑翻译来实现?

这涉及到中间语言。首先,源语言用中间语言描述,然后借助中间语言翻译成我们的目标语言。

然而,由于语言的复杂性,借助中间语言很难实现对源语言和目标语言的准确描述。

统计机器翻译

第二代机器翻译技术是统计机器翻译,其核心是设计概率模型对翻译过程进行建模。

例如,我们用X表示原语句子,用y表示目的语句子。任务是找到一个翻译模型θ 。

最早应用于统计翻译的模型是源渠道模型。在这个模型中,我们假设源语言文本x是通过对目标语言文本y进行某种奇怪的编码得到的,那么翻译的目的就是将y还原为x,这也是一个解码过程。

因此,我们的翻译目标函数可以设计为最大化pr(│)。通过贝叶斯公式,我们可以将pr(│)分为两个术语,即pr()的语言模型和pr⁡(|)的翻译模型

如果把目标函数的两边作为对数,就可以得到对数线性模型,这也是我们在工程中实际使用的模型。

对数线性模型不仅包括翻译模型、语言模型,还包括重排序模型、失真模型和字数惩罚模型。通过这些模型,可以实现从源语言到目标语言的翻译。

在介绍了统计机器翻译的知识之后,让我们来看看基于短语的统计翻译模型的三个基本步骤

1、源短语切分:将源语言句子切分成若干短语

2、源短语翻译:翻译每个源短语

3、目的语重组:将目的语按一定顺序组合成句子

神经机器翻译

在讨论了基于规则的机器翻译和基于统计的机器翻译之后,让我们来看看端到端的神经机器翻译。

神经机器翻译的基本建模框架是端到端序列生成模型,它是将输入序列转换为输出序列的框架和方法。

其中有两个核心部分:一个是如何表示输入序列(编码),另一个是如何获得输出序列(解码)。

对于机器翻译,它不仅包括编码和解码,还引入了额外的注意机制来帮助我们调整顺序。

现在我们来看看基于RNN的神经机器翻译过程

首先通过分词得到输入源语言的词序,然后用一个词向量表示每个词,得到相应的词向量序列,然后用前向RNN神经网络得到前向编码表示。

然后利用反向RNN得到其反向编码表示。最后,将正向和反向编码表示进行拼接,并利用注意机制来预测哪些单词在什么时候需要翻译。通过不断的预测和翻译,可以得到目的语的译文。