机器翻译的发展历程,以及阿里巴巴机器翻译的实践和亮点
署名2021-01-14

一、机器翻译背景介绍


提到翻译,可能第一时间就会想到同声传译,然后可能会想到在影视作品中字幕的翻译。那么什么是机器翻译?首先为大家介绍一些机器翻译相关的背景,这里主要分为两个部分,即机器翻译动态和阿里机器翻译。


机器翻译的发展


在正式介绍机器翻译的背景之前,先和大家介绍一下机器翻译的发展历程。其实早在1954年就出现了机器翻译相关的介绍,到了1982年就出现了第一个基于规则的机器翻译系统,到了1993年左右就出现了基于词维度的统计机器翻译系统,之后还出现了基于短语维度的机器翻译,并且在此之后还对于基于短语维度的机器翻译进行了优化。直到最近的2014年左右,随着人工智能的发展才产生了基于神经网络的机器翻译,这对于机器翻译的质量有了极大的提升。之所以介绍这样的一条机器翻译发展之路,其实是想为大家说明:机器翻译也是在不断地进步,而机器翻译的质量也发生了很大的变化,并且在很多场景下,机器翻译都发挥出了极大的促进作用。


需要机器翻译的场景有哪些?


首先是语言服务的公司,比如翻译服务供应商以及本地化公司;此外就是互联网内容提供方,因为在互联网公司需要开设国际新闻资讯以及外语新闻资讯的站点;第三部分就是社交平台,在社交平台之上的用户其实往往是来自于各个不同国家的,需要通过机器翻译打破用户之间交流的屏障;第四部分就是政府以及一些国企,他们的网站上需要提供一些内容、新闻等,并且需要实现服务的多语言化;此外,还有一些像华为、惠普这样的跨国公司;最后一类就是工具类服务提供商


机器翻译的市场规模


传统的机器翻译公司有谷歌、百度、微软,与此同时还有一些最近兴起的机器翻译公司,比如亚马逊、中译语通以及小牛翻译和阿里语言服务等。整个机器翻译的市场规模在2017年就已经达到了450亿,并且每年以10%的年增长量率在增长,如今每天的在线翻译量已经达到了1000亿这样的数量级。


阿里巴巴为什么需要机器翻译?


上面介绍了机器翻译的一些相关背景,接下来回到我们的主题:阿里巴巴为什么需要机器翻译?其实这个问题的答案很简单,就是阿里巴巴最近几年都在大力发展国际化的战略,因此需要将阿里巴巴的所有业务向国际化推动,开放给全球更多的用户,阿里巴巴要实现5个全球化。而在这个过程中,语言问题是阿里巴巴必须去解决的,所以阿里巴巴在机器翻译方面做出了很大的投入。


阿里巴巴机器翻译的能力


阿里巴巴在2013年左右开始投入进行机器翻译方面的研发。到目前为止,机器翻译已经服务于阿里巴巴内部40多个团队和170多个应用了。阿里机器翻译目前能够支持21个语种以及43个语言方向的翻译,并有具有19个语言方向的自动语种识别能力,在阿里巴巴内部日均调用量达到了7.5亿次,并且系统稳定性也已经达到了99.99%的水平。在今年刚结束的机器翻译领域最为权威的WMT国际比赛上,阿里机器翻译在5个语项上取得了全球第一。以上这些能力都体现了阿里机器翻译的长期积累。此外,在翻译形态上了,除了能够支持传统的文字翻译之外,还能够支持语音、图片以及视频翻译的能力,并且这些能力也将会在后续再阿里云上输出出去。


二、阿里机器翻译在跨境电商的应用


跨境电商全链路


首先,对于想要做跨境电商业务的网站而言,最开始要做的就是多语言建站,将站点建设成多语言的版本。这就会涉及到网站以及APP的多语言化以及网站规则的多语言化以及安全信息风控的多语言化。当将网站建设成为多语言站点之后,接下来就需要对网站做一些引流拉新,这里包括对于广告营销以及大促等支持多语言版本,而对于一些引流的商品也需要做精细化的翻译。当将流量引入到多语言站点之后,还需要提升用户找到自己所需商品的概率,这里面就涉及到了到站搜索,这里需要多语言的搜索方案,在多语言搜索方案的基础之上,还需要对于类目以及商品的属性进行优化,方便用户能够更加快速地找到自己想要的商品。而当用户触达到自己所想要的商品之后,需要让用户能够看得懂商品的信息,这样能够提高用户购买的转化率,这里就会涉及到标题的定制改写,将标题改成用户能够清晰可见并且简单明了的形式,并且将标题翻译成多语言的版本,同样的也要将商品的详细描述翻译成多语言的版本,而且对于商品的评论,也需要翻译成多语言版本。此外,还需要提供一个多语言的品牌库信息。当用户完成商品的购买,还会涉及到商品的支付、物流等。此外,对于跨境电商而言,还有一个非常重要的环节就是商品的通关,也就是“关检物”相关的信息,其中也有多语言需要翻译支持的场景。最后商品达到用户手中了,网站当然还希望用户能够购买更多的商品,这里就涉及到商品的留存复购,也就是需要通过售后的实时沟通、专项的质量检测、商品描述或者翻译以及质量调研,使得用户能够通过对于商品源的反馈来提升转化率。


机器翻译的多语言搜索


接下来针对于跨境电商中部分环节的具体案例进行分享。首先,大家都知道,搜索是每个电商网站流量的一个主要入口。那么,对于不同国家的电商网站而言,用户当然希望使用自己的语言进行搜索,但是对于跨境电商网站而言,不可能花费很大的成本为每个国家的用户都建立一套自己的搜索引擎,这样的成本实在是太大了。所以阿里巴巴就统一采用了基于英文的索引,那么只需要将最终的用户搜索词转化成为英文,再根据英文的索引去检索用户所需的商品信息就可以实现多语言搜索了。


机器翻译的商品信息多语言化


当网站检索到用户所需要的商品信息之后,就引导用户到达了商品的详情页面,这里就涉及到商品信息的多语言化。这样用户就会通过网站的内部导航找到自己想要的类目,再找到自己想要的商品,用户在看过商品标题之后,往往会再看一下商品的详细描述,有一些用户还会看一下商品的评论。如果用户通过这些并没有找到自己想要的信息,那么很快就会关掉页面,这样很有可能这个用户就流失了。其实,在做跨境电商的时候,需要将商品信息实现多语言化,让用户真正地读懂和理解这个商品究竟在是在卖什么,它主要的功能是什么。


机器翻译的通关翻译


当用户通过阅读、搜索了解了商品的信息并且决定下单购买之后,网站最终还需要将商品邮寄到客户手中。在跨境电商场景下还存在商品物流所必须经过的一个步骤,就是商品的通关。在通关时需要将英文商品或者其他语言的商品名称翻译成中文提供给中国海关。


机器翻译的多语言实时沟通


最后一个就是多语言的实时沟通,在交易前和交易后往往都会发生卖家和卖家之间的沟通。而Alibaba.com是一个B2B的场景,可能需要更多的售前沟通。在阿里巴巴的调研中发现,其实在国际贸易中的买家中的30%是使用小语种的,而大部分买家却往往缺少小语种的沟通服务能力。因此,阿里巴巴开发了一套针对于多语言实时沟通场景的自动翻译系统。在这个场景之下,首先支持多个语种之间的互译,并且在特定外贸场景下对于术语的翻译也是非常准确的,这是因为在背后拥有一个规模庞大的双语术语库。其次,还具有智能处理能力,多语言实时沟通系统具有智能的语种识别,可以根据用户的场景自动地识别其使用的语种,再根据用户所使用的语种进行自动翻译,并且还提供了基于上下文的智能纠错。大家都往往深有感触,我们在聊天沟通的过程中往往经常会打错字,而基于错字进行翻译肯定无法准确翻译。而且还针对口语场景做了表述归一化的统一处理。最后一点,多语言实时沟通系统还实现了跨境多语言沟通方案,首先这套方案支持多端包括PC、IOS、Android,能够实现多语言信息的实时沟通,用户可以基于机器翻译或者译文进行编辑,如果用户具有相应的语言能力,其实可以根据机器翻译的结果在发送前进行编辑。在很多场景下,需要对于特定的术语进行快速干预,将其翻译成想要翻译的文本,因此在这样实时工作的场景下也支持实时干预的能力。


三、阿里机器翻译技术亮点


前面的部分为大家整体地介绍了跨境电商的整体链路,并且抽取了部分环节的详细例子进行了介绍。在第三部分将为大家介绍阿里机器翻译的一些技术亮点,主要包括面向电商的阿里机器翻译引擎所面对的挑战以及技术的创新点。


搭建电商场景机器翻译系统的挑战


搭建电商场景机器翻译系统的挑战主要来自于三个方面,即翻译质量、服务要求以及快速迭代。第一点就是翻译质量,因为电商场景下往往与交易相关,因此对于翻译的质量有着非常高的要求,不仅要求电商场景翻译结果高可读性要求,还要求领域相关的关键信息翻译的准确性,这里的关键信息包括了品牌、关键属性、尺寸、数字以及物流信息等,这些信息在电商场景下相对于通用场景下有着更高的要求。此外,还需要有更加灵活的干预机制,因为机器翻译在一些场景下翻译不能非常准确,一旦发现这些场景下的信息翻译不准确的时候,就可以做出快速干预,及时地纠正翻译结果。第二点就是对于服务的要求,这里包括高可用性的要求,因为会涉及到交易,因此不能够在交易的过程中出现问题影响到整个交易的链路。此外,还需要有多区域的要求,阿里机器翻译服务于整个阿里巴巴多个部门和团队,各个团队都分布在不同的区域上,那么就需要有多区域部署的要求。此外,还有高并发和高响应的要求,大家都知道阿里“双11”场景下的流量是非常大的,在支持这样大流量的场景的需求下,就需要满足高并发的要求,并且在响应时间上也有非常高的标准。最后一点就是快速迭代,正因为阿里机器翻译支撑了如此之多的业务,所以需要快速大规模语料训练能力能够在短时间内训练出一个质量可用的模型;而且在场景如此多的情况下,经常会出现语种的扩展,因此阿里机器翻译也需要语种快速扩展的能力;最后还有对于模型迭代更新效率的要求。对于上述三个挑战,需要从三个方面进行解决。首先是模型,之后是数据,最后是工程,只有从这三个方面才能够解决实际业务所带来的挑战。接下来就为大家介绍如何从模型、数据和工程三个方面应对挑战。


模型


对于模型而言,为了保证电商场景能够具有非常高的翻译质量,所以在模型上对于不同的场景进行了区分,并且采用了多模型融合的机制。阿里机器翻译在商品描述、评论以及沟通这种文本比较长并且对于整个句子顺滑度要求比较高的场景下,采用了基于神经网络机器翻译的模型。而在像商品标题、搜索词以及属性等短文本的场景下,采用了统计机器翻译的模型进行解决。而像数字、日期、单位、地址以及旅游场景下的一些菜单等使用了规则翻译来进行解决。最后一部分,阿里机器翻译会有一批翻译记忆高精准的人工翻译数据,在最外层做一层翻译记忆的过滤,来完整地匹配待翻译的文本。

在模型的网络上也采用了Transformer新型神经网络结构,这样相比于传统的神经网络翻译模型而言,翻译质量的提升也比较明显,训练速度的提升也非常明显。


数据


其实在人工智能领域,除了模型之外,数据也起到了非常重要的作用。阿里机器翻译所用的数据总结而言就是“领域”,也就是使用了大量与电商领域相关的数据,比如电商领域双语的语料、电商领域专业的词表、电商高频短语、电商领域的单语语料、电商品牌词表等,并结合了通用领域单语语料以及通用领域双语语料等来训练电商的机器翻译引擎。在数量级上大概能够达到10亿级别的双语平行语料、亿级别的电商双语平行语料、千万级电商知识库以及大规模行业多语言术语库。而对于语料的主要来源而言,首先最大的是通过互联网抓取的双语平行语料;另外一部分是通过自动地术语挖掘产生领域相关的术语的语聊;最后一部分就是通过人工翻译所提供的语料。


对于数据获取而言,首先阿里机器翻译的大部分数据还是来自于互联网,通过网络抓取多语言网页,对于这些网页进行统一地解析、清洗和处理形成双语语料,并且有较少的一部分是通过语料购买或者交换和人工翻译生产出极少与领域相关的数据,并且对于少量的数据做一些领域相关的优化。在语料的精选方面,其实有不同层次的机制,基础的就是基于一些规则的互译质量的判断、流利度的判断以及N-gram的过滤。其次,还会有一些模型能够筛选出领域相关的语料。最后一部分就是通过机器学习做更深层次、更细化的质量相关的工作。在电商知识库的构建方面,则主要是依托于服务的业务方,比如Alibaba.com、AliExpress以及天猫国际等,从这些业务方的商品数据里面进行智能挖掘,挖掘出命名实体、同义词、上位词以及词与词之间的依存关系等,再将这些依存关系通过自动的双语生成或者人工翻译成多语言的版本,最终建立了多语言的电商支持数据。


工程


最后的一部分就是阿里机器翻译在工程部分所做的事情,在这方面的工作主要包括了四个方面。第一方面是全球化部署,为了满足分布在不同地区以及国家的业务,阿里机器翻译目前在美国、新加坡、俄罗斯以及中国都部署了机房。第二部分就是分布式的训练,这是依托于阿里巴巴集团的大规模分布式系统构建的一套分布式训练的框架来提升整体的机器学习训练速度。第三部分是并行计算,这部分是为了提升整个机器翻译的吞吐量所进行的优化,因为在很多翻译场景下都翻译的是商品的详细描述,针对于这样的一大段文本进行了优化,也就是将这样的一大段文本切分成不同的小文本,同时并行地调用翻译引擎来提升整个吞吐量。最后一部分就是性能优化,性能优化主要是针对GPU的性能进行优化,来提升整个机器翻译的响应时间。


四、阿里云机器翻译产品介绍


前面介绍了机器翻译技术的亮点和挑战,最后为大家介绍一下本次在阿里云上发布的机器翻译产品。阿里云上的机器翻译产品主要是以API的形式进行发布上线的。大家可以在阿里云主页上的导航栏中选择“产品->人工智能->自然语言处理->机器翻译”来查看机器翻译产品的详情。本次上线的产品主要有三个版本,通用基础版API支持中英互译,有免费额度,用户试用为主;电商标准版API支持英中,英俄,英西,英法和英葡的互译,在电商领域机翻质量有明显优势,适用于电商场景下的标题,商品描述,评价等领域;通用标准版API支持中英互译,新语种持续增加中,适用于旅游、口语等通用场景。