您访问的页面找不回来了!
返回首页- 您感兴趣的信息加载中...
自1954年开始,机器翻译一直是人类想要攻坚的领域。无奈在过去的几十年中,由于技术方法,计算力和训练数据等原因,研究人员一直未能找到有效的突破口。直到进入21世纪,研究人员引入深度学习的神经网络,构建了神经机器翻译(Neural Machine Translation)才有了突破。
神经机器翻译,简要的说,就是对源语言的句子进行编码,即转化为计算机可以“理解”的形式,编码的结果会形成很多隐含变量,每个隐含变量代表从句首到当前词汇为止的语义信息。然后通过一个解码的过程,一个词、一个词输出译文。
这一次微软的突破可谓是既站在了巨人的肩膀上,又用到了自己的创新:微软的机器翻译系统不仅用了最新的神经网络技术,还用了微软自己研发的一些独到的技术,做到了集大成者。
在微软这次的创新中,微软的研究团队借鉴了人类在翻译时的一些思维方式。第一个是对偶学习(Dual Learning)。这有点像人类在学习英语时,当把中文翻译成英文后,通常还需要检查,即将英文再翻译回中文,看是否正确,做到翻译的一致性。这样做的目的是能在中翻英、英翻中的过程中做到联合优化。微软就将这一方法“教”给了机器。
第二个是推敲网络(Deliberation Networks)。在中文诗词里“僧敲月下门”中的“敲”就是一个作者在写诗时反复推敲,将语言表达到极致的结果。在微软的机器翻译系统中,就借鉴了这样的方式。机器翻译完成翻译后,为了让其做的更好,研究人员使用推敲网络让机器不断推敲,不断修改,把翻译完的结果再输入,再全盘考虑,做到不断优化。
第三个是一致性规范(Agreement Regularization)。一致性规范让翻译可以从左到右进行,也可以从右到左进行,最终让两个过程生成一致的翻译结果。
黄学东解释说,这一点就像人类在翻译的过程中,我们通常会左看右看,两边都看顺眼了,才觉得放心。
除此之外,此次机器翻译系统还使用了联合训练(Joint Training),这个方法可以认为是从源语言到目标语言翻译(Source to Target)的学习与从目标语言到源语言翻译(Target to Source)的学习的结合。中英翻译和英中翻译都使用初始并行数据来训练,在每次训练的迭代过程中,中英翻译系统将中文句子翻译成英文句子,从而获得新的句对,而该句对又可以反过来补充到英中翻译系统的数据集中。同理,这个过程也可以反向进行。这样双向融合不仅使得两个系统的训练数据集大大增加,而且准确率也大幅提高。
值得一提的还有,微软研究团队这次还为整个翻译研究找了双语的语言顾问,对机器翻译的结果进行评测。就人们像学习英语时,通常需要有专业的老师对我们的学习成果进行评测一样,对于机器翻译而言,专业老师给出的结果也非常重要。“机器翻译其实相当于一题有多个答案,答案好坏跟老师的水准有关系,所以用机器自动评分很难评判,我们现在用专业的人员来评,就是要把好质量关。”黄学东说。