当前位置:经济频道首页 > 经济要闻 > 正文

微软技术院士黄学东:以人为师,机器翻译达人类专业水平

2018-04-23 10:18:27      参与评论()人

自1954年开始,机器翻译一直是人类想要攻坚的领域。无奈在过去的几十年中,由于技术方法,计算力和训练数据等原因,研究人员一直未能找到有效的突破口。直到进入21世纪,研究人员引入深度学习的神经网络,构建了神经机器翻译(Neural Machine Translation)才有了突破。

神经机器翻译,简要的说,就是对源语言的句子进行编码,即转化为计算机可以“理解”的形式,编码的结果会形成很多隐含变量,每个隐含变量代表从句首到当前词汇为止的语义信息。然后通过一个解码的过程,一个词、一个词输出译文。

这一次微软的突破可谓是既站在了巨人的肩膀上,又用到了自己的创新:微软的机器翻译系统不仅用了最新的神经网络技术,还用了微软自己研发的一些独到的技术,做到了集大成者。

在微软这次的创新中,微软的研究团队借鉴了人类在翻译时的一些思维方式。第一个是对偶学习(Dual Learning)。这有点像人类在学习英语时,当把中文翻译成英文后,通常还需要检查,即将英文再翻译回中文,看是否正确,做到翻译的一致性。这样做的目的是能在中翻英、英翻中的过程中做到联合优化。微软就将这一方法“教”给了机器。

第二个是推敲网络(Deliberation Networks)。在中文诗词里“僧敲月下门”中的“敲”就是一个作者在写诗时反复推敲,将语言表达到极致的结果。在微软的机器翻译系统中,就借鉴了这样的方式。机器翻译完成翻译后,为了让其做的更好,研究人员使用推敲网络让机器不断推敲,不断修改,把翻译完的结果再输入,再全盘考虑,做到不断优化。

第三个是一致性规范(Agreement Regularization)。一致性规范让翻译可以从左到右进行,也可以从右到左进行,最终让两个过程生成一致的翻译结果。

黄学东解释说,这一点就像人类在翻译的过程中,我们通常会左看右看,两边都看顺眼了,才觉得放心。

除此之外,此次机器翻译系统还使用了联合训练(Joint Training),这个方法可以认为是从源语言到目标语言翻译(Source to Target)的学习与从目标语言到源语言翻译(Target to Source)的学习的结合。中英翻译和英中翻译都使用初始并行数据来训练,在每次训练的迭代过程中,中英翻译系统将中文句子翻译成英文句子,从而获得新的句对,而该句对又可以反过来补充到英中翻译系统的数据集中。同理,这个过程也可以反向进行。这样双向融合不仅使得两个系统的训练数据集大大增加,而且准确率也大幅提高。

值得一提的还有,微软研究团队这次还为整个翻译研究找了双语的语言顾问,对机器翻译的结果进行评测。就人们像学习英语时,通常需要有专业的老师对我们的学习成果进行评测一样,对于机器翻译而言,专业老师给出的结果也非常重要。“机器翻译其实相当于一题有多个答案,答案好坏跟老师的水准有关系,所以用机器自动评分很难评判,我们现在用专业的人员来评,就是要把好质量关。”黄学东说。

相关报道:

    404 提示信息
    404

    您访问的页面找不回来了!

    返回首页
      您感兴趣的信息加载中...