当前位置:经济频道首页 > 科技前沿 > 正文

来自科大讯飞们的公然羞辱:杀死那个人类同传(3)

2018-10-08 17:42:46    PingWest品玩  参与评论()人

但这种服务同传译员的说法,看起来却基本是一厢情愿。

根据业界的定义,同声传译是指译者用一种语言把另外一种语言所表达的内容,以与发言人几乎相同的速度,用口头形式准确表达出来的一种口译方式 。

“同传需要很强的听力,正确判断讲者的停顿,需要做顺句驱动,也就是和讲者同时开口并随时调整逻辑确保基本同步且准确。”张伟介绍。“而机器现在就只是译一句喘一两分钟,这是假同传。”

“同传已经成功运行百来年,不须要这样的支持。有些翻译软件其实就挺好用,利用人工智能把资料用两分钟译好,关键词译的也非常准,这种人工译员确实可以利用。”张伟说。“但人机耦合就是个伪命题,因为同传工作路径与讯飞的工作路径平行,这怎么耦合?好比两列齐头并进的火车,同传译员边听边译,人工智能识别采用的信号起始点与译员的起始点一模一样。你不比我们快,你的车头不可能站我们前边拉火车。而站我们后面,我们又不需要你了。”

而且,无论是科大讯飞还是腾讯的翻译君,在这几次会议同传中,都没有任何辅助人类同传的行为。

一位曾在博鳌大会与腾讯翻译君“一同”为观众提供同传的译员,曾对PingWest品玩回忆当时的工作场景:“会场内有一块屏幕,会出AI同传字幕,而人类同传译员照例坐在会议室后面角落的同传间里,根本看不到。工作时不可能再分心去关注它,也更没有‘共同工作’的情况。可以比喻成两套班子同时工作。我们也是从社交媒体上看到有关报道才知道有腾讯的产品在现场的。”

而在科大讯飞此次的风波中,讯飞听见系统只是把同传的声音转为文字,不仅提不上帮助,而且更多是在依赖人类同传。而且这种语音转字幕功能在同传场景下更显的奇怪,炫技的成分多于解决实际需求的作用。

“现在很多所谓AI同传在会场的实现方式都是打字幕,这样的设计明显是反人类的,可能更适合听障人士。因为人们通过听力可以获取更多信息,而且还能边听边把眼睛用在别的地方,比如看看PPT,或者看着本子记笔记等等,用来看字幕就太奇怪了。”

“从我的观察来看,这些机器翻译技术公司里,应该是没有哪怕一个懂同传的人来帮他们提供建议。”张伟说。

PingWest品玩采访的多名不同背景的同传都表示,没有听说有翻译、同传等专业背景的人进入科技公司参加机器翻译研发的工作,而他们也都没有和研究机器翻译的人员有过什么直接交流。

科大讯飞翻译业务的负责人翟吉博曾对PingWest品玩介绍,他们的团队中也有翻译出身的人,但具体的职责仅仅是测试,对系统进行评估,制订些标准。也就是并不会参加到最核心的讨论中。据PingWest品玩了解,微软、搜狗等公司情况也类似,翻译技术团队多以机器学习、大数据等专业背景的专家为主,很少有传统英语学科背景的人加入。

但事实上,双方的这种”绝缘“并非一直如此。

最早在上世纪70年代,基于规则的机器翻译理论最早被提出,也被称作传统的自然语义方法,它属于最初的AI研究流派之一:“symbolic AI”。这种方法实现翻译的方式是,把所有英语和中文语法规则和一整本英语词典及一整本中文词典编码进机器,之后输入英语句子后,机器就对应地得出一句中文。

这其实是尝试模仿人类对语言的理解。“传统的自然语义方法是按照人类的理解来理解。”黄学东对PingWest品玩表示。当时最初的机器翻译研究者,经常需要向语言学专业的专家请教,共同研发。

但之后,到了90年代,基于统计的方法被应用到机器翻译领域,并给翻译效果带来巨大的跃升。研发者也纷纷转向基于统计的机器翻译方法。这种方法更像是纯粹的计算机方法,已经与传统自然语义方法有很大不同,也不再对研究翻译和语言学等学科的人们有太多依赖。

而进入最近5年,深度学习再次推动机器翻译的进步。2011年谷歌开始研发和使用的“神经网络”模仿人类大脑由神经元构成的结构,每一层神经网络都会对数据进行分析以找到其中存在的规则,多层的神经网络则类似现在流行的深度学习概念,可以发寻更多的范式。2016年,谷歌将神经网络用于其翻译产品上,再次大大提升了翻译质量,逐渐成为现在各家科技公司机器翻译技术的主流。

至此,机器翻译的逻辑与人类进行翻译的方法分别走向两条岔路。

不确定的未来

“机器翻译的算法和人类思维很不同。”黄学东说。“简单形象地描述,机器翻译是把一种人类语言投射到一个数字化的高维空间,然后在此进行解码,解码成另外一个语言。这个空间高维到人类不可想象。”

“机器翻译和人类翻译的逻辑很不一样,其实对于我们来说,也没必要去研究人类同传或翻译的逻辑,关键的是算力和数据。”一名在国内科技企业负责机器翻译团队的产品经理对PingWest品玩表示。

黄学东也表示,提升机器学习的质量,要靠高质量的数据、不同的算法模型以及性能完善的软件系统。他表示,今年3月微软的机器翻译系统在一个中-英新闻测试集上,达到了可与人工翻译媲美的水平。此次突破主要依靠的就是机器学习组新研发的对偶学习、推敲网络等模型,其中不少都是受人类工作模式的启发。

但是,虽然每个模型的原理都能说清楚,灵感也可能是在模仿人类,然而融合了这些模型的端对端系统则是一个超大的神经网络黑箱。它会自己把机器翻译的模型学习出来,外部很难弄清楚里面发生了什么。这样的方式也让机器翻译存在着不可解释性。

在此前博鳌论坛出洋相后,腾讯就对其中出现乱码的情况进行分析,最终给出的解释便是:“出现这种情况主要是包括神经网络机器翻译在内的深度学习算法,在原理上或多或少都有一定不确定性,在特定的情况下有一定的概率引发翻译偏差。”

来自科大讯飞们的公然羞辱:杀死那个人类同传

而这些在机器翻译研究者眼中已经习惯的“特性”,对于普通人来说则可能带来担忧。小L就对机器翻译领域大量的晦涩术语十分反感。“我对机器翻译只有很简单了解过,我看不懂那些复杂的算法和技术。”小L说。“但是我很反感这些公司在犯错的时候拿什么不确定性或者其他听起来很吓人的AI高级术语来搪塞。”

小L形容,每每听到科技公司不断宣传“只要数据足够多,就能训练出与人一样水平的翻译”时,就好像听到猴子足够多就能写出莎士比亚全集一样,初听荒谬可笑,细想却感到吓人:“如果失控了怎么办?”

除此之外,一些以翻译为终生事业的人们还在思考,人类与机器在对待语言和翻译这件事上的不同,会带来什么后果?

人类学习外语时,以理解这门语言为目的,但机器看起来则仅仅是完成了从输入到输出的任务,在不少语言学者的眼里,它似乎永远不能算是“懂得”了一门语言。

“这是个非常好的问题,有各种各样不同的观点。”黄学东表示,机器翻译过程中,就是从低维空间到高维空间的投射过程,从计算机角度讲,它就是理解了这个语言。反过来说,机器在高维空间非常得心应手,但对于我们人类又是不可理解的。”

“人类的语言和机器的语言是不一样的,而我们现在用了一种机器可以理解的方案,来完成人类语言的翻译,它的效果远比基于人类知识结构方法来设计的机器翻译,要好很多。”黄学东说。“这就是理想与现实的差距。”

“其实我们人类还不是也一样,谁也说不清到底人脑是怎么运行,但我们不是一样在依赖它?那如果有一天我们训练的机器可以稳定输出,媲美人类,那为什么不能依赖机器呢?”上述产品经理对PingWest品玩说。

就这样,AI继续吃进大量的数据、补充各种新鲜的模型,从而自我进化,然后参加机器翻译的比赛,用科技界自己设立的标准来衡量着进步程度;另一边,人类同传则继续提升自己对语言的理解,磨练自己的翻译技巧,像传统的手艺人一样把这种工匠技艺传承下去。而且,两者并不怎么沟通。

人类自有文明交流以来便伴随出现的语言翻译这件事,正走入两个分岔路。两者就像在两个平行宇宙运行,何时会重合?还是会带来冲突?

目前没人知道。

关键词:

相关报道:

    404 提示信息
    404

    您访问的页面找不回来了!

    返回首页
      您感兴趣的信息加载中...

    相关新闻