正在工作的同声传译人员

【网易智能讯2月22日消息】在人工智能语音翻译领域,噪音是必须要面对的主要挑战之一。设备或许能够识别出实验室或会议室里的语音,但在日本京都站与我(本文作者马利克·科恩(Marek Kohn))交谈的怀贝尔教授(Professor Waibel)周围,我仍能听到那种背景噪音。我正努力用英语跟上他的思路,但潦草的线条提醒我,我们相距近1万公里,即使我们说的是同一种语言,这段距离仍然成为交流的重大障碍。

毕竟,我们还没有实现科幻小说中描述的那种无缝交流。在这些描述中,怀贝尔教授可以用其母语德语作出解释,而我听到的却是英语。或许,他也可以不用手就能与周围的日本人进行无缝交谈,即使所有人都在用母语,也不影响他们之间的对话。

怀贝尔是德国卡尔斯鲁厄理工学院的计算机科学教授,他和同事们已经可以用德语授课,学生们则可以通过电子翻译器用英语听课。该系统生成学生可以在笔记本电脑或手机上阅读的文本,因此这个过程有点类似于字幕。不过,这有助于讲师将课程讲得更清楚,不需要担心背景差异。

人工智能语音翻译的想法由来已久。

怀贝尔同时也是美国卡内基梅隆大学的计算机科学教授,他甚至可以被称之为人工语音翻译的发明者。1978年,他在麻省理工学院(MIT)提出了这个想法。道格拉斯·亚当斯(Douglas Adams)差不多也是在同一时期想到了这个主意。

《银河系漫游指南》(The Hitchhiker’s Guide to the Galaxy)中有一种名为“巴别塔鱼”(Babel)的生命形式,当把它放在耳朵里时,听者能够听懂宇宙中的任何生命种族的语言。这代表了一种技术爱好者渴望已久的设备,比如便携式语音通信设备和可以挂在墙上的平板电视,这是一种早就应该存在的东西,且总有一天会成为现实。

1991年,怀贝尔构建了第一个语音翻译系统,该系统拥有500个单词的词汇量,可以在大型工作站上运行,需要几分钟来处理所听到的内容。他承认:“当时还没有为迎接语音翻译的黄金时代做好准备。”如今,随着人工翻译和语音识别技术的不断进步,类似于巴别塔鱼的原型设备已经开始出现。

谷歌使用Google Translate,在Pixel耳机中加入了翻译功能,它还可以通过智能手机应用进行语音翻译。Skype有Translator功能,可以处理10种语言。有些规模较小的公司,如总部位于纽约布鲁克林的初创公司韦弗利实验室(Waverly Labs),已经开发出了耳机翻译器。科技媒体上的评论可以被合理地总结为“实际上还不错”。

目前可用的系统已经证明了这一概念,但在现阶段,它们似乎被视为引人注目的新奇事物,而不是朝着怀贝尔所称的“建立语言透明社会”的方向迈进。推动人工语音翻译的一个主要发展趋势是,鼓励人们使用该技术进行交流。Google Translate的产品总监巴拉克·图罗夫斯基(Barak Turovsky)表示:“我们通常在语音设备的范例中处于非常早期的阶段,但它发展得非常迅速,翻译将是这段旅程的关键部分之一。”

上个月,谷歌为其家庭设备引入了解释器模式,只要说:“嘿,谷歌,做我的法语翻译器”,就能激活语音,并在智能显示屏上进行文本翻译。谷歌建议将酒店登记作为可能的用例。这可能是个明显的例子,它可以充当“旅行者英语”,无论是以英语作为母语还是其他语言的人都可使用。

如果你的手机上有翻译软件,你已经可以这么做了,尽管它的屏幕和扬声器都很小。这种简单的公共互动在很大程度上利用了这款应用的对话功能。但是另一个流行的用例是图罗夫斯基所谓的“浪漫”。数据日志揭示了“我爱你”和“你有一双美丽的眼睛”等语句的受欢迎程度。其中很多可能并不代表什么新东西。毕竟,几十年来,搭讪语始终是标准常用语手册中的内容。

韦弗利实验室利用聊天功能为其在Indiegogo上的融资活动做宣传。该公司创始人兼首席执行官安德鲁·奥乔亚(Andrew Ochoa)在一段视频中讲述了自己的灵感来源:当时他在度假时遇到了一名法国女性,但无法与她很好地沟通,于是他产生了做翻译的想法。尝试使用翻译应用让人产生“可怕的体验”。手机会碍手碍脚,但耳机不会挡住脸。这段视频展示了可能的情况:他向法国女人展示耳机,然后他们一起去喝咖啡、观光。演示非常成功的,奥乔亚筹集到440万美元资金,是其最初目标的30倍。

韦弗利实验室的Pilot耳机(红色和白色)与谷歌的Pixel耳机(黑色)

一位顾客说,韦弗利实验室的Pilot耳机使他能够第一次和女朋友的母亲通话。有些人甚至说,这使他们能够与配偶交谈。奥乔亚指出说:“每隔一段时间,我们就会收到有些人发来的电子邮件,说他们正在用这种设备和讲西班牙语的妻子交谈。我真搞不懂他们当初是怎么走到一起的!”我们可能会猜测,他们是通过互联网和婚介机构相识相恋的。奥乔亚承认,“在你通过耳机找到真爱之前,这项技术还需要进一步改进,但距离目标已经不再遥远。”

许多早期的采用者将Pilot耳机用于完全不够浪漫的用途,并将其用于组织机构中。韦弗利实验室现在正在为专业用例开发新的模型,该模型需要在语音识别、翻译准确性和提供译文时间方面提高性能。奥乔亚称:“职场人士在谈话中往往不太有耐心。”

新版本还将对卫生设计进行改进,以克服Pilot耳机最缺乏吸引力的地方。谈话时,双方都需要佩戴Pilot耳机。奥乔亚说:“我们发现,在与陌生人共用耳机时存在障碍。”这可能并不出人意料之外。如果耳机翻译变得足够普及,陌生人的耳朵里可能已经有了自己的耳机,那么这个问题就会得到解决。这种情况是否会发生,以及多快发生,可能并不完全取决于耳机本身,而是取决于语音控制设备和人工翻译的普及程度。

在这方面,主要推动力似乎是进入亚洲新兴市场。谷歌估计,互联网上50%的内容是英语,但世界上只有20%的人说英语。图罗夫斯基说:“如果你看看互联网使用率增长迅猛的地区,比如亚洲国家,那里的大多数人根本不懂英语。因此,打破语言障碍对每个人来说都是一个重要的目标,显然对谷歌来说也是如此。这就是为什么谷歌在翻译系统上投入这么多资源的原因。”

怀贝尔也强调了亚洲的重要性,指出语音翻译在日本和中国已经真正起步。不过,还有很长的路要走。翻译需要同步进行,就像电视上的同声传译翻译需要与外国政客讲话时的步调一致,而不是让发言者每说几句话就要停顿一下,等着翻译表现。在无法上网的情况下,它需要能脱机工作,并解决人们对云端积累的私有语音数据量的担忧,这些数据已被发送到服务器进行处理。

怀贝尔建议,系统不仅需要应对诸如噪音等物理方面的挑战,还需要具有社会意识,比如了解人们的举止,并恰当地与人交谈。当我第一次给怀贝尔发电子邮件时,我意识到他是一位德国教授,而且欧洲大陆的传统要求对学术地位给予严肃的尊重,我犯了个偏颇的错误,称他为“亲爱的怀贝尔教授”。

正如我所料,他用国际标准英语回答:“你好,马利克。”对礼仪敏感的人工翻译可以让人们不再需要了解不同的文化规范,它们将促进交流,同时减少误解。与此同时,它们可能有助于保护当地的风俗习惯,减缓与国际英语相关的习惯的传播。

不过,教授和其他专业人士不会将语言意识外包给软件。如果这项技术成熟到无缝、无所不在的程度——简而言之,就像巴别塔鱼,那它实际上会增加语言技能的价值。自动翻译将提供一种商品,即基本的、实用的信息,帮助人们购买东西或找到目的地。它是否会帮助人们管理家庭生活或恋爱关系,这是个有待探讨的问题。但这是值得注意的一种可能,它可能会克服移民后几代人之间经常出现的语言障碍,那使得孩子和祖父母没有共同的语言。

然而,无论如何使用人工智能语音翻译技术,它永远不会像真正的巴别塔鱼那么好。即使语音变形技术能模拟说话人的声音,但它们的嘴唇动作不会匹配,而且看起来就像在配音电影里。这种对比将强调共享语言的价值,以及学习它们的价值。

努力学习别人的语言是一种承诺,是被视为值得信赖的象征。分享一门语言还可以促进归属感和社区意识,就像与那些把英语作为通用语的国际科学家一样,而他们的前辈曾使用拉丁语。学习顾客语言的移民店主不仅使销售更容易,他们还显示出希望与客户所在社区拉近距离的意愿,并礼貌地宣称自己已经融入其中。

当机器翻译成为一种无处不在的商品时,人类的语言技能将会受到重视。掌握多门语言的人总是比那些依赖于设备的人更有优势,就像那些有数字头脑的人比那些需要使用计算器的人有优势一样。虽然对一种通用语言的实际需求将会减少,但分享这种语言的社会价值将会持续存在。软件永远不会取代语言知识所带来的那种微妙而重要的理解体验。毕竟,要从纷扰中找出细微差别,总是需要这些知识。(选自:The Guardian 作者:Marek Kohn 编译:网易智能 参与:小小)