近百年来,信息与通信技术赋能口译不断取得突破。20世纪20年代,基于有线语音传输技术能够实现译员边听边译的同声传译系统问世,颠覆了传统口译工作模式。20世纪60—70年代,计算机与互联网的出现重塑了口译中的语言与知识资源获取模式,开启了计算机辅助口译时代。20世纪80年代至21世纪初,随着机器翻译的复苏与发展,机器口译逐步成为研发热点,但多用于预订排程与出行信息服务等对话口译场景。近年来,大数据、人工智能等领域蓬勃发展,语音识别、自然语言处理等技术突飞猛进,加上神经网络机器翻译的颠覆性突破,极大提升了机器口译能力,机器口译是否会替代人工口译成为值得关注的问题。剖析、对比人工与机器口译过程、能力、质量及效果差异,梳理各自优势与不足,展望人工及机器口译未来,显得尤为必要。

加工过程对比

机器口译指以计算机系统对源语进行实时自动化语音翻译,包含语音识别、机器翻译、语音合成三个模块,分别由经过语料训练和机器学习的源语声学模型、源语语言模型与源语边界模型,机器翻译模型与译语语言模型,语音合成模型完成。由于机器口译各模型依赖自然话语与人工翻译语料的训练和学习,因此机器口译本质上是基于有限语境、情境的既有有限、固定用法或译法,实现源语识别、语言转换与译语输出。人工口译则是基于人类智力,并综合利用知识、经验、场景、语境,调用各种认知资源进行源语听辨理解、信息存储(记忆、记录)、语言转换和译语发布的动态认知过程。

人工与机器口译在加工对象、加工层次、加工路径与机制、策略运用等方面存在根本差异。一是加工对象。机器加工源语语音以及识别后的文本;译员加工源语语音(含各类韵律信息),书面或电子参考资料与讲稿、PPT、视频材料,演讲人表情、手势、体态等各类视、听觉信息,以及场景、情境信息等。二是加工层次。机器语音识别时高度依赖语音,翻译时高度依赖文本语言结构,基本为自下而上的语言形式与语义浅层加工,难以进行语用加工。译员将源语语言驱动的自下而上加工和知识驱动的自上而下加工相结合,进行语义、语用等多层次、深度加工。三是加工路径与机制。口译过程涉及纵向加工与横向加工两种路径。纵向加工时,源语理解和译语转换各为独立单语加工体系/过程,源语经音、词、句、语义与语用分析至概念表征,经由概念中介后再进行译语转换。横向加工时,源语理解与译语转换属双语加工体系/过程,两者同时发生,不经概念中介,而是通过共享双语表征寻求横向词汇、分句对应。机器依赖静态语料训练,翻译时加工路径单一,采用双语词汇、分句对应式横向转码加工,如音译、逐词对译、记忆配对。译员既能进行横向转码,又能调用各种认知资源进行经由概念中介的纵向脱壳(脱离源语语言形式)理解和表达,进行命题化、命题重构等操作。四是策略运用。机器基于训练语料和模型进行程序化操作,基本不具备策略运用能力。译员能够视源语特征、语境情境等因素灵活运用各类策略,如内容策略:省译、增译、释译;语言策略:拆分、融合、开放结构;发布策略:等待、占位、韵律运用;综合策略:预测、显化、软化等。

核心能力对比

口译核心能力包括三块:信息加工能力(Message Processing),语言资源丰富度、可用度与灵活度(Associative Flu-ency),表达伶俐度(Verbal Fluency)。三大能力分别对应口译过程的三个方面:源语听辨、双语转换、译语发布;也分别对应口译质量的三个维度:内容准确与完整,语言正确、地道、明晰、高效,发布清晰、流畅、韵律可用。此外,口译能力还包括信息存储能力、沟通能力、策略运用能力、快速学习能力、抗压能力等。下面则是译员和机器二者在口译能力上的具体优势与不足。

译员认知资源丰富,理解深入且容错(模糊)性高,表达高效多样且可用性高;善用策略;具备承担复合翻译任务(同传+交传、陪同翻译等)能力;具备人际沟通能力、身份立场和情感温度等。然而,译员使用成本较高;长期记忆(术语等资源)与短期/工作记忆(信息密度高或认知精力不足时)容量及可用性有限;生理与心理、源语变量与场景因素、工作时长与负荷等制约翻译表现。

机器口译的综合成本低;具备巨量存储能力,学习效率更高;加工速度更快,且完全自动化,不受生理、心理因素制约,一般也不受工作时长、负荷等因素影响,表现更稳定。同时,机器口译也存在以下不足:难以加工语音韵律信息及源语外的多模态信息;语音识别高度依赖语音本身,对音质、发音标准性/典型性等异常敏感,容错(模糊)性低,同音字词识别困难;受限于训练语料,对新术语、专有名词、低频词、复杂结构、口语化表达等的识别和翻译存在困难;翻译以转码为主,语用信息、情感信息、隐喻表达等加工能力不足;语音合成或字幕展示缺少凸显信息的自然韵律,译语可用性不足;译语多样性不足;临场策略能力不足;难以承担复合翻译任务,无法与发言人、听众等进行现场沟通。

质量与效果对比

口译质量评估一般涉及三个层次:语际层(源语与译语对比)、语内层(译语声音、语言及逻辑等)和工具层(译语可理解性及可用性)。语际层评估又称忠实性评估,属产品视角评估,评估译语与源语内容/意思的一致性(译语准确性和完整性)。语内层和工具层评估属交际视角评估,关注译语表达和发布的正确性及对口译用户(或听众)的可用性。影响口译质量的因素包括源语变量、场景变量、语对因素、方向性及译员因素等。源语因素影响较大,其可进一步细分为:口音、发音、韵律等发布音韵因素,语速、信息密度等发布时间因素,表达规范性、明晰度、结构复杂度等语言因素,专业性等内容因素。

笔者通过初步实证研究发现:对发布音韵,机器极为敏感,译员较为敏感;对语言(正式程度、规范性、明晰度、复杂度、灵活度),机器比较敏感,译员较不敏感;对内容(主题知识专业程度等),机器敏感度较低,译员则比较敏感;对发布时间因素(语速、命题信息密度、信息成分密度等),机器敏感度不明显,而译员则极为敏感。

机器口译的主要问题包括:语音或词汇识别错误、句法、语义或语用识别错误、翻译错误(逐字对译)、非流利表达或不规范表达未过滤等,一般为认知能力不足所致。从效果看,用户会觉得机器的语音合成译语尚不够自然、流畅,难以通过恰当韵律凸显、传达信息,影响译语可用性;而字幕展示译语时,观众边阅读翻译,边看演讲人或PPT也存在一定困难。而译员的问题既表现为认知能力不足,也表现为认知精力不足,主要包括数字、专有名词、文化负载词、术语加工困难,句子理解困难与转换困难等。在以听译同步、时间受限为特征的同声传译中,译员精力不足造成漏译、错译等问题更为常见。

人机协同前景展望

前述对比分析表明,人工与机器存在较大互补合作空间,口译的人机协同(机助人译、人助机译)尤为可期。

在机助人译方面,机器可凭借自动化和大存储优势,通过源语实时语音转写与/或翻译提示,重点在以下场景支持人工口译:典型口音外语;语速较快、信息成分(数字、术语、专有名词等)密度较高;译语固定/稳定、适用转码的时政、行业、技术类话语较多;读稿致辞、演讲;非常用语对口译。此外,机器口译可以助力人工译前知识、语言、术语准备与译中语言转换。

在人助机译方面,学术与行业技术会议、典礼仪式、推介发布会等场景,可以机译为主,人工利用现场多模态信息加工、高容错性、语用理解及临场策略优势等,在机器口译过程中提供必要的降噪、修正、调节等干预措施,如编辑/预加工机转结果,消除语音解码、语块切分与标点预测错误,纠正双语转换中的逻辑、语用和跨文化交际错误,动态调节译语内容和形式等。除职业实践外,机器口译的实时转写、翻译等功能,还可用于口译课堂教学、模拟会议口译、学生自学等环节,赋能教师点评、反馈学员表现。

未来的机器口译研究,应以模拟人工口译优势机制与能力为重点,以多场景人机协同应用为目标,从单一源语语音加工转向多模态信息加工,从语言加工转向语用信息加工,从语音识别与机器翻译为重点转向学习模拟人工认知过程和能力,从简单场景和单一工作方式应用转向可定制复杂场景与复合工作方式应用,从理论模型建构转向满足市场真实多元交际需求。具体而言,应加强以下研究:突破目前三个任务分离模式,实现端到端实时语音翻译;多模态信息加工;即兴口语的高容错(模糊)性理解;理解与转换中的语用信息加工;高质量、多特征训练语料库研制;大规模、市场化人机同传应用对比;多场景人机协同路径和机制探索与人机协同模式构建。

(本文系国家社科基金重点项目“基于大型语料库的汉英同声传译信息加工路径与机制研究”(22AYY005)阶段性成果)

(作者系北京外国语大学高级翻译学院副教授、口译教育与实践研究中心主任)