今年 Google 发表了一系列的硬件产品,其中 Pixel Buds 蓝牙耳机除了可以呼叫 Google Assistant 外,最吸睛的就是结合自家 Google 翻译可支持 40 种语言实时翻译的功能。
不久之前,韩国最大搜索引擎 NAVER 旗下的通讯软件 LINE 也推出 MARS 翻译耳机,对话的两个人各自使用一个耳塞,就能立即从耳机中听到翻译的语音,背后同样是仰仗自家的 AI 平台 Clova 及 Papago 即时翻译服务,目前可支持 10 种语言。
图|LINE 的 MARS 翻译耳机获得 CES 2018 最佳创新奖。(图片来源:LINE)
图|LINE 的 MARS 翻译耳机是一人使用一个耳塞,让说不同语言的两个人也能沟通。(图片来源:LINE)
总部位于深圳的耳机公司万魔(1more)声学海外事业部总经理陈颖达接受 DT 君采访时分析,耳机的新趋势就是真正无线(True Wireless Earbuds)蓝牙耳机+智能功能。在苹果推出 AirPods 之后,True Wireless 的趋势就确立下来了,音源与耳机或是左右耳的相通,完全不需要线路连接,跟过去蓝牙耳机的左右耳还是有线相连不同。
在智能功能方面有三大块,首先是支持生物识别运动追踪(biometric sports tracking)的运动耳机,例如可监测用户心率、计算运动过程中燃烧的卡路里等,市场需求看好;第二则是整合语音助理如 Apple Siri、Google Assistant ;第三就是实时翻译。
耳机的优势在于普及性及方便性,是启动个人化智能服务、翻译对话最直观的第一个入口,除了大企业,不少初创或音响公司都看好这块市场,例如德国品牌 Bragi 继推出防水(可于游泳使用)、测量心跳的产品,又进一步推出结合 AI 技术及 iTranslate 应用,可实时翻译的 The Dash Pro 耳机,另外英国的 Mymanu Clik 耳机也可支持 37 种语言即时翻译。
虽然说在市场层面还存在疑问,实时翻译耳机在技术上确实已经取得较大的进展。那么,这些强调利用 AI 技术的实时翻译耳机背后究竟是如何运作的呢?“三大核心:语音识别+机器翻译+语音合成,”台湾的中研院资讯科技创新研究中心副研究员曹昱清楚点出关键。
整个流程就是,耳机听到对方讲话的内容,识别出这是什么语言如英文、西班牙文等,并且把语音变成文字,第二步骤以翻译引擎进行文字对文字的翻译,最后就是把翻译结果做语音合成,播放出来。可以想成这是集合了听写员、翻译员、朗读员三个角色于一身。只不过,实际上每一个核心涉及的技术多且复杂。
第二个阶段就是翻译,在人工智能中,机器翻译一直是许多人想突破的领域,概念就是通过分析原始语言(Source Language)找出其结构,并将此结构转换成目标语言(Target Language)的结构,再产生出目标语言。
初期多是采取把语言规则写进系统的方式,但这种以规则为主的机器翻译(RBMT,Rule-based Machine Translation)是将人类译者或是语言学家建构的词汇、文法、语意等规则写成计算机程序,但语言规则难以穷尽,而且例外、俚语也不少,除了耗费人力,翻译结果的准确性也遭人诟病,使得机器翻译的发展一度被打入冷宫。
到了 80 年代晚期,IBM 率先展开并提出统计式机器翻译(SMT,Statistical Machine Translation)理论,主要的研究人员 Peter Brown 、 Robert Mercer 等陆续发表《A Statistical Approach to Machine Translation》、《The Mathematics of Machine Translation: Parameter Estimation》论文,不仅被视为是该领域的开山之作,也再次引爆了机器翻译的热潮。
SMT 主要是通过搜集大量的原文与译文,通过统计模型让电脑学习字词的产生、转换、排列,形成合宜的句子,简单来说,例如 1000 句中文就有 1000 句英文进行对照,像是联合国有 6 种官方语言文件,加拿大政府的官方文件也有英文及法文,以及辞典,都是常被使用的素材。
不过,就在 SMT 火红了,并且成为机器翻译领域的主流技术之后,这两位专家却加入知名的量化基金公司 Renaissance Technologies,跑去华尔街用数学及统计模型分析股票、管理基金,变成了 10 亿美元级别的富豪。
“以机器翻译而言,20 年前 IBM 播种,20 年后 Google 收获”,台湾清华大学自然语言处理研究室教授张俊盛曾如此形容。
Google 翻译是目前全球拥有最多用户的翻译平台,2000 年初 Google 就开始投入机器翻译的研究,并且延揽了多位重量级人物协助开发,包括语音公司 Nuance 创始人 Michael Cohen 、知名机器翻译专家 Franz Och 等人。
最初负责领导整个 Google 翻译架构及服务开发的 Franz Och 曾表示,Google 翻译计划在 2001 年启动时只支持 8 种语言,速度很慢、品质不佳,到了 2006 年他们开始采用统计式机器翻译,并且同时利用大量的语料库作为训练。身为搜索引擎龙头,优势就是可通过网络搜集庞大的语料库、双语平行数据,提升机器翻译的水平。
图|统计式翻译的概念。(图片来源:National Research Council of Canada)
那时 Google 采用 SMT 中最普及的一个算法——片语为本的机器翻译(PBMT,Phrase-based Machine Translation),把一个句子切成多个单字(words)或短语(phrases)之后个别翻译。不过,这位 Google 翻译之父在 2014 年离开 Google 加入生医初创公司 Human Longevity,现则任职于癌症筛检初创公司 Grail。
但 Franz Och 的离开,并未对 Google 造成太大困扰,因为几年前 Google 就开始使用 RNN 来学习原文与译文之间的映射,到了 2016 年下旬 Google 正式发表翻译服务上线 10 年以来最大的改版,宣布转向采用类神经机器翻译(NMT,Neural Machine Translation),也就是现在大家耳熟能详的深度学习神经网络模型,以多层次的神经网络连结原文与译文,输出的字词顾虑到全句文脉,同时,也使用了大量 Google 自家开发的 TPU 来处理复杂运算,一举提升翻译的水平。
其实,利用深度神经网络进行机器翻译的概念在 2012、2013 年就被提出,DeepMind 研究科学家 Nal Kalchbrenner 和 Phil Blunsom 提出了一种端到端的编码器-解码器结构,“不过,一直到 Google 出了论文,用 NMT 取代 SMT,让大家完全相信神经网络在翻译是可行的,现在几乎所有公司都转向 NMT,我个人的想法是大概再三年机器翻译就可以达到人类翻译的水准”,专攻深度学习机器翻译的初创公司真译智能创办人吕庆辉如是说。
此后,NMT 成为了新一代机器翻译的主流,采用这种技术的服务在 2016 年下半年开始大量问世,Facebook 在今年 5 月也宣布将翻译模型从 PBMT 转向了 NMT。
Google 翻译产品负责人 Barak Turovsky 不久前接受媒体采访时表示:“SMT 是一种老派的机器学习(an old school machine learning)”,在网络上查找人类已经翻译过的内容,将其放进一个超大型的索引中,机器就开始看统计模式学习翻译。PBMT 的局限就在于必须把句子切成好几块,执行翻译时只能同时考量少数几个文字,而不是考虑上下文,所以如果要翻译的语言是属于不同语序结构,就会显得相当困难。
NMT 最大的突破就是它的运作方式类似于大脑,将一整个文句视为是一个翻译单元(unit),而非将文句切成好几块,这有两个优点,一是减少工程设计的选择,二是可依据上下文判断,提升翻译的正确性及流畅性,听起来会更自然。
在 NMT 技术中,除了递归神经网络(RNN)、卷积神经网络(CNN)、序列到序列(sequence-to-sequence)的长期短期记忆模型(LSTM,Long Short-term Memory)之外,近期的研究焦点包括了自注意力(Self-Attention)机制、以及利用生成式对抗网络(GAN,Generative Adversarial Networks)来训练翻译模型。