设备上自然语言处理即将进入黄金时期

shuszhao · 发表于 2018-6-7 12:44:17

在过去的几年中，自动语音识别（ASR）日趋普及，市场上出现了不计其数的语音支持产品和服务。各种各样的ASR技术应运而生，每种都适合不同用途。不可否认，ASR的终极用途当属自然语言处理（NLP），它可以让用户随意下达命令，就好像正在与另一个人说话一样。一个简单的例子是，你可以对任何市场领先的虚拟助理（如Alexa、Google智能助理、Siri或Cortana）说“后天上午9点设置提醒”，它们都能理解你的意图。没有特定语序要求也无需‘咒语’式命令。你也可以说“周三早上9点提醒我”或“5月16日上午9点提醒”，并得到相同的结果。NLP的要旨是不管措词如何，都能准确提取含义。

支持NLP的聊天机器人适合放置于前端设备还是云端？

在人工智能（AI），更具体地说是深度学习的帮助下，NLP又取得新的进展。在Google I/O 2018上，Google Duplex的发布让我们见证了这项技术的飞跃。Google Duplex功能可让Google助理代表用户拨打电话，预约理发服务或预定餐厅等。在演示中，它们听上去和人类一样自然。
在此，技术难题在于理解语音的细微差别并应对意外情况。用于实现这些功能的深层神经网络使用非常复杂的计算，需要大量运算和能耗，目前只能在远程云服务器中实现。
另一方面，许多便携式设备（如相机和蓝牙扬声器）仅启用某些预定义的语音命令，如“开”、“关”、“记录”、“播放”和“停止”。也就是说用户可以和虚拟助理进行接近无限制的自由对话，而非连接的便携式设备则只能理解非常有限的语音命令，造成这种差异的主要原因在于处理究竟是在前端设备还是在云端进行。前端处理的吸引力是巨大的，因为并非在所有情况下都能使用云，在其他许多情况下则没有必要或并非最佳选择。
大多数Android智能手机都具有这种语音命令功能。当相机应用程序打开时，你可以通过说“cheese”或“smile”来拍照。如果必须依赖云的可用性并等待命令被远程处理，那么你可能会错过许多宝贵的时刻。因此，在这种情况下必须使用前端处理。
不同的厂商可以修改或添加基本命令。例如，在LG手机上，你也可以说“Whisky”或“Kimchi”来开启拍照功能。这些语音命令不涉及NLP。ASR引擎通过识别指定的单词来触发快门。所以，只有在用户知道这些命令时，这个功能才有用。如果你习惯用“Kimchi”下达拍照命令，换个手机则可能行不通。除非使用指定命令，任何其他拍照语音命令都没有作用。这对用户来说算不上是完美的体验，并可能因为缺乏灵活性和易用性失去用户。
另一个例子是GoPro最新的Hero动作相机新增一个很酷的功能，可以让你在拍摄时标记特殊时刻。稍后，你可以直接转到标签，轻松分享和编辑视频的最佳片段。该功能对应的声音命令是“GoPro HiLight”。但假设你踏着滑雪板从猛犸山的斜坡向下滑行，突然看到一处美景，却不记得指定的口令。GoPro团队想到了这一点，所以他们添加了另一个触发HiLight标签的语言命令“that was sick”。虽然这种和你的相机交谈的方式很酷，但它仍然不是NLP。你仍然需要知道具体命令才能使用它。这种类型的界面强制用户研究系统的规则，而不是让系统去适应用户的说话方式。

嗯，那个命令要怎么说呢？

研发Duplex的Google工程师在博客文章中透露说，他们通过将聊天机器人的语境限制为特定任务来取得令人印象深刻的效果。在研究过程中，工程师们发现，Duplex在狭小、封闭的语境中才能发挥最佳效果。换句话说，Duplex聊天机器人只能用于特定任务，并不能进行一般对话。
同样，Sensory是一家专门研究人工智能的公司，它创建的一款咖啡师聊天机器人通过使用NLP来接受咖啡和茶饮点单单。它的重大成就在于，所有的处理都在前端设备上完成，因此不需要云连接。在这段视频中可以看到这款咖啡师聊天机器人。
实际上，要求小型轻便电池驱动的嵌入式处理器具备和云服务一样的语义分析能力是不现实的。然而，通过限制语境并降低交互的复杂性，NLP可以简化到足以在前端设备上运行。前端聊天机器人可以处理的语境范围取决于软件和运行它的引擎的效率。
从用户体验的角度来看，重要的是聊天机器人足以应付其任务领域所涉及的自然对话。让我们再以相机为例，除了拍照和录制视频之外，用户可能需要播放视频、查看照片、显示幻灯片、删除文件等。使用NLP处理所有这些功能将确保自然流畅的互动体验，用户不会介意它无法回答天气问题或推荐餐厅。
尽管功能齐全的设备内置NLP仍然是一个未解决的挑战，但我们仍然期望在不久的将来在用户体验方面取得重大进展。前端设备专用AI架构的进步和减少深度神经网络的内存读取的新技术都取得了喜人结果。我们很快就会看到脱离云计算的多层面NLP功能。