详解语音生成表情包背后的技术原理|程序开发 - 逆天PCB论坛

离线shuszhao

三级逆天

性别:: 帅哥

发帖: 18045

金币: 36458

提示：会员销售的附件,下载积分 = 版块积分 + 销售积分只看楼主倒序阅读使用道具 0楼发表于: 2017-12-12

由语音生成实时面部表情动画，也就是说，在对我们说的话进行语音记录后，通过某种学习算法，生成数字形象在说话的高质量动画。听起来是不是很酷呢？

配合 3D 扫描人脸表情，通过我们录下自己的音频以及面部动作来定制自己“亲生”的动态表情，这项苹果iPhone X新增的Animoji功能着实吸引了一把眼球。
Animoji有趣的地方在于它能够通过iPhone X前置的深感镜头，捕捉用户面部50块肌肉，从而让这些“小动物”模拟人的表情，活灵活现。
为了进一步了解语音生成表情包背后的技术原理，EDNC小编为大家推荐以下这篇文章：
由语音生成实时面部表情动画，也就是说，在对我们说的话进行语音记录后，通过某种学习算法，生成数字形象在说话的高质量动画。听起来是不是很酷呢？

实际上，这种学习算法是一种卷积神经网络。每个角色只需要进行三到五分钟的训练，便可以对真实世界的各种表达方式及语言形成某种概念。如果你认为，这没什么大不了的，实际上，这个算法在不断地优化过程中，变得越来越好。

接下来我们会聊到，背后主要有两个原因支撑这个算法的不断优化。
第一个原因就是，它不仅将音频作为输入，我们发现在说出这些话的时候，角色所处的情绪状态也得到了表达，从而变得栩栩如生，非常生动。
第二个原因，也是最棒的一部分，我们可以将此与 DeepMind WaveNet 相结合，通过文字输入合成音频。因此，它基本可以合成一个真人语音，并且将我们写下的任何东西，毫无障碍地讲出来。听起来似乎我们可以同时应用剪辑与这项技术，使得数字形象说出我们写下的内容。

那么通过 WaveNet 我们是否可以将文字转化成语言，并将语音加到真实角色上去呢？这样一来，我们找到了一种通过学习，为我们方便地提供服务，甚至不再需要任何画外音演员，也不再需要为动画进行动作捕捉，实在是太棒了。
在该篇论文中，尤其需要注意的是，作者提到的用于确保结果长期正确运行的三向损失函数。当然了，在研究中我们必须证明成绩是在不断提高的。在补充视频中，我们做了很多对比来完成此项内容，但是我们需要的，不仅仅是这些。
由于这些结果无法归结为我们需要证明的数学定理，我们不得不采取其他方式来完成这件事。最终的目标是，普通人认为这些视频是真实视频的几率，要比用原先技术生成的视频的大。这是该篇论文中提出的用户学习的核心理念。

我们找来一群人，在他们不知情的情况下，给他们观看新老技术所生成的视频，然后问他们觉得哪个更加自然，结果相去甚远。新技术不仅整体上有优势，在某个单项中，不论是场景还是语言上无不胜出，这在研究中是很罕见的。
一般来说，在一个成熟领域，新技术只是进行了不同的取舍。一个经典的例子就是——执行时间的减少伴随着内存消耗成本的提高。然而在本篇论文中，它在各方面都体现了出了优势，让人惊叹。