论坛风格切换切换到宽版
发帖 回复
返回列表  提醒:不能用迅雷等P2P下载,否则下载失败标(二级)的板块,需二级才能下载,没二级不要购买,下载不了
  • 1463阅读
  • 3回复

[技术文章]详解语音生成表情包背后的技术原理 [复制链接]

上一主题 下一主题
离线shuszhao
 

性别:
帅哥
发帖
18045
金币
36458
提示:会员销售的附件,下载积分 = 版块积分 + 销售积分       只看楼主 倒序阅读 使用道具 0楼 发表于: 2017-12-12
<\@JbL*  
Ro`Hm8o/  
由语音生成实时面部表情动画,也就是说,在对我们说的话进行语音记录后,通过某种学习算法,生成数字形象在说话的高质量动画。听起来是不是很酷呢?
#kT3Sx  
G@b|{!  
配合 3D 扫描人脸表情,通过我们录下自己的音频以及面部动作来定制自己“亲生”的动态表情,这项苹果iPhone X新增的Animoji功能着实吸引了一把眼球。 /m%Y.:g  
Animoji有趣的地方在于它能够通过iPhone X前置的深感镜头,捕捉用户面部50块肌肉,从而让这些“小动物”模拟人的表情,活灵活现。 'Uqz,  
为了进一步了解语音生成表情包背后的技术原理 ,EDNC小编为大家推荐以下这篇文章: "Q]`~u':  
由语音生成实时面部表情动画,也就是说,在对我们说的话进行语音记录后,通过某种学习算法,生成数字形象在说话的高质量动画。听起来是不是很酷呢? */ZrZ^?o  
2'W3:   
实际上,这种学习算法是一种卷积神经网络。每个角色只需要进行三到五分钟的训练,便可以对真实世界的各种表达方式及语言形成某种概念。如果你认为,这没什么大不了的,实际上,这个算法在不断地优化过程中,变得越来越好。 1Iu^+  
DWZ!B7Ts  
接下来我们会聊到,背后主要有两个原因支撑这个算法的不断优化。 75}BI&t3k  
第一个原因就是,它不仅将音频作为输入,我们发现在说出这些话的时候,角色所处的情绪状态也得到了表达,从而变得栩栩如生,非常生动。 u$d T^c  
第二个原因,也是最棒的一部分,我们可以将此与 DeepMind WaveNet 相结合,通过文字输入合成音频。因此,它基本可以合成一个真人语音,并且将我们写下的任何东西,毫无障碍地讲出来。听起来似乎我们可以同时应用剪辑与这项技术,使得数字形象说出我们写下的内容。 !Q =H)\3  
9r!psRA:`)  
那么通过 WaveNet 我们是否可以将文字转化成语言,并将语音加到真实角色上去呢?这样一来,我们找到了一种通过学习,为我们方便地提供服务,甚至不再需要任何画外音演员,也不再需要为动画进行动作捕捉,实在是太棒了。 <hgt{b4  
在该篇论文中,尤其需要注意的是,作者提到的用于确保结果长期正确运行的三向损失函数。当然了,在研究中我们必须证明成绩是在不断提高的。在补充视频中,我们做了很多对比来完成此项内容,但是我们需要的,不仅仅是这些。 Kf D8S  
由于这些结果无法归结为我们需要证明的数学定理,我们不得不采取其他方式来完成这件事。最终的目标是,普通人认为这些视频是真实视频的几率,要比用原先技术生成的视频的大。这是该篇论文中提出的用户学习的核心理念。 ^0ZabR'  
h\afO  
我们找来一群人,在他们不知情的情况下,给他们观看新老技术所生成的视频,然后问他们觉得哪个更加自然,结果相去甚远。新技术不仅整体上有优势,在某个单项中,不论是场景还是语言上无不胜出,这在研究中是很罕见的。 TG'_1m*$  
一般来说,在一个成熟领域,新技术只是进行了不同的取舍。一个经典的例子就是——执行时间的减少伴随着内存消耗成本的提高。然而在本篇论文中,它在各方面都体现了出了优势,让人惊叹。 -4{sr| lm  
:Zl@4}  


评价一下你浏览此帖子的感受

精彩

感动

搞笑

开心

愤怒

一般

差劲
离线2749237077

性别:
人妖
发帖
1490
金币
2740
提示:会员销售的附件,下载积分 = 版块积分 + 销售积分       只看该作者 1楼 发表于: 2017-12-13
    


离线cvbbvcmv

性别:
人妖
发帖
145
金币
115
提示:会员销售的附件,下载积分 = 版块积分 + 销售积分       只看该作者 2楼 发表于: 2017-12-13
^KlW"2:  


离线学海无涯

性别:
帅哥
发帖
5803
金币
8570
提示:会员销售的附件,下载积分 = 版块积分 + 销售积分       只看该作者 3楼 发表于: 2017-12-18
见识了!!


快速回复
限150 字节
 
上一个 下一个