首页 » 科学 » 中科大年夜\u0026京东最新成果:让AI像真人一样演讲手势打得惟妙惟肖_姿态_动作

中科大年夜\u0026京东最新成果:让AI像真人一样演讲手势打得惟妙惟肖_姿态_动作

admin 2024-11-15 02:44:49 0

扫一扫用手机浏览

文章目录 [+]

量子位 | "大众年夜众号 QbitAI

人类在说话时会自然而然地产生肢体动作,以此来增强演讲效果。

中科大年夜\u0026京东最新成果:让AI像真人一样演讲手势打得惟妙惟肖_姿态_动作 科学

现在,来自中科大和京东的研究职员,给AI也配备了这样的功能——

随便丢给它一段任意类型的演讲音频,它就能比划出相应的手势:

,时长00:20

合营得非常自然有没有?

对付同一个音频,它还能天生多种不一样的姿势:

采取“双流”架构

由于每个人的习气并不相同等缘故原由,演议和肢体动作之间并没有一套固定的对应关系,这也导致完针言音天生姿势这一任务有点困难。

△ 极具代表性的意大利人讲话手势

大多数现有方法都因此某些风格为条件,以一种确定性的办法将语音映射为相应肢体动作,结果嘛,也就不是特殊空想。

受措辞学研究的启示,本文作者将语音动作的分解为两个互补的部分:姿势模式(pose modes)和节奏动力(rhythmic dynamics),提出了一种新颖的“speech2gesture”模型——FreeMo。

FreeMo采取“双流”架构,一个分支用于紧张的姿势天生,另一个分支用于“打节奏”,也便是给紧张姿势施加小幅度的节奏动作(rhythmic motion),让终极姿势更丰富和自然。

前面说过,演讲者的姿势紧张是习气性的,没有常规语义,因此,作者也就没有对姿势天生的形式进行特殊约束,而是引入条件采样在潜空间学习各种姿势。

为了便于处理,输入的音频会被分成很短的片段,并提取出语音特色参数MFCC和演讲文本。

紧张姿势通过对演讲文本进行关键字匹配天生。

语音特色参数MFCC则用于节奏动作的天生。

节奏动作天生器采取卷积网络构成,详细过程如图所示:

一作为Xu Jing,来自中科大。

赤色框表示动作序列均匀姿势的偏移量。
通过交流俩个序列的偏移量,模型就可以在不影响紧张姿势的情形下进行“节奏”掌握。

更具多样性、更自然、同步性更高

FreeMo的演习和测试视频包括专门的Speech2Gesture数据集,里面有很多电视台主持人的节目。

不过这些视频受环境滋扰严重(比如不雅观众的叫好声),以及主持人可能行动有限,因此作者还引入了一些TED演讲视频和Youtube视频用作演习和测试。

比拟的SOTA模型包括:

采取RNN的Audio to Body Dynamics (Audio2Body)采取卷积网络的Speech2Gesture (S2G)Speech Drives Template (Tmpt,配备了一组姿势模板)Mix StAGE(可以为每一个演讲者天生一套风格)Trimodal-Context (TriCon,同样为RNN,输入包括音频、文本和speaker)

衡量指标一共有三个:

(1)语音和动作之间的同步性;(2)动作的多样性;(3)与演讲者的真实动作比较得出的质量水平。

结果是FreeMo在这三个指标上都超越5个SOTA模型得到了最好的成绩。

△ 同步性得分,越低越好

△ 多样性和质量水平得分

ps. 由于5个SOTA模型在实质上都是学习的确定性映射,因此不具备多样性。

一些更直不雅观的质量比拟:

最左上角为真实演讲者的动作,可以看到FreeMo的表现最好(Audio2Body也还不错)。

作者先容

一作为Xu Jing,来自中科大。

通讯作者为京东AI平台与研究部AI研究院副院长,京东集团技能副总裁,IEEE Fellow梅涛。

剩余3位作者分别位来自京东AI的研究员Zhang Wei、白亚龙以及中科大的孙启彬教授。

论文地址:https://arxiv.org/abs/2203.02291

代码已开源:https://github.com/TheTempAccount/Co-Speech-Motion-Generation

— 完 —

量子位 QbitAI · 头条号签约

关注我们,第一韶光获知前沿科技动态

标签:

相关文章

HX4004A-MFC/AIP4004A_电荷_电流

其紧张特点如下:● 输入电源范围: 2.7V~4.5V● 输出电流:最大 230mA● 稳定输出电压 4.95V(±3%)● 低噪...

科学 2025-01-05 阅读0 评论0