首页 » 智能 » Lyra:谷歌新宣告的超低码率语音压缩编解码器_编解码器_暗记

Lyra:谷歌新宣告的超低码率语音压缩编解码器_编解码器_暗记

乖囧猫 2024-12-29 09:49:31 0

扫一扫用手机浏览

文章目录 [+]

也便是说,开拓用于视频和音频的编解码器时,所面临的一项长期寻衅就供应更高的质量、利用更少的数据并只管即便降落实时通信的延迟。
只管视频看起来比音频要占用更多的带宽,但是当代视频编解码器可以达到比当今利用的某些高质量语音编解码器更低的比特率。
若能结合利用低比特率的视频和语音编解码器,纵然在低带宽网络中也可以供应高质量的视频通话体验。
然而在过去,音频编解码器的比特率越低,语音旗子暗记的清晰度就越差,电子味也会更浓。
此外,只管有些人可以用上始终如一的高质量高速网络,但这种网络水平并没有遍及。
纵然在网络连接良好的地区,有时也会碰着质量差、带宽低和网络连接拥塞的情形。

为理解决这一问题,我们创建了 Lyra(https://arxiv.org/abs/2102.09660),一种高质量、低比特率的语音编解码器,纵然在最慢的网络上也可以用它进行语音通信。
为此,我们一方面运用了传统的编解码技能,同时利用机器学习(ML)的上风和利用数千小时数据演习的模型来创建一种压缩和传输语音旗子暗记的新颖方法。

Lyra:谷歌新宣告的超低码率语音压缩编解码器_编解码器_暗记 Lyra:谷歌新宣告的超低码率语音压缩编解码器_编解码器_暗记 智能

Lyra 概述

Lyra 编解码器的基本架构非常大略。
它以 40 毫秒的间隔从语音中提取特色或独特的语音属性,然后将其压缩以进行传输。
这些特色本身是对数梅尔声谱图,是一个代表不同频段语音能量的数字列表。
由于它们是根据人类听觉相应建模的,因此传统上紧张用在与感知干系的领域。
另一方面,一个天生模型利用这些特色来重新创建语音旗子暗记。
从这个意义上讲,Lyra 与其他传统的参数编解码器(例如 MELP)非常相似。

Lyra:谷歌新宣告的超低码率语音压缩编解码器_编解码器_暗记 Lyra:谷歌新宣告的超低码率语音压缩编解码器_编解码器_暗记 智能
(图片来自网络侵删)

但是,传统的参数编解码器仅提取语音关键参数(这些参数可用于在吸收端重新创建旗子暗记),结果比特率虽然很低,但常日听起来电子味很重且不自然。
这些毛病推动了新一代高质量音频天生模型的开拓,这种模型不仅能够区分旗子暗记,而且还能天生全新的旗子暗记,为这一领域带来了革命性的变革。
DeepMind 的 WaveNet 是这类天生模型中的排头兵,为往后的许多运用铺平了道路。
此外,目前在 Duo 中利用的 WaveNetEQ(基于天生模型的丢包隐匿系统)已经展示了这种技能在实际场景中利用的路子。

Lyra 利用的新压缩方法

我们以这些模型为基准开拓了一种新的模型,能够利用最少的数据来重修语音。
与当本年夜多数流媒体和通信平台中利用的最前辈波形编解码器比较,Lyra 利用这些新的自然声音天生模型的能力来保持参数编解码器的低比特率上风,同时实现较高的质量。
波形编解码器的缺陷是,它们须要逐个压缩并发送旗子暗记采样才能实现高质量的编码,这须要更高的比特率,并且在大多数情形下得到自然语音并不须要这么麻烦。

天生模型的一个问题是它们的打算繁芜性。
Lyra 利用了一个开销更低的循环天生模型(WaveRNN 的一个变体)来避免这一问题。
该模型以较低的码率事情,但会并行天生不同频率范围内的多个旗子暗记,随后将其组合为所需采样率的单个输出旗子暗记。
这个技巧让 Lyra 不仅可以运行在云做事器上,而且可以在中端手机上实时事情(处理延迟为 90ms,与其他传统语音编解码器相称)。
然后,这个天生模型利用数千小时的语音数据来做演习和优化(像 WaveNet 一样),以准确地重新创建输入音频。

与现有编解码器的比拟

自 Lyra 出身以来,我们的任务一贯是利用比特率很小的数据来供应最优质的音频。
当前,免授权的开源编解码器 Opus 是基于 WebRTC 的 VOIP 运用程序中利用最广泛的编解码器,并且音频码率为 32kbps 时常日就能得到透明的语音质量,也便是说与原始音频没有显著差异。
但是,虽然 Opus 可以在带脱期制更小(最低 6kbps)的环境中利用,但此时它的音频质量就会低落了。
其他编解码器(Speex、MELP、AMR)能够取得与 Lyra 相称的比特率,但它们的噪音很大,声音也都是电子味。

Lyra 目前被设计为 3kbps 的码率。
收听测试表明,Lyra 在这一比特率下的性能优于其他所有编解码器,并且在 8kbps 的码率上性能优于 Opus,从而将所需带宽减少了 60%以上。
Lyra 可以用在带宽条件不敷以供应更高比特率,且现有的低比特率编解码器无法供应足够质量的场景中。

确保公正

与任何基于 ML 的系统一样,我们必须对模型进行演习以确保其对每个人都一样有效。
我们已经利用开源音频库为 Lyra 演习了数千小时的音频(个中包含 70 多种措辞),然后与专家和众包听众一起验证了音频质量。
Lyra 的设计目标之一是确保高质量音频体验能够普惠大众。
Lyra 会在广泛的数据集上进行演习,数据集包括多种措辞的语音,以确保编解码器对可能碰着的任何情形都具有稳健性。

社会影响力和我们的操持

无论是短期还是长期范畴,Lyra 这类技能的影响都是非常可不雅观的。
借助 Lyra,新兴市场中的数十亿用户可以得到高效的低比特率编解码器,从而享受比以往质量更高的音频。
此外,Lyra 可以在云环境中利用,使网络条件和设备功能互异的用户能够无缝地谈天。
将 Lyra 与新的视频压缩技能(例如 AV1)搭配后,纵然通过 56kbps 拨号调制解调器连接到互联网的用户也可以进行视频谈天了。

Duo 已经利用 ML 来减少音频中断,并且目前正在加入 Lyra 来提高超低带宽连接上的音频通话质量和可靠性。
我们将连续研究 Lyra 的性能和质量主题,以确保这一技能供应最大的可用性,还会通过 GPU 和 TPU 加速研究。
我们也在研究如何利用这些技能开拓低比特率的通用音频编解码器(即涵盖音乐和其他非语音用例)。

原文链接:https://ai.googleblog.com/2021/02/lyra-new-very-low-bitrate-codec-for.html

相关文章

走进Go语言的世界,入门篇

随着互联网技术的飞速发展,编程语言在计算机科学中扮演着至关重要的角色。在众多的编程语言中,Go语言以其简洁、高效、并发性等特点受到...

智能 2025-01-01 阅读0 评论0

跨年变革,企业迈向高质量发展的新起点

随着2023年的钟声即将敲响,我国企业面临着前所未有的挑战与机遇。站在历史的新起点上,企业如何实现跨年语言,迈向高质量发展,成为业...

智能 2025-01-01 阅读0 评论0