常日在有限的带宽条件下,想要将声音高质量通报到吸收方,须要压缩原始数据、去除冗余信息的语音编码技能。然而,目前基于EVS、OPUS等主流音频编解码的标准仍存在一大问题,即当码率降落到10kbps以下时,语音质量低落明显,这将影响用户通话体验。
为应对该难题,腾讯会议天籁实验室联合腾讯AI Lab自研了腾讯首款神经网络语音编解码器——Penguins。据先容,Penguins将AI与传统技能紧密领悟,从算法研究、工程化、产品化层面做了系统性创新。

而以腾讯首款神经网络语音编解码器Penguins为原型的AVS3P10标准,实现了6kbps下的高质量语音通信,纵然在“2G”网络下也能实现清晰通话,且主不雅观质量非常靠近原始参考旗子暗记。同时,主不雅观质量对标传统编码的中高码率情形下,编码效率提升200-300%。

据悉,2021年起,Penguins音频编码器就在腾讯会议的驾驶模式、弱网模式及QQ语音通话等场景中投入规模运用,支持了亿级用户的流畅沟通。2023年3月,腾讯团队在AVS音频组主动发起启动实时语音编码项目,促进行业的技能进步。2023年6月,AVS事情组会议上,决定立项AVS3P10实时语音编码项目;来自腾讯会议天籁实验室的肖玮卖力推进和掩护。随后,腾讯提交基于Penguins的候选技能;经由AVS音频组交叉验证后采纳。2024年6月,AVS3P10实时语音编码标准正式完成标准化事情,进入公示阶段。
谈及Penguins音频编码器成为行业标准后,腾讯本身如何推进商业化的问题,腾讯标准化高等工程师张亚军在接管媒体群访时表示,新一代语音编码推出之后,随着音视频编解码技能的迭代,势必会有新的技能替代原有技能。在互通互联方面,也会涉及抵家当链上的企业,比如芯片厂商、终端厂商,包括RTC,互联网APP厂商,一起谈论达成共识,末了才有标准发布。
“我们致力于通过此项标准扩大并推动全体行业的持续发展,实际上是与家当伙伴们共同发展、协作,共享市场带来的丰硕成果。”张亚军说,对部分互助伙伴来说,如果投入产出本钱过高,也可以通过互助办法加速推动产品上市,从而推动全体行业加速实现AVS3P10标准运用起来。
采写:南都 林文琪







