北京韶光 8 月 21 日,在美国旧金山举行的芯片行业顶级学术会议 HOTCHIPS 上,阿里巴巴达摩院发布了新一代 AI 语音 FPGA 芯片技能——Ouroboros,该技能能将语音天生算法的打算效率提高百倍以上。这是业界首款专用于语音合成算法的 AI FPGA 芯片构造设计。
作为芯片领域的顶级峰会之一,HOTCHIPS 与其他顶级半导体会议的显著差异之一便是更侧重于商业运用,而非仅仅是学术项目,这次阿里发布的 Ouroboros 便是面向语音合成领域商业运用的 FPGA 加速打算方案。
阿里达摩院科学家在 HOTCHIPS 大会现场发布自研语音芯片技能
针对 ASIC 实现的性能仿真预估表明, Ouroboros 的设计可以实时运行 WaveNet 等业界前辈的笔墨转语音(TTS,Text-to-Speech)算法 ,实现实时语音合成。

算法很好但难以进行实时打算是语音芯片的行业难题。Ouroboros 的打破在于:利用了端上定制硬件加速技能,替代云端做事器,有效避免了对网络连接和云端做事的强依赖性,办理了这一问题。
Ouroboros 事理图(来源:阿里达摩院)
以打算量最大的 AI 语音合成算法 WaveNet 为例,为了天生 1 秒的语音,CPU 和 GPU 须要花费 50 秒的打算韶光,完备无法知足语音合成对实时性的哀求。但 Ouroboros 在 FPGA 环境下只须要 0.3 秒,大大提升打算效率,同时将整体做事本钱降落 10 倍以上。
WaveNet 实践结果(来源:阿里达摩院)
为了达到这样的效果,达摩院的研发职员从硬件到软件进行了诸多协同设计与改良:
(来源:阿里达摩院)
Ouroboros 的紧张技能在硬件层面,达摩院的研发职员采取了片上环路构造支持迭代算法的思想,通过缓存和掌握器直接在片上实现语音的循环天生,而不须要再从片外反复发送打算指令。这样的设计避免了大量进行打算核启动和数据搬运的开销,是针对自回归形式的语音合成模型所特有的构造,因此研发职员形象地利用衔尾蛇(Ouroboros)为其命名。在软件层面,研发职员针对硬件构造进行优化算法的打算流程,有效利用缓存行列步队和稀疏化,在担保打算等效性的条件下进一步提升打算速率。比较于其他纯粹从算法角度改良的方法,达摩院的软硬件结合方案没有额外的模型演习开销,并且可以同时支持 WaveRNN、LPCNet 等其他语音合成模型,兼顾高性能与高灵巧性。这次阿里发布的 Ouroboros 技能,同样适用于达摩院于今年 7 月发布的新一代的语音合成算法 KAN-TTS ,该算法将商用系统里的合针言音与原始语音的相似度提高到 97% 以上。据理解,Ouroboros 芯片技能除了语音合成之外,还将支持 AI 语音识别。基于 Ouroboros 研发完全的语音 AI 芯片,有望率先在天猫精灵上落地。