首页 » 通讯 » 亚马逊Alexa运算迁移至自家芯片:吞吐量提高30% 成本下降45%_亚马逊_实例

亚马逊Alexa运算迁移至自家芯片:吞吐量提高30% 成本下降45%_亚马逊_实例

admin 2024-11-12 06:40:49 0

扫一扫用手机浏览

文章目录 [+]

亚马逊已经将大约 80% 的 Alexa 语音助手处理迁移到 Elastic Compute Cloud (EC2) Inf1 实例上处理。
和利用传统 GPU 的 G4 实例比较,Inf1 实例将吞吐量提高了 30%,本钱低落了 45%。
亚马逊认为,它们是推断自然措辞和语音处理事情负载的最佳实例。

Alexa 的事情办法是这样的:实际的智能音箱(或者扬声器)可以不做任何操作,所有任务都交由 AWS 处理器完成。
或者更准确的说,一旦 Echo 设备上的芯片检测到唤醒词,系统就会启动。

它开始实时将音频流传输到云。
在数据中央的某个地方,音频被转换为文本(这是推理的一个示例)。
然后从文本中提取含义(另一个推理实例)完成所须要的所有操作,例如获取当天的景象信息等等。

亚马逊Alexa运算迁移至自家芯片:吞吐量提高30% 成本下降45%_亚马逊_实例 通讯

Alexa 完成您的要求后,她须要将答案传达给您。
然后,脚本被转换为音频文件(另一个推理示例),并发送到您的Echo设备。
覆信播放文件,以便于你出行的时候是反对议带上雨伞。
显然,推理是事情的主要组成部分。
绝不奇怪,亚马逊投入了数百万美元来制造完美的推理芯片。

Inferentia 芯片由四个 NeuronCore 组成。
每个实现一个“高性能脉动阵列矩阵乘法引擎”。
每个NeuronCore或多或少地由以线性,独立办法处理数据的大量小型数据处理单元(DPU)组成。
每个Inferentia芯片还具有巨大的缓存,从而提高了延迟。

相关文章