2018年10月16日,FPGA大厂赛灵思(Xilinx)在北京召开了一年一度的“Xilinx开拓者大会 ”(XDF) 。在本次会议上,赛灵思发布了环球首款自适应打算加速平台 (Adaptive Compute Acceleration Platform ,ACAP)芯片系列Versal。与此同时,赛灵思还针对云端和本地数据中央市场还发布了一款功能强大的加速器卡——Alveo。至此,赛灵思的转型大幕正式开启,而人工智能则是赛灵思转型的最大推力。
AI推断需求暴涨,推动FPGA市场加速增长

目前,人工智能可谓是非常的火爆。而数据的爆发式增长,人工智能算法的不断完善以及芯片算力的快速增长,则是推动人工智能运用爆发的三大关键成分。

随着人工智能打算的快速发展,自去年以来更是涌现了一股AI芯片的热潮。由于传统的CPU、GPU已经开始难以知足越来越多的新的需求,并且在AI打算能效上也开始处于劣势。在此形势之下,半定制的FPGA和定制型的ASIC开始迎来了高速的发展。
虽然ASIC芯片的打算能力和打算效率都直接根据特定的算法的须要进行定制的,可以实现体积小、功耗低、打算性能高、打算效率高档上风,但是人工智能仍在快速发展,每天都会有不少新的算法/模型涌现,很多领域都还没有一个标准的算法。
而ASIC芯片则是针对特定算法的须要进行设计的,设计一旦完造诣无法修正,常日一颗ASIC芯片从设计到量产一样平常都须要18-24个月的韶光,这也意味着当这款ASIC芯片量产之时,可能就已经掉队于当下算法发展的18-24个月的韶光。比较之下,FPGA则没有这个问题。
其余,在市场需求变革越来越快速确当下,客户都希望产品能够在快速创新的同时,尽可能的实现快速上市。FPGA作为一种可编程的半定制芯片,其与GPU一样具有并行处理上风,并且也可以设计成具有多内核的形态,当然其最大的上风还是在于其可以通过软件编程的手段变动、配置器件内部连接构造和逻辑单元,完成既定设计功能的数字集成电路。这也意味着纵然是出厂后的FPGA的逻辑块和连接,开拓者若要适应新的AI算法或者实现新的功能运用,只需通过升级软件就可重新配置这些芯片,可以更加快速的适应市场的需求。
虽然GPU也可灵巧的适应各种AI算法,但是能效很低。而GPU虽然被广泛的用于深度学习领域,但是须要指出的是,其紧张被运用在深度学习的演习环节,在推理时对付小批量数据,并行打算的上风不能发挥出来。但而FPGA同时拥有流水线并行和数据并行,因此处理推理任务时候可以时延更低。
根据赛灵思在会上公布的来自Barclays Reseach于今年5月公布的数据显示,目前人工智能市场紧张来自于“演习”的需求,不过自2019年开始来自“推断”(包括数据中央和边缘端)的需求将会持续快速爆发式增长。而“演习”的需求增长将会逐渐放缓,并趋于结束。到2021年来自“推断”的市场规模将会首次超过“演习”,之后2023年将达到“演习”市场的三倍旁边。
其余有数据显示,未来至少95%的AI打算都是用于“推断”,只有不到5%是用于模型“演习”。
赛灵思软件及IP产品实行副总裁Salil Raje
赛灵思软件及IP产品实行副总裁Salil Raje也指出:“今后AI模型必须运用在云端和边缘的模型上,以是未来的模式更多的是推断,而不是演习。赛灵思关注的便是推断。”
而“推断”则是FPGA的上风。其可以在大幅提升推能效、降落功耗(韩国SK电讯的NUGU个人助理做事器原来采取的是GPU来进行AI加速,在采取赛灵思的FPGA之后,实现了每瓦性能比原来的GPU方案提升了16倍)的同时,还可降落精度丢失,同时其还拥有出色的灵巧性和低延时特性。不难想象,随着AI“推断”需求的快速增长,FPGA市场也有望迎来高速发展。
赛灵思VR Ramine在会后接管专访时也表示:“虽然GPU现在在深度学习演习这一块运用非常多,但是它的功耗很高,而且这个市场已经处于比较饱和的状态。而赛灵思并不是特殊关注演习这个市场,我们更多关注的是推断这部分的市场,这个市场仍旧处于初期上升期,尤其在推断在加速运用这方面刚刚处于一个快速增长的阶段,特殊是在数据中央和边缘打算领域。在推断这块市场,GPU用的并不多。虽然CPU有一定的市场份额,但是性能、能效和时延也并不好。所以为什么赛灵思在推断这个领域,包括在聪慧城市、自动驾驶车领域已经有了很多的客户。”
而作为FPGA市场的老大(霸占了近60%的市场份额),赛灵思也将成为最大的受益者。在AI非常火爆确当下,这次赛灵思的开拓者大会也是备受行业内外的广泛关注,会议现场更是人气爆棚,近千人的会场是座无虚席。
超越FPGA,迎来全新物种ACAP
虽然FPGA拥有很多的上风,但是不可否认的是,FPGA的基本单元的打算能力是有限的。为了实现可重构的特性,FPGA内部有大量极细粒度的基本单元,但是每个单元的打算能力(紧张依赖LUT查找表)都远远低于CPU和GPU中的ALU模块。其余,在打算的效率和功耗上FPGA也要低于ASIC。
随着越来越多的运用趋向于既具高速处理又兼具灵巧性的系统,FPGA厂商为了填补纯挚采取FPGA的毛病,开始推出整合了CPU/GPU/RF/FPGA的异构SoC的领悟性方案。
比如赛灵思此前就曾推出了多处理器SoC(MPSoC,在FPGA上整合了Arm的CPU内核,还有Mali系列的GPU等)、RFSoC(将通信级RF采样数据转换器、SD-FEC内核、Arm处理器以及 FPGA 架构整合到单芯片器件中)。而为了能够帮助更多的用户和开拓者供应更为强大的打算平台,今年3月,赛灵思还发布了全新的超越FPGA功能的打破性新型产品——ACAP自适应打算加速平台。
赛灵思软件及IP产品实行副总裁Salil Raje表示:“赛灵思在过去三十年当中一贯引领FPGA行业的发展。FPGA是非常强大的,灵巧度非常好,但是现在我们面临着海量的数据,摩尔定律已经不再有效了,现在没有任何一个单一的打算架构能够适应如此海量的数据。我们须要进入一个异构打算的时期,须要各种各样的打算架构才能办理现在所面临的寻衅。ACAP便是我们为理解决这项寻衅所推出的具有颠覆性的创新型产品。”
据先容,ACAP结合了分布式存储器与硬件可编程的DSP 模块、一个多核 SoC 以及一个或多个软件可编程且同时又具备硬件自适应性的打算引擎,并全部通过片上网络(NoC,Network on Chip)实现互连。
赛灵思在现场展示的112G高速收发器演示
ACAP还拥有高度集成的可编程I/O功能,根据不同的器件型号这些功能从集成式硬件可编程存储器掌握器,到前辈的SerDes收发器技能(最高可支持112Gbps),前沿的RF-ADC/DAC和集成式高带宽存储器(HBM)。
软件开拓职员将能够利用 C/C++、OpenCL 和 Python 等软件工具运用ACAP系统。同时,ACAP也仍旧能利用 FPGA工具从RTL级进行编程。
赛灵思总裁兼首席实行官Victor Peng
赛灵思总裁兼CEO Victor Peng强调:“ACAP是一个全新的产品种别,它不是一个品牌的名称,也不是FPGA。ACAP是可扩展的一体化程度非常高的打算平台,它的硬件和软件都是可编程的。也便是说,你可以用它来实现你想要的架构来优化网络、优化算法,优化运用。也可以在几秒乃至几毫秒内改变这个架构,它能够实现非常低的延时,非常高的通量,和原来产品种别有很大差异。”
环球首款ACAP——Versal系列
在这次的赛灵思开拓者大会上,赛灵思正式发布了其历时4年开放出的环球首款自适应打算加速平台(ACAP)产品——Versal系列。其整合了标量处理引擎、自适应硬件引擎和智能引擎以及前沿的存储器和接口技能,能为所有的运用供应强大的异构加速功能。
赛灵思称Versal ACAP独特架构针对云端、网络、无线通信乃至边缘打算和端点平分歧市场的浩瀚运用供应了可扩展性和 AI 推断功能,将为所有的开拓者开拓任何运用开启了一个快速创新的新时期。
详细来说,Versal系列产品均基于台积电最新的7nm FinFET工艺,是第一个将软件可编程性与特定领域硬件加速和灵巧应变能力相结合的平台。该产品组合包括了6个系列的器件:根本系列( Versal Prime),旗舰系列 (Versal Premium旗舰)系列和HBM系列(能针对哀求最严格的运用供应业界领先的性能、连接性、带宽和集成功能)。此外,该产品组合还包括 AI 核心系列(AI Core),AI边缘系列 ( AI Edge) 和AI射频系列(AI RF),Versal AI系列均采取了打破性的AI引擎。
据赛灵思先容,ACAP的AI引擎是一种新型硬件模块,专为办理各种运用低时延 AI 推断的新需求而设计,同时支持高等DSP实现方案,知足无线和雷达等运用哀求。它与Versal的自适应硬件引擎紧密结合,支持整体运用加速,也便是说软硬件都能调节,从而确保最高性能和效率。
不过,这次开拓者大会上,赛灵思只发布了Versal根本系列和Versal AI核心系列,这两款芯片有望在今年年底流片。而Versal旗舰系列和AI Edge将会在明年上半年发布;AI RF系列将会在明年下半年发布。至于Versal HBM系列可能要等到2021年下半年才会发布。
Versal AI核心系列
据赛灵思先容,Versal AI核心系列可供应Versal AI系列当中最高的打算性能和最低的时延,可实现打破性的 AI 推断吞吐量和性能。该系列紧张针对云端、网络和自动驾驶技能进行了优化(支持L4级别的自动驾驶),可供应业界最广泛的 AI 和事情负载加速功能。
Versal AI 核心系列有5款产品,可供应128到400个AI引擎。
该系列还包括双核 Arm Cortex-A72 运用场置器、双核 Arm Cortex-R5 实时处理器、256KB片上ECC存储器、超过1900个专为高精度低时延浮点运算而优化的 DSP引擎。
此外,它还包括 190 多万个别系逻辑单元以及超过 130Mb 的 UltraRAM、高达 34Mb 的块 RAM 和 28Mb 分布式 RAM 和 32Mb 新加速器 RAM 块,任何引擎都能直接访问,这也是 Versal AI 系列的独特之处,而且都能支持定制存储器架构。
该系列还包括 PCIe Gen4 8 信道和 16 信道以及 CCIX 主机接口、功耗优化型 32G SerDes、多达 4 个集成型 DDR4 存储器掌握器、多达 4 个多速率以太网 MAC、650 个高性能 I/O(用于 MIPI D-PHY)、NAND、存储级内存接口和 LVDS、78 个多路复用 I/O(连接外部组件)和超过 40 个 HD I/O(3.3V 接口)。
以上所有器件均通过业界一流的片上网络 (NoC) 实现互联,具有多达 28 个主/从端口,以低时延供应每秒多 Tb 带宽,而且供应高功率效率和原生软件的可编程性。
Versal根本系列
相对付Versal AI核心系列来说,Versal根本系列最大的不同便是没有了AI内核,取而代之的则是更大面积的DSP,并针对各种事情负载的连接性和在线加速进行了优化。适用于多个市场的广泛运用。
Versal根本系列包括 9 款产品,每款产品都采取双核Arm Cortex-A72 运用场置器、双核 Arm Cortex-R5 实时处理器、256KB 片上存储器(带 ECC)、超过 4000 个专为低时延高精度浮点运算优化的 DSP 引擎。
此外,它还包括 200 多万个别系逻辑单元,结合 200Mb 以上 UltraRAM、超过 90Mb 的块 RAM 以及 30Mb 分布式 RAM,能支持定制存储器架构。该系列还包括 PCIe® Gen4 8信道和 16 信道以及 CCIX 主机接口、功耗优化型 32Gb 每秒的 SerDes 和主流 58Gb 每秒的 PAM4 SerDes、多达 6 个集成型 DDR4 存储器掌握器、多达 4 个多速率以太网 MAC、700 个高性能 I/O(支持 MIPI D-PHY)、NAND、存储级内存接口和 LVDS、78 个多路复用 I/O(连接外部组件)和超过 40 个 HD I/O(3.3V 接口)。以上均通过业界一流的片上网络 (NoC) 实现互联,具有多达 28 个主/从端口,以低时延供应每秒多 Tb 带宽,而且供应高功率效率和原生的软件可编程性。
性能比拟
从上面的先容来看,作为目前赛灵思ACAP的首款产品Versal系列,其各项指标和参数都很出色。那么其AI性能与目前主流的高端CPU和GPU比较又如何呢?
根据赛灵思公布的数据显示,在时延不敏感的AI推断上,基于GoogleNet-V1网络模型测试,Versal的CNN性能是英特尔Xeon Platinum 8124 CPU的43倍,是Nvidia V100 GPU的两倍。
如果要将时延掌握在7ms以内,那么Versal系列的CNN性能上风将会进一步提升,达到英特尔Xeon Platinum 8124 Skylake CPU的72倍,Nvidia V100 GPU的2.5倍。
如果将时延掌握在更低的2ms之内,那么Versal系列的CNN性能将达到Nvidia V100 GPU的8倍。
以基于GoogleNet-V1网络低于2ms时延的图片识别测试下,Versal核心系列可以实现每秒22500张图片的识别,比较Nvidia今年发布的Tesla T4 GPU的性能(每秒3500张)赶过约6.5倍。
如果再加上赛灵思收购的深鉴科技的“剪枝技能”的加持,Versal核心系列在2ms以内的低时延图像识别上的性能可进一步提升至每秒29250张,比较Nvidia Tesla T4 GPU的性能可赶过8倍以上。
Versal工具和软件
软件开拓者、数据科学家和硬件开拓者均可通过C/C++、OpenCL 和 Python 等软件工具运用对Versal ACAP的硬件和软件进行编程和优化,同时,ACAP也仍旧能利用 FPGA工具从RTL级进行编程。开拓者用一个界面就可以接入和掌握各种引擎。这都要归功于其符合业界标准设计流程的一系列工具、软件、库、IP、中间件和框架。
不过,详细的软件编程工具须要等到明年才会发布。
供货情形
赛灵思目前正通过早期试用操持与多家关键客户互助。Versal根本系列和Versal AI核心系列将于今年年底流片,估量2019年下半年上市。
加码数据中央,Alveo速器卡发布
除了发布了全新的Versal系列之外,赛灵思这次还首次推出了针对数据中央设计的功能强大的加速器卡——Alveo。用户在通过Alveo运行实时机器学习推断以及视频处理、基因组学、数据剖析等关键的数据中央运用时,有望以较低时延实现打破性的性能提升。
这次赛灵思发布了两款Alveo加速卡:Alveo U200 和 Alveo U250。不过这两款产品并不是采取Versal系列芯片,而是采取的是赛灵思UltraScale+FPGA方案。不过,其与所有赛灵思技能一样,客户能对硬件进行重配置,从而针对事情负载迁移、新标准和更新的算法进行优化,而且无需支付替代产品衍生的本钱。
据赛灵思先容称,Alveo加速器卡针对各种类型的运用供应显著的性能上风。就机器学习而言,在GoogLeNet V1网络下,Alveo U250实时推断吞吐量比英特尔Xeon Platinum Skylake CPU(c5.18xlarge 实例)赶过20 倍,相对付Nvidia V100 GPU等固定功能的加速器,能让2ms以下的低时延运用性能提升4倍以上。
此外,Alveo 加速器卡相对付 GPU 能将时延减少 3 倍,在运行实时推断运用时供应显著的性能上风。比如在CNN+BLSTM 语音转文本运用时,可从根本上得到加速(Alveo U250 或 U200 + Intel Xeon CPU E5-2686 v4 的运行速率是 Nvidia P4 + Xeon CPU E5-2690 v4 的 4 倍);数据库搜索等一些运用可从根本上得到加速,性能比CPU(EC2 C4.8xlarge 实例)高90倍以上。
“Alveo加速器卡第一是速率快;第二是架构和算法灵巧多变;第三是随意马虎访问、易于利用。”对付Alveo加速器卡的特点Victor Peng总结到。
据赛灵思先容,Alveo已经得到了互助伙伴和 OEM 厂商生态系统的支持,OEM 厂商开拓和认证的关键运用涵盖 AI/ML、视频转码、数据剖析、金融风险建模、安全和基因组学等。Algo-Logic Systems Inc、Bigstream、BlackLynx Inc.、CTAccel、Falcon Computing、Maxeler Technologies、Mipsology、NGCodec、Skreens、SumUp Analytics、Titan IC、Vitesse Data、VYUsync 和 Xelera Technologies等14家生态系统互助伙伴开拓完成的运用可立即投入支配。此外,顶级 OEM 厂商也在同赛灵思互助,认证采取 Alveo 加速器卡的多个做事器 SKU,包括 Dell EMC、Fujitsu Limited 和 IBM 等,此外还有 OEM 厂商会加入进来。
赛灵思的数据中央副总裁 Manish Muthal 指出:“ Alveo加速器卡的推出进一步推进了赛灵思向平台公司的转型,使不断增长的运用互助伙伴生态系统以比以往更快的速率加速创新。我们很高兴客户对Alveo加速器的高度兴趣,也很高兴与我们的运用生态系统展开互助,共同向客户推出采取Alveo的各种可产品化的的办理方案。”
其余值得一提的是,在这次赛灵思开拓者大会上,华为和浪潮也发布了基于赛灵思的FPGA打造自己加速卡产品。
转型平台厂商
赛灵思总裁兼首席实行官(CEO)Victor Peng 表示:“自从赛灵思发明FPGA到现在已经有三十多年的韶光,FPGA也变得越来越强大和繁芜,我们现在已经超越了FPGA。赛灵思已经不再是一家FPGA的企业,我们已经转型为一家面向灵巧应变、万物智能天下的平台公司,而且我们这个转型也要超越FPGA这个器件来打造全体平台,由于这将使得我们能够更好的知足客户的需求,尤其是在当今这个高速变革时期。”
为了顺利的转型为一家平台型公司,Victor Peng将“数据中央优先”、加速核心市场发展和驱动灵巧应变的打算这三个方面作为了赛灵思公司计策转型的进一步深入。
在这次开拓者大会上,赛灵思发布的环球首款自适应异构打算加速平台ACAP Versal以及针对数据中央的Alveo加速器卡,也正是赛灵思转型平台厂商新计策的进一步深化。特殊是ACAP更是被赛灵思寄予厚望。而后续赛灵思也必定会推出基于ACAP的加速卡。而这又将进一步助力赛灵思的数据中央优先计策。
“ACAP将实现高通量、可扩展、低延迟的性能,目前可以运用在很多的运用处景当中。我们认为ACAP未来将会险些进入到每一个市场当中。” Victor Peng在赛灵思开拓者大会上非常有信心的说到。
作者:芯智讯-浪客剑








