异构集成-Chiplet
DSA常日是作为单片IC开拓和实现的。在单片ASIC(专用集成电路)中,加速器中的所有元件都是在一个硅片上用一种工艺设计和制造的。随着工艺几何图形的缩小,开拓ASIC的本钱变得高得令人望而生畏,例如,在7nm工艺节点上的本钱超过2.5亿美元[14]。在如今的发展过程中,只有非常大的市场容量才能证明定制ASIC的发展是合理的。

与一样平常用场的CPU比较,DSA常日做事于更小的市场。ASIC设计师试图通过整合大量第三方知识产权(IP)核来降落设计本钱。第二种掌握本钱的方法是选择一个更经济的工艺节点,比如16nm,而不是7nm乃至22nm。在太老的节点上,如果要实现运用所需的全部功能,可能会使硅片的面积太大而无法经济地制造。

异构集成系统供应了一种新的设计方案。在这些系统中,产品中的不同组件在独立的裸片上设计和实现,称为chiplet。不同的裸片可以利用不同的工艺节点制造,乃至可以由不同的供应商供应。第三方chiplet可以减少设计韶光和本钱。但这种方法的可行性常常受到片间互连的性能和可用性的限定。直到最近,片间互连的功耗和性能比片内互连要糟糕3-4个数量级。这须要逼迫进行高带宽访问的资源,比如外部内存接口和主机接口不能移出芯片。已经开拓出了几种新技能从大略到高度并行的高速串行接口,来改进片间连接的电源效率。新的封装技能已被开拓,来支持这些不同接口的多芯片封装。
chiplet技能的发展引起了大型商业公司和政府研究机构的关注。Intel、AMD、Intel和Xilinx在多chiplet系统上处理完全的堆栈连接、逻辑数据传输和运用程序实行。他们的事情紧张利用专有协议,并且是封闭系统,全体异构系统由单个供应商掌握。而云打算和网络运营商的能力、性能和本钱哀求将根据加速器在网络中的支配位置而有所不同。运营商也更乐意通过跨多个供应商组合一流的办理方案来组装定制化的加速器。
目前的标准化事情在很大程度上局限于片间通信的PHY(物理层)协议。最著名的标准是基于开放式高带宽存储器(HBM)接口的高性能3D堆叠存储器。美国国防部高等研究操持局(DARPA)的操持[18]专注于创建和标准化chiplet之间的开放连接协议。一个限定是,该操持侧重于支持对国防工业主要但可能与商业发展无关的工艺节点。这将协议限定在与接口的仿照性能有一定限定的工艺上。
DSA的其余两个属性必须在多chiplet架构中办理。首先是内存管理。DSA常日连接到主处理器,完全的运用程序流是DSA本身和主处理器上的数据处理过程的有机结合。操作协同是通过折衷主处理器和DSA之间的内存状态来实现的。一样平常是通过内存同等性协议或由程序员管理的主处理器和DSA之间的数据传输来实现的。另一种办法是通过主机上的操作系统掌握和管理加速器。
在本文,我们呼吁开拓开放体系构造的标准,并开拓可以作为开放体系构造模板和初始平台的原型产品。我们(开放领域特定架构(ODSA)事情组)提出了一种低本钱、高性能的开放加速器架构,以办理开拓DSA的全部需求,包括以下组件:
支持chiplet组之间多种形式的物理通信
基于的协议,用于chiplet之间的同等性和批量数据移动
主处理器集成软件,用于将加速器与主处理器集成
为该方法供应chiplet的行业同盟
我们还建议利用以下组件供应平台原型:
有机基质上的低本钱多chiplet 封装
一种实现所有其他组件互联胡同的基于的通信的网络化chiplet
一个远程SerDeschiplet
一个RISC CPUchiplet
多芯片封装
用于网络加速的主处理器集成软件
图1将ODSA事情组与工业界和政府最近的努力成果chiplet进行了比拟。详细来说,相对付DARPA操持,ODSA侧重于关注技能栈之上的内存管理协议。相对付来自大公司的产品,ODSA提倡一种开放的体系构造,使得来自多个供应商的产品可以互操作。综合起来,这些特性将降落在广泛运用中开拓和支配高能效、高性能加速器所需的本钱和韶光。
图1:ODSA协议栈和焦点区域
开放式体系构造将使供应商能够开拓同类最佳的DSA:
开拓职员在开拓产品时,可以将异构的同类最佳组件结合起来。合并来自多个供应商的裸片。此外,对付性能较低的零件,开拓职员乃至可以重复利用当前以封装IC形式出售的裸片。
该架构将通过在廉价的基底上采取多芯片互连的多种低功耗方法,以低单位本钱供应高性能、多兆比特互连。
该架构将通过支持大量的硬件和软件重用来降落开拓本钱。
传统意义上讲,加速器被实现为单片的ASIC,个中会包括一个裸片上的所有功能,这些功能常日与系统中的其他芯片连接,具有中、远程SerDes接口。这许可在子块之间的通信在功耗和占用硅片面积上达到最优。
ASIC实现趋势
传统意义上,IC设计者在开拓下一代芯片时有两种选择。开拓新芯片的紧张方法是不才一个可用的工艺节点中利用增加的带宽、增加的处理能力(频率、处理核心)和其他特性更新。第二种方法是在同一个工艺节点中开拓其他新特色,以减少新工艺和新工具的投资。
在摩尔定律的帮助下,设计者常日可以不才一个工艺节点将系统中的两个独立的ASIC组合成一个单片设计,从而提高频率。当多个部件组合成一个单一的器件导致接口电源被移除时,这是移动到较小工艺的的动态功耗改进之外的额外好处。不幸的是,随着前辈技能向越来越风雅的功能转移,以实现面积和功率的扩展,实现这些器件的本钱急剧上升。图2显示了随着设计迁移到高等工艺节点,开拓本钱的快速增长。对付许多市场和运用空间有限的加速器器件来说,这种额外的本钱是不可接管的。
为了摊薄开拓本钱,ASIC的设计比实际须要的更大,由于它们须要被设计为知足各种运用所需功能的超集。不幸的是,功能的超集降落了工艺进步带来的好处,导致更繁芜的芯片规格从而须要更多的精力来设计,布局,尤其是要开拓出与更新的较小的工艺相匹配或超过增加的掩模和工艺本钱的软件。纵然这些芯片变得越来越繁芜以降落投资本钱,但由于更繁芜的光刻和工艺(双,三次图案转移,EUV等),每个晶体管的本钱低落也在放缓乃至结束。
有了这些趋势,一个明显的选择彷佛是在旧的工艺节点上布局非常大的单裸片。更新同一进程节点中的器件也会带来寻衅。常日,上一节中所示的较小裸片的工艺几何构造和良率效益使其无法或不可能将两种不同的设计组合成一个芯片,并知足本钱或分划线限定。虽然肃清接口可以真正提高接口功率,但设备的总体本钱增加使这一好处难以实现。
图2:ASIC开拓本钱和晶体管的本钱效率
此外,大型裸片的毛病、光刻工具中利用的分划板的局限性以及与层压板连接的可靠大型裸片的局限性也会影响本钱。图3比较了两个裸片,一个10x10,另一个是20x20。只要利用非常好的d0(0.1),每300毫米晶圆的中,四个10x10裸片良率会比20x20裸片多29%。
图3:裸片尺寸对良率的影响
基于FPGA的设计是加速器的另一个实现方案,且开拓本钱非常低。许多加速器开拓职员的运用程序做事于一个有限的市场,纵然他们能够利用处理器和FPGA实现所需功能并具备显著本钱和功率上风,他们也无法证明这笔用度的合理性。图4显示了利用相同工艺节点的ASIC实现相对付FPGA在面积和功耗方面有显著上风。
图4:ASIC与FPGA中相同内容的比较显示了显著的上风
Chiplet概述
在本文谈论的开放式体系构造中,我们探索了第三种路子,利用低功耗接口(如USR、束线(BoW)或新兴的112G SiP标准)实现多组件裸片的异构集成。通过在不同接口上分层公共协议,可以利用一种基于“构建块”的通用方法,通过大略地改变多芯片模块(MCM)的物料清单(BoM),在基板上创建新的系统。
一些组件块(例如长间隔SerDes块或电-光接口)可以在须要的地方迁移更高等的工艺节点,但是其他组件块可能保留在具有本钱效益的节点中,以减少总体投资。如下图5所示,虽然没有达到技能缩减的相同面积和功率上风,但第三条路径通过显著减少接口面积和功耗,在更具本钱效益的节点中比单片集成供应了相称大的面积和功率节省。虽然多芯片系统常日比单个芯片的本钱更高,但这些面积和功耗节省可以在一定程度上抵消增量投资。
在这个图表中,基本投资被显示为原始设计的参考点,原始设计须要通过组合组件和通过集成或将更大的设计推送到新技能中来添加新功能来进行更新。集成到单个基板上可供应工艺缩减的带来的许多好处,而投资本钱却大大降落。
基板上的集成系统还大大节省了电路板空间和走线延迟,节省了大量系统本钱,常日可以抵消设计和集成MCM所增加的本钱。
图5:比较(多芯片)集成与进程节点紧缩
互连和外部接口
开拓物理分解(异构)MCM办理方案的紧张寻衅之一是在裸片之间移动数据,同时保持具有竞争力的本钱和可制造性。虽然高密度、低本钱的封装办理方案方面在连续取得巨大进展,但在选择与当今可用于大批量制造的封装办理方案兼容的互连技能方面仍旧具有显著上风。此外,利用经由验证的封装办理方案可以提高与外部互连(如PCI Express和以太网接口)的兼容性,这些接口可能是这些SiP办理方案所须要的。
多年来,人们一贯在探求一种“真正的互连”,以便在单个MCM中实现从裸片到裸片的通信。寻衅在于希望优化六个每每相互竞争但相互关联的成分:
1.封装办理方案本钱
2.每单位带宽裸片面积(平方毫米每千兆每秒)
3.每比特功率
4.带宽的可伸缩性
5. 系统级集成和利用的繁芜性
6. 可在任何半导体工艺节点中实现
空想的办理方案是一种可无限扩展(在细粒度分辨率下)、低功耗、高效率、对编程模型完备透明、可构建在低本钱硅和封装技能中的互连技能。一样平常来说,有三类技能做事于这个空间:
传统中长间隔SerDes
不同范围的较短SerDes-XSR或SiP SerDes,USR Femto SerDes
并行接口-高带宽内存(HBM),高等接口总线(AIB),“电线束”(BoW)接口
我们简要回顾了每一种die-to-die的通信技能。
传统SerDes
传统的中长间隔(MR和LR)SerDes(如PCI-Express、以太网等)作为die-to-die互连办理方案具有一些关键上风。这些SerDes接口方向于以合理的速率/功率优化点在硅工艺节点的广泛选择中可用。为了支持传统的操作模式,大多数标准都在设计上包含了带宽扩展的观点。由于这些接口被广泛利用,因此集成到裸片和系统编程模型中每每是非常耐用和易于理解的。集成和利用这些接口所需的封装技能是广泛可用和廉价的。
然而,它们也存在一些明显的毛病。由于这些实现每每是一样平常化的,并且集中于物理上大型系统(例如做事器或企业路由器)中的通信,因此与专用的die-to-die办理方案比较,它们的能量效率偏低且占用的硅片面积过大。模型虽然很好理解,但它的目的是在物理上和逻辑上不同的设备之间进行通信,因此每每包含固定的流掌握和大量的系统开销,这些开销会增加延迟和繁芜性,这在SiP这种空想通信场景中没有太大必要。
XSR/SiP
XSR/SiP是一种相对较新的SerDes接口,它以50Gb/s的速率node1开始引入,并且以100Gb/s的速率探求未来的办理方案时在业界受到了更多的关注。XSR/SiP SerDes代表了一个高度优化的、常日非常高速的串行接口,它是专门为die-to-die通信而构建的。基于传统的SerDes体系构造(集成了时钟数据规复电路),但是具有严格限定的插入损耗预算,这些XSR/SiP链路具有较高的能效和较小的硅片面积,许可在SiP内实现极高带宽的链接。这些每每被视为大略的“比特管”系统可以抽象为非常灵巧的编程模型,但由于须要将前向纠错(FEC)运用于以优化功耗和面积后的100Gb/s速率的接口,因此可以引入显著的延迟。
与其他办理方案一样,基于XSR/SiP SerDes的互连也存在一些负面影响。为了在非常高的速率下支持良好的旗子暗记完全性,须要更高性能(因此更昂贵)的封装基板材料来支持大规模集成。裸片之间的总接口带宽可以非常有效地扩展,但在50或100Gb/s运行所需的电路开销哀求最小接口带宽和增加带宽的单位为几百Gb/s,以实现功率和面积效率目标。末了,前辈的硅工艺节点常日须要支持这些SerDE的设计,限定了系统设计者用精确的工艺实现。
USR Femto SerDes
USR-Femto-SerDes进一步针对特定的die-to-die通信进行了优化,采取了增强的信令方案(时钟转发、高等编码、多比特/多线传输等),以供应极为节能的办理方案。通过利用现有的封装技能,这些接口支持每条线的高数据速率,可以供应带宽和本钱的良好平衡。虽然还不能达到100Gb/s XSR/SiP办理方案所能达到的绝对接口带宽,但USR设计可以供应相称高的功率效率。与XSR/SIP SerDes一样,系统集成模型可以是灵巧且非常轻量级的,但是FEC可能须要以更高的数据速率运用以支持可接管的数据传输完全性。此外,USR串行接口常日是自定义的“强化”宏,常日涉及专有编码方案,这意味着可能须要对特定的过程技能进行自定义设计才能实现它们。与传统技能的互操作性和兼容性也可能带来寻衅。
BoW
实现die-to-die接口的最大略办理方案是一个较大位宽由时钟驱动的并行总线,类似于用于DDR的内存接口。从系统和软件的角度来看,这些设计灵巧、可扩展、易于实现和利用,险些可以在任何硅工艺中实现,在支持低电压的更高等节点上实现极低的功耗。总的来说,BoW办理方案将代表最低功率、最密集的办理方案,但有一个显著的缺陷:一旦接口超过一定的带宽,封装本钱将显著增加。由于目前的有机封装衬底技能的限定,一旦裸片之间的带宽超过每毫米约400Gb/s,就须要转向基于硅的互连介质或高密度有机溶液。
并行接口AIB/HBM
高带宽存储器(HBM)一贯是驱动行业多芯片集成的紧张参与者,它利用硅插接器上相对低速的并行接口,采取非常宽的接口和良好的布线间距。AIB是DARPA芯片项目与行业互助伙伴共同开拓的一种接口,在数据速率和硅桥或插入技能上的风雅间距布线利用方面与HBM大体相称。这两种技能都实现了相对较高的带宽密度,但也须要相对繁芜的硅基互连技能。
比较协议
上面谈论的每个办理方案都方向于优化这些成分中的一部分或大部分,但在许多情形下,最佳办理方案高度依赖于运用。并行接口如BoW、AIB、HBM供应低功耗、低延迟和高带宽,但代价是须要在裸片之间连接许多线路。只有利用昂贵的插接器或桥接技能才能知足布线哀求。相对付并行接口,SerDes供应了类似的带宽,但是会增加一些额外的能力和事务延迟。SerDes已被用于在各种标准中,用有限数量的物理线供应高带宽的off-die通信。然而,大多数SerDes,如那些用于以太网通信或PCI Express虽然面积有效,但能耗太大。USR SerDes供应off-die通信,其优点更靠近于片上互连。然而,由于串行化开销,基于SerDes的通信常日会比片上网络带来更大的延迟。
系统设计职员在选择 die-to-die的互连之前,应考虑其运用的所有干系哀求。图6中的图表总结了每个接口在各种干系参数上的相对上风和劣势,例如优点图——硅和层压基板上的带宽密度与功率和带宽密度的比值。
本文谈论的ODSA通过利用一个通用的数据传输事务协议来抽象PHY协议。ODSA事务层许可系统设计者为其功能选择最佳接口,而无需指定特定的办理方案。如图7所示,多芯片系统基于预算限定、可用性、带宽和功率需求而利用多种接口技能。
图6:比较die-to-die协议
图7:比较新的片间互连技能
基底与封装
在产品和市场需求的驱动下,实现了更高密度的集成,封装技能在过去几年经历了革命性的转变。对封装的哀求已经从纯挚地实现与外部天下的电气和机器连接,发展到现在支持多芯片封装中不同芯片之间的多种接口技能。
多chiplet封装哀求
将多个芯片和/或封装集成到一个MCM中导致了更大的封装尺寸,这导致了更小的旗子暗记线和空间。如果不考虑相应的封装技能,就无法确定用于特定用场的最佳chip-to-chip接口。芯片之间的接口辅导和影响封装技能的选择,特殊是须要集成多个芯片的基板。封装正成为实现多芯片集成的关键领域之一。三个干系问题匆匆使我们选择适宜多芯片设计的封装技能:
chip-to-chip接口
本钱限定和性能哀求
多chiplet 封装的总尺寸
例如,在片间互连中的高线密度可能哀求利用支持高线密度的基板或桥接技能。高带宽存储器(HBM)的启用可能是这一趋势的最好证明——由于HBM只能与ASIC集成在同一个封装中,而且此时只能在2.5D的硅中间层配置中集成。HBM芯片的外部互连是DRAM式的,须要大量的I/O。因此,它的封装利用了间距为55um、直径为25um的微凸块(u-bump)。在HBM2中,u型突出的总数为4,942个。由于ASIC芯片在与HBM芯片通信时必须利用相同数量的I/O,以是ASIC芯片必须利用u-bump,并且u-bump的间距和直径也要类似。由于本日在有机基质中C4和Cu柱的最小许可突出间距分别为130um和90um,硅中间层成为唯一可行的办理方案。
虽然硅基封装技能已经发展为批量制造办理方案,但本钱和繁芜性可能会阻挡它们成为大多数低端运用的精确办理方案。标准的FC-BGA封装是一种较低本钱的选择,支持多种互连技能(SerDes和BoW),但无法实现与硅基办理方案相同的带宽。
这种差异是显著的,由于硅中间层带来高本钱,高制造繁芜性和产量丢失。设计和制作2.5D硅中介层封装的NRE本钱很随意马虎达到100万美元乃至更高,每个芯片的生产组装本钱靠近100美元。比较之下,设计和制造MCM组件的NRE本钱仅为100万美元的一小部分,每个芯片的生产组装本钱也远低于100美元。从经济上讲,摆脱硅中间层并回到传统的MCM封装具有很大的好处。
利用有机基板就像利用传统PCB一样。PCB和有机基板都是通过利用传统的蚀刻工艺制造的,而传统的蚀刻工艺不依赖于半导系统编制造设备的利用,而硅中介层为了实现风雅间距而须要利用半导系统编制造设备。
封装尺寸是第二个须要考虑的问题,它紧张由组件的总裸片尺寸决定。在翘曲和热膨胀问题达到极限之前,球栅阵列(BGA)封装可以可靠地达到75mm x 75mm的尺寸。BGA封装可以焊接或安装在插座上。栅格阵列(LGA)插座,可达到110mm x 110mm的大小。LGA插槽包括一个眇小的叶弹簧,许可发生一些翘曲和膨胀。TE Connectivity拥有一个名为XLA sockets的LGA产品线,该产品线不仅供应了这种能力,还担保了良好的SerDes旗子暗记完全性,可以轻松地处理56G SerDes和112G SerDes。110mm x 110mm是一块大吐司的尺寸,可以容纳很多功能。
传统上,标准硅中介层仅限于光罩尺寸。对付大多数利用的硅制造设备,该掩模版极限在32mm x 26mm的范围内。更高等的办理方案包括缝合多个光罩场以形成更大的硅中间层,或者仅在须要它们的区域利用较小的硅中介层(“硅桥”)。
并行接口集成封装
并行接口,如AIB或HBM,或提出的更通用的BoW接口方法,大大增加了可利用的封装技能的需求。BoW常日比串行办理方案具有更慢的旗子暗记速率,但芯片之间的互连明显更多。根据芯片之间须要支持的带宽大小,可以选择不同的封装技能:
对付芯片之间的低到中带宽哀求,可以利用相同的FC-BGA基板技能,但须要增加的是较小的线缆,而SerDes旗子暗记利用的是较大的线缆(20um线/空间)。
对付高带宽运用,旗子暗记线的数量须要最大化,因此线路和空间须要进一步大幅缩小。可以打印的最小几何图形总是在硅上,因此2.5D(或其他基于硅的技能,如EMIB)可以供应非常高的带宽密度。在实现显著的好处的同时,利用硅作为封装互连媒体也会导致繁芜和昂贵的封装办理方案。
目前正在开拓的一些新技能针对的是“中间空间”——这种办理方案本钱更低,但仍旧能够实现非常高的互连密度。这些办理方案包括在常规层(“2.1D”)的根本上加工额外的细间距层的有机层合板,以及一些新的晶圆级扇出技能,旨在实现HBM哀求的类似布线密度。
SerDes集成封装
USR SerDes互连技能的发展大大减少了半导体芯片之间通信所需的I/O总数。它许可有机基质供应裸片之间的互连,使成熟的MCM技能再次为我们做事。
传统的SerDes,以及不断发展的XSR和USR Fempto SerDes都有一个共同的上风,即旗子暗记线数量更少(运行速率更快)。这使得一个相称标准的封装办理方案成为可能,例如FC-BGA。支持MCM集成的FC-BGA封装技能的紧张新元素现在许可:
支持更大的封装尺寸:
• 对付32/28nm节点,有一种比较守旧的意见是封装大于~55mm会导致卡片装置涌现问题。这一不雅观点在过去几年里有了显著的发展,70mm的封装已经投入生产,80-100mm的封装已经在许多公司的路线图中。
支持超高速旗子暗记(如100G XSR)的电气哀求:
• 须要在封装基板中利用低损耗的电介质,以便在将插入损耗保持在可接管水平的同时延长跟踪长度。
高速旗子暗记,如来自USR或LR SerDes的旗子暗记,可以通过硅中间层穿隧。范例的技能是利用几个相邻的裸片微凸块形成输出,以保持阻抗,从而保持SerDes的传统裸片凸点的旗子暗记完全性。还有更多的微凸点,还有更多的微凸点形成一个更紧密的接地凸点桶。。
然而,由于利用SerDes减少了对线数的哀求,因此可以利用更便宜的玻璃乃至有机基板来构建大型多芯片封装。利用这些基板降落了总的封装开拓本钱。
chiplet间数据传输协议
在大多数加速运用程序中,在一个多chiplet产品中,在多个chiplet上数据路径可能同时运行实行。多个chiplet通过数据传输协议共享数据。相关协议利用硬件支持为软件开拓职员在主机和DSA上供应同等的内存状态。供应这种同等性的本钱与须要实现这种同等性的物理区域成比例。在非常大的范围内,实现同等性的延迟本钱可能非常大,程序员对这种延迟的直接掌握非常有限。有几种用于加速器状态同等性的开放协议,包括CCIX、TileLink和OpenCAPI。
非相关数据构造是相关协议的替代方案。在具有非相关构造的系统中,开拓职员显式地掌握数据传输。TensorFlow是利用非相关数据传输的加速器的一个例子。为chiplet开拓非相关数据构造有两种选择。一种选择是扩展片内构造以进行片外传输。大多数片上构造利用同步全局总线。这些总线不随意马虎扩展到芯片外。第二种选择是利用片对片的非相关数据传输协议进行片对片的数据传输。PCI Express是最常见的片间非相关数据传输协议。但是,在封装中利用它的开销可能很大。Netronome开拓了一种用于非相关数据传输的轻型可伸缩构造技能履行证明要点
本节回顾了原型中利用的前辈技能的证明点。详细来说,我们谈论了USR SerDes、基底和非相关数据传输协议的实现。下文将谈论ODSA的原型实现。
超短间隔SerDes
在过去的几年中,涌现了一种利用硅中介层或硅衬底的主要替代方案。这种选择是低本钱基底和高能效USR SerDes的组合。这些USR SerDes的涌现,特殊是Kandou利用CNRZ-5调制技能的Glasswing SerDes的涌现,使得可以在大型MCM上构建繁芜的系统。CNRZ-5调制技能供应了NRZ形的吸收眼,因此纵然在高速率下也可以利用最小的均衡,从而降落了功率。
(1)在有机基质上的调制-CNRZ-5 vs PAM-4 vs NRZ
选择在有机封装上运行的SerDes上利用的调制技能非常主要。三个干系的选择是CNRZ-5,PAM-4和NRZ。在基底上利用PAM-4调制技能是一个糟糕的选择,由于它具有糟糕的本机缺点性能,必须通过显著的、有时是高延迟的前向缺点掌握(FEC)块和/或大型大功率均衡器来保护。这种糟糕的本机性能的缘故原由是PAM-4在同一链接上的“眼图”有大眼睛和小眼睛的组合,这是PAM-4的三个堆叠的眼睛的结果。来自大眼睛的能量反射到任何毛病和吸收器上。这种反射的能量会使小眼睛闭上。反射是USR/XSR链路的紧张毛病。非反射符号间滋扰(ISI)也存在类似的影响。
PAM-4被下一代的XSR-SerDes所利用,这些SerDes正被开拓用于光学模块运用。在这种运用中,一个大的系统FEC是用来保护光链路的,以是它是免费供应给直接将数据传送到光学链路上的电子链路的。在险些所有其他运用程序中,主要的FEC块都须要与链接一起利用。这意味着他们常日须要增强均衡和FEC。OIF CEI-56G-XSR-PAM4互操作性协议的误码率是1E-9。
NRZ USR Phys功能强大,常日可以在没有FEC的情形下利用。在相同的波特率下,NRZ PHY的pin效率低于CNRZ-5 PHY。由于可用的裸片球数量有限,因此pin效率在USR运用中至关主要。降落的pin效率直接降落了利用NRZ的裸片的边缘带宽。也便是说,市场上有25Gb / s NRZ USR PHY,目前有多家供应商正在开拓50Gb / s NRZ USR PHY。
(2)Kandou的chiplet USR证明点
GW16-500 Quad Glasswing Phy是首批利用和弦旗子暗记的PHY,这是一种创新的PHY技能。Glasswing利用CNRZ-5 和弦旗子暗记,这是一种旗子暗记形式,适宜单端和差分旗子暗记之间的空间。和弦信令可以通过以更低的功耗和更少的pin得到更多的比特,从而使险些每个接口都变得更好。
Glasswing FemtoSerDes PHY采取CNRZ-5(基于弦向旗子暗记的非归零5通道)调制技能,在6根电线上携带5比特。它具有出色的旗子暗记完全性(SI)属性,由于它结合了专门针对SI设计的特定多弦编码器和特定和弦吸收器。良好的SI使Glasswing能够以最小的均衡在低旗子暗记摆幅下运行,从而节省了功率,而差分旗子暗记却没有2倍的线损。
GW16-500 Glasswing PHY供应4套5个25Gb/s通道,通过24根数据线供应总计500Gb/s的带宽,每个方向供应2根时钟线。对系统来说,它看起来像20个共享一个时钟的25Gb/s做事器。PHY还通过利用时钟-数据校准(CDA)和转发时钟来节省功耗。下面的图8显示了Glasswing凹凸贴图,它只霸占了2.4毫米的芯片边缘。
图8:GW16-500-USR凹凸贴图
(3) AQlink chiplet USR证明点
AQlink是由Aquantia公司开拓的利用差分NRZ旗子暗记的USR PHY技能。最小的AQlink构建块是一个收发器,它包括两个用于收发接口的差分对和一个用于时钟接口的差分对。AQlink须要时钟转发的优点是简化了吸收器中的数据规复电路,因此有助于最小化吸收器中的功率和面积。在时钟转发方案中,用于时钟发送器的时钟与发送数据旗子暗记一起转发给链路伙伴收发器。链路伙伴吸收转发的时钟并重新天生与数据旗子暗记中央相位对齐的新时钟旗子暗记。为了限定时钟旗子暗记在封装基板上的凸点和轨迹的数量,每个差分时钟旗子暗记可以由多个收发器利用。这种拓扑的一个例子是AQlink-Quad1模块,如图9所示。AQlink-Quad1模块包括四个差分数据对和一个差分时钟。为了提高碰撞和跟踪效率,几个收发器可以共享一个差分时钟旗子暗记。然而,为了在数据速率为>50Gb/s时得到稳健的性能,建议最多与三个收发器(六个差分对)共享一个时钟旗子暗记。
图9:AQlink-Quad1有四个差分数据和一个差分时钟对的凹凸图
在14nm格芯工艺节点上首次实现了AQlink-Quad1。它支持每个端口20Gb/s- 56gb /s的吞吐量范围,或112Gb/s的发送和112Gb/s的吸收,在范例的有机封装基板(例如GZ41基板材料)上,它在25mm的走线上支持每端口20Gb / s-56Gb / s的吞吐量范围,或统共112Gb / s的发送和112Gb / s的吸收。通过以半速率运行PHY,可以将每个端口的数据速率降落到10Gb / s,个中每个位被复制两次并以连续的位韶光进行传输。AQlink-Quad1在并行侧具有一个64位宽的吸收器接口和一个64位宽的发送接口,其时钟频率最大为1.75GHz。可以向并行接口添加一个可选的2x适配器模块,以将吸收和/或发送宽度增加到以最大875MHz时钟同步的128位。
AQlink-Quad1供应极具竞争力的能量效率,其本身是旗子暗记波特率、跟踪长度、电源电压和温度的函数。收发器在110C下,每端口56Gb/s,超过25mm的跟踪长度时,每比特花费的能量最大。AQlink-Quad1硅已经集成在不同的IC产品中,已经充分验证了工艺、电压和温度(PVT),能够在不该用FEC的情形下供应BER<1E-15,并支持ESD为400V HBM和100V CDM。
几个AQlink模块可以组合在一起,在裸片边缘构建更高吞吐量的数据接口。例如,AQlink Tera是通过将10个AQlink-Quad1模块组合在一起以供应高达1.12Tb/s的吞吐量来实现的。图10显示了AQlink-500G,它是通过将5个AQlink-Quad1模块组合在一起以供应高达560Gb/s的吞吐量创建的。AQlink-500G IP core 2占用1.04mm,0.4mm的高度超过2.6mm的芯片边缘。在它的并行侧,它有320位宽的吸收接口和320位宽的发射接口。利用每个端口的32:64适配器,并行接口可以增加到640位宽的吸收和640位宽的传输。
图10:AQlink-500G凹凸贴图
(4)PIPE PHY接口层
如上所述,为多芯片系统选择PHY协议有多种选择。如果不同的接口可以为更高数据传输层供应一个通用接口,则可以简化系统设计。PIPE接口一贯是PCIe掌握器和PHY之间的关键接口。PIPE的最初草案是由Intel在2002年定义的。自从PCIe演化以来,它已经进行了多次更新。
例如,定义CCIX协议时,其架构师会重用PCIe体系构造的各个部分,包括PIPE接口。市场上的某些或所有CCIX掌握器实现都利用PIPE接口作为链接层和PHY层之间的链接。CCIX添加了一个附加的可选PHY波特率,但是此修正完备在PIPE高下文中完成。十六通道是PCIe和CCIX的高带宽实现的紧张宽度。市场上主要的CCIX掌握器仅支持16通道PIPE接口。
例如,可以利用PIPE适配器在Kandou Glasswing USR SerDes上承载16通道PIPE接口。该模块将CCIX IP掌握器的PIPE接口连接到Glasswing。在启动时,利用自动启动机制将Glasswing的四个和弦中的每个和弦的五个32位子通道绑定在一起。这形成四个160位接口。自动启动将每个和弦的五个子通道对齐为单个160位链接。根据适配器的较长定义,将它们进一步划分为16个40位插槽。
每个插槽的最大容量为512/16 = 32Gb / s。来自PIPE接口的十位数据依次放入相应的插槽中。对付32GT / s(PCIe Gen 5),以25.6 GBaud运行Glasswing。对付25GT / s(CCIX ESM),Glasswing的运行速率为20 GBaud。对付16GT / s(PCIe Gen 4),以半速率模式在12.8 GBaud下运行Glasswing。
利用CCIX或PCIe掌握器上PIPE接口的第4.2节(版本5.1)中的模式。Glasswing和PCIe / CCIX掌握器必须在同一个传输时钟上计时。Glasswing的和适配器时钟发生器必须基于相同的来源。在缓冲中须要考虑所有组件的抖动和漂移。
PCIe和CCIX掌握器都支持重传缓冲区,该缓冲区能够覆盖Glasswing的1E-15缺点率所支持的任何缺点。该缺点率优于为PCIe / CCIX指定的缺点率。
基材与封装
我们回顾了最近的结果,这些结果显示了在多芯片封装中显著降落本钱的潜力。
(1)有机基材
常日,并行接口(例如高带宽存储器)所需的高导线密度哀求利用硅中介层技能。如前所述,硅中间层比有机中间层要贵得多。商业供应商和学术研究职员均已证明,有机中间层可显著提高密度。凸点密度从150um增加到40-80um,导线密度从5um间隔增加,而不是范例的30um间隔。即,低本钱有机衬底可以实现与利用高本钱硅中介层所达到的密度相称的密度。
(2)玻璃核技能
玻璃核技能(GCT)是硅中间层和有机衬底的一种高性能,高性价比的替代品。GCT充分利用了玻璃(优于硅)的优点,以许可利用直径较小的通孔和通孔之间的间距较小。GCT利用玻璃通孔(TGV)连接到再分配层(RDL),以在玻璃基板上创建所需的电路。玻璃的介电性能使其非常适宜低损耗,超高速运用。这许可将IC直接放置在玻璃基板上,并使玻璃适用于高速率多芯片封装。
图11:封装用玻璃基板
(3)封装的光学和微型同轴电缆
为了在不增加功耗的情形下增加封装I / O带宽,已经开拓出了新的微型机载光学模块,可以将其放置在与IC封装非常靠近的位置。Samtec的Firefly天桥系统与光学和微型同轴电缆模块兼容,便是这种办理方案的一个例子。当前,每个通道的速率为28Gb / s。
图12:SamtecFirefly
为了充分利用USR低功率SerDes所带来的速率提高和功率降落的上风,进一步的发展是将跨接式连接器直接置于封装的边缘。
图13:光纤到封装的连接器位置
Firefly连接器可以小到可以放在封装的边缘,如图14所示。
图14:两个Firefly连接器嵌入到一个45mm的方形封装中
此外,由于光模块是如此靠近,因此可以省去光模块中的普通CDR中继器。目前正在开拓56Gb / s的Firefly模块的直接连接版本(光学和电气版本均不才面显示)。
(4)指令驱动的开关构造(ISF):可伸缩的数据传输
常日,ASIC/SoC上对等元件之间的片上通信是同步的。用全芯片通信网络来实现这种同步通信所必需的深流水线会产生很大的面积和功率丢失。ASIC的面积越大,同步片上通信的代价就越大。Netronome开拓并利用了一种基于轻量级的片上数据通信协议。这许可利用一个大略的可伸缩的分布式交流构造来实现全芯片通信。
ISF互连是Netronome网络流处理器(NFP)中的紧张全局总线。如下图15所示,NFP在物理上实现为逻辑块(或岛)的平铺数组。每个逻辑块通过一个大略的BoW接口与其直接的物理邻居连接。ISF上的数据传输因此编程办法编排的。ISF命令语法是可扩展的,支持用于数据传输的命令,乃至支持在另一个岛上的远程总线代理处进行处理,以便在数据所在的远程位置处理数据,从而最大限度地减少数据移动和处理韶光。
图15:可扩展的ISF和数据传输协议
在当前一代硅中,每个逻辑块最多可以有六个DSF接口(K=6)。1GHz下的每个64位宽DSF接口链路在节点处向每个逻辑块供应128Gb/s的双向带宽。因此,理论上每个逻辑块的总吞吐量是K128Gb/s。在图15中的示例中,每个逻辑块可以支持768Gb/s的双向带宽。在由逻辑块组成的裸片(在范例的Netronome产品中)上访问数据的延迟在5到20纳秒之间变革。分布式实现具有以下优点:
• 高带宽:由于可以并行实行许多事务,因此可以实现与交叉开关相称的高聚合带宽, ISF对付每个岛都有单独的数据/命令路径和主数据。通过分布式仲裁,许多隔壁连接可以同时运行。总线时钟频率可以更高,由于所有电线都是本地的。
• 高效节能:由于险些没有全局物理连接,因此ISF耗散的功率更少,并且时钟速率比全局总线快。
• 可扩展性:ISF根本举动步伐可跨多个不同的逻辑块实例进行扩展,支持每秒数十亿命令和万亿字节数据传输的峰值速率,使得这种分布式总线吞吐量可与crossbar相媲美。然而,这种物理分布的总线花费更少的硅裸片面积。
我们建议将这种可扩展的设计扩展到多芯片封装中的片外数据通信。
八种商业模式
chiplet的愿景是一个广泛的生态系统,个中有成千上万个可互操作的chiplet构建在各个foundry中,这些chiplet可供应各种功能,以降落本钱,加快产品上市韶光并提高本钱效益。业务模型将须要支持这一愿景。
为了使这种方法成功,须要建立新的商业模式。集成ASIC供应商已经为集成高带宽存储器(HBM)模块、存储器设备和已知的良好裸片(KGD)系统建立了有效的模型。这个模型可以扩展以供应与来自多个源的组件更繁芜的集成。下面的插图概述了这样一种业务模型,其构造为各种组件的“所有者”。
chiplet模型也可以使总体投资本钱受益。例如,如果一家公司在开拓机器学习加速器方面具有真正的代价,那么他们为每个可能的系统开拓网络接口可能就没故意义。能够通过选择可用的组件将网络接口引入设计中,从而减少了开拓和构建网络接口硬件所需的投资。相反,构建这些网络接口chiplet的公司将从数量增加中受益,从而将其投资摊销到更大的收入流中。
一、chiplet的事情流程
图16中的示例显示了构建组件的选项,个中RF设计公司可能须要在各个节点中集成额外的繁芜逻辑功能和仿照IP。在这种情形下,射频设计公司利用与ASIC供应商的互助关系开拓“产品”,将接口IP和功能构建到产品的一部分。
图16:带有片间接口标准IP的新型射频元件设计流程
下一阶段的组装如下图所示,个中ASIC供应商与外包半导体组装和测试公司(OSAT)互助,利用从以上RF供应商委托的组件以及OEM客户ASIC功能来设计和组装MCM封装。
图17:OSAT基于chiplet的设计流程
当然,这些繁芜的模型须要建立细节,以便能够顺利地办理采购和测试需求的定价问题,但是随着行业在模块中供应越来越繁芜的组件,个中许多路径正变得越来越熟习。
多供应商裸片生态系统的一个构造性问题因此晶圆形式交付KGD的实践。传统的方法包括用墨水点(或在数据库中做一个条款)标记测试失落败的裸片,然后交付标记的晶圆。然后将标记的晶圆切成小块并封装。
在多供应商生态系统中利用此流程的一个问题是,它将每个晶圆的良率暴露给裸片的客户。对付半导系统编制造商来说,芯片良率每每是一个受到严密保护的事实。
在实现多供应商生态系统时,至少有三种办理方案可供给用:
1.从切好的晶圆上取下裸片并将其放在载体上
2.利用可信的、受条约约束的第三方
3.利用芯片级封装中供应的预包装、预测试芯片
这些办理方案中的每一个都办理了良率风险的问题。这些办理方案供应了不同的方法来交付已知良好的设备以进行集成。
二、硅知识产权
在过去的十年里,片上系统(SoC)已经成为除大型数据中央做事器外供应打算能力的紧张办法。PC、条记本电脑、手机、网络网关和各种各样的嵌入式系统都采取了SoC。SoC常日由称为硅IP的各种预先设计的逻辑块组成。
传统上,硅IP的容许方通过预支容许费和单位利用费的组合来供应他们的技能。他们将供应验证测试,并估量与设计缺点干系的任务限额。一个IP供应商将寻求在多个客户之间分摊IP开拓的本钱,这要比SoC供应商自己开拓功能并且是该功能的唯一用户所能得到的价格低。
互连IP有一个独特的哀求,即同一IP必须在链路的两侧事情。系统架构师和采购经理将坚持认为,IP具有灵巧性,可以移植到不同的foundry,移植具有本钱效益,终极互连IP可以从多个IP供应商处得到,或者可以由芯片供应商独立开拓。业务模型将哀求互连IP贡献在全体chiplet组生态系统中可用和可访问。这可以通过现有的标准组织(如OIF或IEEE)、现有的行业同盟(如开放打算平台(OCP))或新的同盟(如USR同盟)来实现。
三、chiplet集成的新机会?
chiplet集成将须要不同于硅IP的业务模型。其缘故原由是,与硅IP不同,chiplet将须要被加工制造且质量担保长达数年乃至数十年。
大型半导体公司可能会连续垂直整合其设计,构建,组装和测试自己的基于chiplet的MCM办理方案的能力。设计面向特界说务的chiplet的较小公司将不太可能具有此功能,而是依赖foundry或封装厂在MCM中进行集成和测试。
chiplet公司须要根据foundry乐意供应的支持,就chiplet的利用寿命向客户供应制造担保。或者,为了更好地担保对终端客户的供应,chiplet供应商可以向多芯片模块开拓商供应制造权转让,以换取版税。
最初,foundry和/或封装厂不仅要代表chiplet开拓商承担制造chiplet的任务,而且还要承担为MCM集成商供应合格的chiplet的任务,然后供应容许或利用费的运营业务根据终极单位的发卖情形返回给chiplet供应商。foundry或封装厂将建立一个chiplet设备目录,可以选择将其集成到MCM中。
随着韶光的推移,随着不同chiplet库存的扩大,系统公司将希望灵巧地稠浊和匹配来自不同foundry的chiplet。很随意马虎想象,新公司可能会形成新的基于芯片的MCM办理方案,并利用全体行业的最佳办理方案。
大型半导体公司的半导体厂商可能会采取一种为自己的设备开拓chiplet技能的模式,在这种技能中,他们有75%到80%的技能是由芯片供应商供应的,而只有在非计策性或没有经济意义的情形下,才会外包特定的技能。可以作为外包芯片开拓候选技能的例子包括:内存技能、SerDes技能、FPGA技能和DSA技能。然后,大型半导体厂商可以建立自己的封装、互连技能和chiplet厂商的专属生态系统。
chiplet设计类似于当前SoC设计但是价格可能会小于完备集成的SoC设备。由于它们是在硅中实现的,以是它们须要对已知的良好的裸片进行测试和终极封装的封装内测试开拓对应的测试程序。必须为重新设计做好准备,并并须要建立机制以便在终极产品生命周期内跟踪硅的修订。
四、开放的加速器和chiplet将驱动新的事情办法
一种方法是将MCM视为一种新的PCB,在这种PCB中,组装、测试和支配可靠的多芯片办理方案须要一个可互操作的组件、互连、协议和软件的生态系统。
MCM并不是什么新鲜事物,并且可以轻松利用现有的许多半导体生态系统进行硅设计,KGD测试,封装设计和组装。商业模式常日无需变动。但是,当MCM包含许多chiplet时,将须要额外的把稳和规格,例如:
针对USR运用的高效链路、协议和软件办理方案
USR标准和互操作性协议
验证互操作性的USR组件认证程序
chiplet上的生态系统调度和已组装的MCM测试程序
大容量MCM组装和测试
产品保修
现场故障剖析及根本缘故原由识别
由Netronome、Achronix、GlobalFoundries、Kandou、NXP、Sarcina和SiFive联合发起的ODSA事情组已经成立,旨在开拓一种开放式架构和干系规范,用于开拓承诺降落硅开拓和制造本钱的chiplet。ODSA事情组还将开始研究可行商业模式的细节,以实现chiplet的愿景。
结论
为了填补摩尔定律的闭幕,须要DSA来处理数据中央和网络边缘的事情负载。然而,目前为DSA开拓定制单片ASIC的方法在经济上已不可行。异构系统中,集成ASIC由来自多个工艺节点和/或多个供应商的chiplet组成,是降落开拓本钱的一种选择。目前开拓完全部系的方法是封闭和专有的。
最近调查的互连和封装技能以及数据传输协议方面的进展显著改进了异构系统。这些进步被用于为DSA提出一种新的开放架构ODSA。与当前的标准化方法不同,ODSA提出了实现DSA所需的完全堆栈的标准,包括数据传输协议。该提案是建立ODSA的原型实现。还审查了如何发展商务模式以支持基于chiplet的制造流程。
ODSA体系构造的紧张优点之一是能够将PHY接口与用于其他处理功能的物理裸片解耦。在chiplet之间利用的事务层是实现这种集成的关键成分。通过利用ODSA模型,开拓职员可以根据性能需求、IP可用性和本钱自由地为每个chiplet选择最佳办理方案。开拓职员可以快速地将支持ODSA的chiplet组装成最好的加速器。
本文摘译自ODSA事情组,由半导体行业不雅观察翻译,电子科技大学黄乐天副教授参与校正,特此感谢!
免责声明:本文由作者原创。文章内容系作者个人不雅观点,半导体行业不雅观察转载仅为了传达一种不同的不雅观点,不代表半导体行业不雅观察对该不雅观点赞许或支持,如果有任何异议,欢迎联系半导体行业不雅观察。
本日是《半导体行业不雅观察》为您分享的第2240期内容,欢迎关注。
★群雄争食5nm盛宴
★eMRAM时期终于要来了?
★华为撬动基站PA市场,为GaN再添一把火
“芯”系疫情|ISSCC 2020|日韩芯片|华为|存储|氮化镓|高通|康佳








