这些年来,影象体领域涌现了各种动态随机存取影象体(DRAM)标准,这些标准也都各自进一步发展出不同世代的版本。本文将回顾不同DRAM架构的特色,点出这些架构的共同趋势与瓶颈,并会提出IMEC为了将DRAM性能推至极限而采纳的干系发展路子。
动态随机存取影象体(dynamic random access memory;DRAM)紧张被用来当作电脑的紧张影象体,中心处理器(CPU)便是从该影象体读取指令。这些年来也涌现了不同的DRAM标准,以知足不同需求与运用。为了回应对频宽越来越高的哀求,这些标准都各自进一步发展出不同世代的版本。
IMEC系统影象体架构师Timon Evenblij与计画主持人Gouri Sankar Kar将于本文回顾不同DRAM架构的特色,并点出这些架构共同面对的趋势与瓶颈。他们也会提出IMEC采纳的干系发展路子,以将DRAM性能推升至最终极限。

DRAM的基本观点
位元格(bit cell)
在开始磋商不同的DRAM架构之前,我们先来理解DRAM的基本观点吧!
以下解释以卡内基.梅隆大学Onur Mutlu教授的课程为根本。
所有的影象体都以位元格(bit cell)构成,它是恰好储存1位元的半导体架构,因而得其名。对DRAM来说,其位元格包含了一个电容(capacitor)和一个晶体管(transistor);电容被用来储存电荷,而晶体管则用以存取电容,不论是去读取已储存的电荷量,或是去储存新的电荷。
字元线(wordline)一贯与晶体管的闸极相连,以掌握往电容的通道;位元线则与晶体管的源极相连,以读取位元格内储存的电荷,或是在写入新的数值时供应位元格所需的电压。这个基本架构很大略且体积小,以是制造商可以在单一芯片上非常大量制造DRAM的位元格。
但其缺陷是,单一晶体管不随意马虎在其狭小的电容中保存电荷,电流会泄露至电容或从电容中流出,导致晶体管逐渐失落去定义完善的电荷状态。但是这个问题可以透过定期更新(periodically refresh)DRAM影象体来避免,也便是读取DRAM影象体的内容后再重新写入。
有在专心阅读的读者可能已经创造问题了,当电荷自电容中读取出来时,电荷就消逝了。但是在读取DRAM位元格的数值后,该数值该当要再重新写入,这也是为何DRAM取名含有「动态」一词。
图一: DRAM位元格的示意图
进入位元格阵列
多个位元格可以整合成如矩阵般的大型架构。多条字元线和位元线相互交叉,而每个交叉点都有一个位元格在处理资料。而对某字元线施加电压就能选出所有相应的位元格,这些位元格则会将电流传至各自的位元线。这些电流将微幅改变每条位元线的电压,这个小改变会由感测放大器(sense amplifier)侦测出来。
感测放大器这种构造会将小幅增加的电压放大成高电压(代表逻辑1),并把微幅降落的电压放大成零电压(代表逻辑0)。它也会将各个逻辑数值储存至一个多闩(latches)构造,也便是所谓的列缓冲区(row buffer)。列缓冲区的功能就像是快取影象体,由于位元格内的数值在读取时会消逝,以是在读取某条字元线上的数个位元格时,列缓冲区就会保存读取而来的数值。
感测这个步骤本身便是缓慢的过程,而电容越小、位元线越永劫,感测韶光就会延长。这段感测韶光也决定了DRAM的存取韶光,而在过去几十年间,DRAM的感测韶光一贯坚持不变。每一代DRAM的可用频宽增长,皆是透过在DRAM芯片上利用更多平行处理能力来实现,而不是由缩短存取韶光达成。
但在深入磋商这个议题前,我们先来看看如何利用这些位元格来建构影象体系统。这里谈到的架构常日用于采取影象体模组(memory module)的桌机系统。至于其他DRAM架构,它们并未采取模组的观点,但大多都能以相同的术语来描述其运作模式。
DRAM架构
在处理器上,有部份的逻辑电路是专门设计给影象体掌握器(memory controller)来利用,这些电路卖力管理所有从CPU到紧张影象体的通道。
处理器可能有多个影象体掌握器,而影象体掌握用具备一个或多个影象体通道(memory channel),每个通道包含一个指令或位址汇流排,以及一个资料汇流排(预设状态下宽度为64位元)。
在该通道上,我们可以连接一个或多个影象体模组,而每个影象体模组包含一个或两个秩(rank)。一个秩包含几个DRAM芯片,这些芯片整合在一起就能在每个周期供应足够的位元来添补资料汇流排。
在一样平常情形下,也便是资料汇流排为64位元宽且每芯片供应8位元的储存空间(所谓的x8芯片),一个秩包含8个芯片。如果模组配有超过一个秩,这些秩会多工传输至同一个汇流排,以是不同秩不能同时向该汇流排传输资料。
每秩上的各芯片以相同速率同步运行,也便是说它们会一贯实行完备相同的指令,且不能分开定址。这对接下来要解释的观点来说很主要:每个芯片包含数个影象体库(memory bank)—影象体库便是数个位元格所组成的大型矩阵,而位元格,如上所述,具备字元线、位元线、一个感测放大器以及列缓冲区。由于同一秩内的芯片会同步运行,以是影象体库一词也可以指同一秩内的8个芯片上的8个影象体库。
在第一个案例,我们会利用「实体影象库」一词,而在第二个案例,则偏好利用「逻辑影象库」一词,但实在文献资料并不总是清楚界定这些术语。
在先容这些术语后,我们现在就可以来谈谈不同的DRAM架构和世代,以及它们如何奠基在彼此的架构上进行改良。我们一样会先从个人电脑(PC)的常规DRAM模组谈起。
DRAM标准
常规DDR
DRAM影象体已经存在许久,但我们不会在此上一堂完全的历史课。我们只会在开始谈论双倍数据传输率(double data rate;DDR)世代之前,先快速带过单倍数据传输率(single date rate;SDR)影象体。我们要理解SDR的重点,是其介面与资料汇流排的I/O时脉(IO clock)与影象体的内存时脉(internal clock)频率相同。这种影象体受限于其内部影象体的存取速率。
第一代DDR的目标是在每I/O时脉周期传输两个资料字组(data word),一组在时脉升缘时传输,另一组则在降缘时传输。此传输模式的设计者采取了预取(prefetching)这个观点来实现将传输速率翻倍。一个被称为「预取缓冲区(prefetch buffer)」的构造被插置在DRAM影象体库和输出电路之间,这个小型缓冲区在每时脉周期、同一条汇流排上能够储存的位元数量,是原来SDR设计的两倍。
就x8芯片而言,其预取缓冲区为16位元。我们将此称作「2n」预取缓冲区。以读取一整列DRAM的内存读取周期来说,例如读取一列包含2000行的数据,就会有很多资料能来添补该预取缓冲区。该缓冲区内也会有足够的资料来添补汇流排,在时脉的升降两缘分别通报一组字组。
这个预取观点也适用于DDR2架构,只是其预取缓冲区变成「4n」。如此,设计者就能将I/O时脉提升至内存时脉的两倍,且在每周期内都能将资料汇流排填满资料。以此类推,DDR3同样将预取缓冲区的位元数翻倍(亦即「8n」),而其I/O时脉现在增至内存时脉的四倍。
图二: DDR的预取机制(source:synopsys)
但是,如此类推还是有个极限。将预取缓冲区的传输位元数再度翻倍以达到「16n」,意味着每个读取指令中会有64个位元被通报至处理器16次,此资料量是一样平常快取行( cache line)的两倍(快取行是处理器快取资料的基本单位)。如果只有一条快取行包含有用资料,那么再去通报第二条快取行就会摧残浪费蹂躏很多韶光和能耗。
因此,DDR4并未将预取的位元数翻倍,而采取了另一项技能,叫做影象体分组(bank grouping)。该技能引进多组影象体库,每组都有各自的8n预取缓冲区,另有一个多工器卖力从适切的分组里选取输出资料。如果掌握器的影象体要求能以交错的办法发出,以连续要求来存取不同分组的资料的话,I/O速率一样能发展一倍,变成内存时脉的八倍。
图三: 影象体分组机制的示意图。(source:synopsys)
那么接下来的DDR5会如何发展?其目标也是要将I/O速率翻倍。DDR5呢,计画是引用一项已运用在LPDDR4的技能,我们称之为通道分裂(channel splitting)。
该技能将64位元的汇流排分成两个独立的32位元通道。由于现在每通道只供应32位元的资料空间,我们就能将预取增加至16n,这就能将存取粒度提升至64位元组,刚好即是一样平常快取行的资料大小。如此增加预取的资料量就能再次提升I/O时脉速率。
当然,提升I/O时脉速率并不但是在每周期内以充足的可用资料添补汇流排那样大略,还要面对多种与高频率讯号干系的寻衅,像是讯号完全性、杂讯与功耗利用的问题。这些寻衅可以利用几项技能办理,例如芯片内建终端架构(on-die termination)、差分时脉(differential clocking),以及将影象体与处理器进行更密切的整合。这些技能大多源自其他DRAM架构,也便是LPDDR和GDDR,但我们将更聚焦在一个整合的观点上。
图四: 各代DDR影象体的规格比较。
LPDDR
LPDDR指的是低功耗双倍数据传输率(low power DDR)。该标准的紧张观点,一如其名,便是降落影象体的功耗,而要实现这个目标有很多种方法。
LPDDR和普通影象体的第一个差异,在于它和处理器的连接办法。LPDDR影象体与处理器紧密整合,不论是被焊接在主机板上,与CPU紧邻,或是采取越来越遍及的作法—以封装层叠技能(package-on-package;PoP)直接堆叠在处理器上方(常日是SoC)。更加紧密的整合能让连接影象体和处理器间的导线电阻更小,进而降落功耗。
图五: 以封装层叠技能进行整合的示意图。(source:wikipedia)
第二个差异则是通道宽度。LPDDR影象体没有固定的汇流排宽度,虽然一样平常来说最常见的是32位元。这个规格与普通影象体比较算是较小,因而能节省能耗。
此外,LPDDR影象体以较低的电压运作,这也会大大影响功耗。末了一点,LPDDR藉由多种办法优化影象体更新这个步骤,像是依据温度调适更新、局部阵列自行更新(partial array self-refresh;PASR)、深度省电状态(deep power-down state)等,将LPDDR的备用功耗(standby power)大幅降落了。
我们现在不会深入磋商这些技能,但基本上它们都必须捐躯部份的反应韶光,以换取更低的备用功耗,由于影象体在能够回应要求前,须要一些韶光从省电模式中「醒来」。
如上所述,不同代的LPDDR影象体也采取了预取技能来匆匆进性能。然而,LPDDR4是第一个引进16n缓冲区与通道分裂技能的标准,而LPDDR5估量会是第一个推出影象体分组功能的标准。
图六: 各代LPDDR影象体的规格变革。
GDDR
GDDR亦即绘图用双倍数据传输率(graphics DDR),其命名暗指该标准适用于绘图芯片专用的影象体。如今,这类影象体在任何具备高频宽需求的运用上都相称备受瞩目,由于高频宽便是其焦点所在。
GDDR影象体也与处理器—也便是图形处理器,密切地整合在一起,方法是将之焊接在PCB上。但GDDR影象体并非直接放在GPU上方,由于这样很难达到预定的电容,且在此情形下会很难降温。
与传统DDR芯片(例如32位元)比较,GDDR芯片的频宽更宽,且每个芯片都直接连接至GPU,不须在一个固定64位元的汇流排上进行多工处理。也便是说,绘图芯片上会有更多GDDR芯片,也就会有更宽频的汇流排。
此外,由于这些芯片的接线不须进行多工处理,接线的频率也提高了,就能进一步提升GDDR影象体的I/O时脉频率。透过利用更小的阵列与更大的周边电路,影象体内部的读取速率变快了,I/O时脉速率因而提升,同时降落GDDR芯片的影象体密度。
而更紧密结合影象体与处理器也代表着,绘图芯片的终极电容更加受限,毕竟与大尺寸GPU紧密整合的GDDR芯片数量最多只有12个。
为了提升影象体频宽,各代GDDR架构也采取与开拓DDR时一样的技能。第一代GDDR标准是GDDR2,该标准基于DDR;而GDDR3基于DDR2;接下来是GDDR4,由于这代险些不存在,以是略过不谈;GDDR5则以DDR3为根本,且一贯到现在还是非常盛行,GDDR5采取差分时脉,还能立即开启两个影象体分页(memory page)。
GDDR5X则是匆匆进GDDR5性能的过渡版本,采取了具备16n缓冲区的四倍数据传输率(quad data rate;QDR)模式,但缺陷是存取粒度变大了,但这对GPU来说不是大问题;GDDR6则将通道分裂开来,就像LPDDR4,这样就能在同一汇流排上供应两个更小的独立通道,把存取粒度变小,实现具备16n缓冲区的QDR模式;没错,如此说来,GDDR6该当更适宜叫做GQDR6。
图七: 各代GDDR影象体的规格比较。
3D革命
HBM
HBM和GDDR多有雷同,它也与GPU紧密整合,而且也不放在GPU上方,毕竟我们还须要大量电容并将芯片降温。那么HBM差在哪?
首先,HBM在PCB板的位置并不在GPU阁下,而是在连接GPU与芯片的中介层(interposer)上。目前,常日利用的是被动式硅中介层,亦即一大片不含任何主动元件的硅芯片,只有内连导线。
这种中介层的优点是能在上面布建更多平行导线,而不会耗费大量功率。因此,一个极宽的汇流排出身了,以往这在PCB上是不可能实现的。然而,虽然这种中介层相称随意马虎制造,但毕竟还是一大块硅芯片,因此本钱也较高。
再者,影象体芯片可以相互堆叠,使得芯片在垂直面上能实现小面积仍具备高电容。这些芯片具有大量的硅穿孔,贯串衔接影象体堆内的各个芯片,以及其底部的逻辑芯片。而该逻辑芯片也会贯串衔接到中介层上的宽汇流排,使得影象体芯片和GPU之间具备高频宽。事实上,该汇流排宽度充足,以是影象体芯片的I/O时脉可以降至低频。而降频加上连接至GPU的导线长度极短,这两个特点就能在利用HBM时将每位元的能耗大幅降落(大约三倍)。
图一: GDDR5和HBM的比较。(source:graphicscardhub.com)
图二: HBM的芯片垂直面示意图(source:widipedia.org)
下表显示了不同代HBM的重点规格。目前来说,HBM2仍在供应中。有趣的是,三星去(2019)年发布了新款HBM2e影象体,该产品跳脱常见规格,单位芯片具备更高电容(16Gb),并进一步提高资料传输率至每堆叠410GB/s。
图三: 各代HBM的规格比较表。
HMC
只管美光不再努力开拓HMC标准,我们还是想要轻微先容一下。HMC是常规DDR影象体的3D版,特殊锁定用在未来的伺服器上,虽然这个意见以往在业界并不总是很明确。HBM聚焦在频宽上,因此须要进行高度整合,捐躯电容和芯片扩展性。这便是所谓的「近影象体(near memory)」。
HMC的重点则在电容,以及将更多影象体堆轻松整合至伺服器内,就像利用闲置插槽来将更多DDR影象体安装至主机板一样。这种办法能供应松弛整合,知足整体系统影象体要实现高电容的需求。而这常日被称作「远影象体(far memory)」。
图四: 近影象体与远影象体的比较。(source:eejournal.com)
除了这点雷同之外,HMC是与DDR最不相同的影象体标准,差异比其他任何在本文提到的标准都还大。HMC不该用DDR的汇流排传输办法,而是利用影象体封包,这些封包以高速SerDes链接在处理器与影象体立方体之间通报。如此就可能形成菊链立方体,以有限的内连导线达到更高电容。
此外,影象体掌握器完备整合在每个立方体的底座芯片,而不像DDR把掌握器放在CPU芯片上,也不像HBM那样分置在GPU和影象体堆上。
图五: 比较HMC与HBM构造的示意图(source:eejournal.com)
Wide I/O
Wide I/O是LPDDR影象体的3D对应版本,优先采取极度的整合办法来实现可能的最低功耗。这类影象体该当要直接整合在SoC上方,透过硅穿孔直接连至CPU芯片。如此就能将内连导线变得极短,其所需功耗是所有标准中最低的。
此外,Wide I/O还可能具备极宽的汇流排,端视硅穿孔的密度与尺寸而定。然而,这种极度的整合也哀求在SoC内导入硅穿孔,这就会占客岁夜片宝贵的逻辑芯片面积,因此本钱极为高昂。这大概也是为什么我们还未见过任何采取该技能的商用产品。或许有趣的是,第一代Wide I/O标准采取了软体定义无线电(SDR)介面,但第二代标准改用DDR介面。
总结各种DRAM的特点
我们已经呈现了不同DRAM类型在设计实质上曾做出或将来会做出的一些必要取舍。每种标准终极都采取相同的观点来改进每一代版本的频宽,干系技能例如包含更大的预取缓冲区、影象体分组、通道分裂、差分时脉、指令汇流排优化,以及更新优化( refresh optimization)。
不同标准不过是拥有各自的发展重点,不论是聚焦电容和弹性整合(DDR和HMC),或最低功耗(LPDDR和Wide I/O),还是最高频宽(GDDR和HBM)。看到3D技能带给这几个目标市场的上风,实在颇富意见意义。
将影象体进行紧密的3D整合,是能提升频宽的有效办法,但基本上还是会限定电容。首先,放在靠近运算单元的影象体堆是有数量限定的,再者,每一堆叠能容纳的影象体芯片数量也有限。
未来我们也将会明白,单一DRAM芯片的储存格数已经逼近极限了。随着各式运用对资料量的需求增长,在面对影象体与处理器之间涌现频宽落差的「影象体墙(memory wall)」问题时,影象体密度也成为一个更主要的考量点。
DRAM的未来展望:IMEC不雅观点
为了将DRAM技能推升至其最终极限,并办理影象体墙的技能问题,IMEC探索了两条可能的发展道路。这两条发展路子采取了完备迥异的技能,将须要全新的架构标准来匆匆使下一代DRAM影象体的出身。
第一条发展路子是提升DRAM位元格的动态性(dynamic nature)。如本文开头所述,储存在DRAM位元格电容内的电荷会缓慢流失落。因此,DRAM须要被更新。每列常日64毫秒更新一次。这会增加性能与功耗的常态性包袱(overhead)。
采取铁电材料的电容设计(ferro capacitor)便是一个颇富潜力的办法,它能让DRAM位元格储存电荷的韶光延长,这也有助于减缓选择晶体管(select transistor)对关闭电流的严苛哀求。此外,铁电电容能改进DRAM的资料保存韶光(retention time),这也带来诸多益处,例如可忽略更新的包袱、快速开启或关闭低功耗模式、实现更低的备用功耗,以及进一步推动DRAM的规模化。
在IMEC的铁电研究操持中,他们正在开拓以铁电材料为根本的金属—绝缘体—金属(metal-insulator-metal;MIM)电容器,以探索提升DRAM动态性的路子。为了有效发挥这项技能以达到最低功耗,就须要一套聚焦在这些非挥发特性的全新DRAM架构标准。
然而,要延续DRAM的规模化蓝图以开拓出更多代的版本,上述的发展路子可能并不是最佳选项。由于规模化的问题,芯片密度已开始在约8~16GB的范围达到饱和,要将DRAM芯片的电容扩充至32GB以上变得相称困难。如果我们想要连续迈向规模化,将须要更具毁坏性的创新技能。
个中一个办法因此低泄电流沉积的薄膜晶体管(thin-film transistor;TFT),像是氧化铟镓锌(indium-gallium-zinc-oxide;IGZO),来取代DRAM位元格内的硅基晶体管。这种材料的宽能隙能确保DRAM具备低关闭电流—这是DRAM储存单元晶体管的必要特性。由于我们不再须要材料硅来制造储存单元晶体管,现在就可以将DRAM储存单元的周边电路移至DRAM阵列下方。如此,储存单元的面积就能大幅降落。
下一步我们会考虑堆叠DRAM储存单元。储存电荷所需的电容已经达到规模化的极限,但假如我们能用极小的电容来储存电荷呢?乃至完备不用电容,又会若何呢?
IGZO晶体管具备的超低泄电流就有可能开启一条全新道路,能够建立不须电容的DRAM储存单元。由于电容不再,加上IGZO晶体管所用之材料能与后段制程相容,乃至有机会采取可规模化的制程,将不同储存单元垂直堆叠。这带来许多好处,但也带给不同抽象层各式寻衅,例如制程、技能、位元格设计、影象电路设计与系统架构。
为理解决这些寻衅,IMEC正在思考可能的跨层办理方案,用于未来的高性能DRAM标准,可能供应方法将DRAM影象体进一步规模化,远远超过目前所预期的极限。
免责声明:本文由作者原创。文章内容系作者个人不雅观点,半导体行业不雅观察转载仅为了传达一种不同的不雅观点,不代表半导体行业不雅观察对该不雅观点赞许或支持,如果有任何异议,欢迎联系半导体行业不雅观察。
本日是《半导体行业不雅观察》为您分享的第2401期内容,欢迎关注。
美国|蓝牙|5G|华为|台积电|FPGA|ARM|晶圆