存算一体作为新一代打算技能,在数据运算和存储过程中实现了一体化设计,被认为是后摩尔时期最主要的发展方向之一,将为人工智能的大规模运用供应不竭的算力支撑。在更早之前,中科院和清华大学就在该领域不断研讨,逐步打破。
一、老问题:内存墙和IO墙的桎梏
理解该文前,须要对内存墙和IO墙征象进行根本理解,这两类征象来源于当前打算架构中的多级存储。如图所示,当前的主流打算系统所利用的数据处理方案,依赖于数据存储与数据处理分离的体系构造(冯诺依曼架构),为了知足速率和容量的需求,当代打算系统常日采纳高速缓存(SRAM)、主存(DRAM)、外部存储(NAND Flash)的三级存储构造。
常见的存储系统架构及存储墙 (环球半导体不雅观察制图)
每当运用开始事情时,就须要不断地在内存中来回传输信息,这在韶光和精力上都有着较大的性能花费。越靠近运算单元的存储器速率越快,但受功耗、散热、芯片面积的制约,其相应的容量也越小。如SRAM相应韶光常日在纳秒级,DRAM则一样平常为100纳秒量级,NAND Flash更是高达100微秒级,当数据在这三级存储间传输时,后级的相应韶光及传输带宽都将拖累整体的性能,形成“存储墙”。
IO墙则产生于外部存储中,由于数据量过于弘大,内存里放不下就须要借助外部存储,并用网络IO来访问数据。IO办法的访问会使得访问速率低落几个数量级,严重拖累着整体性能,这即是IO墙。
当代处理器性能的不断提升,而内存与算力之间的技能发展差距却不断增大。业界数据显示,在过去的20多年中,处理器的性能以每年大约55%速率快速提升,而内存性能的提升速率则只有每年10%旁边。并且,当代内存容量扩展面临着摩尔定律的压力,速率在逐年减缓的同时,带来的则是本钱的愈发高昂。随着大数据AI/ML等运用爆发,以上问题已经成为制约打算系统性能的紧张成分。
二、新问题:近存打算与“滩前问题”
据悉,岳志恒该论文题目为Exploiting Similarity Opportunities of Emerging Vision AI Models on Hybrid Bonding Architecture,尹首一教授,胡杨副教授为本文通信作者,岳志恒为论文第一作者,论文互助者还包括喷鼻香港科技大学涂锋斌助理教授,上海交通大学李超教授等。
更早以前,岳志恒就揭橥了题为Understanding Hybrid Bonding and Designing a Hybrid Bonding Accelerator《理解稠浊键合和设计稠浊键合加速器》的论文,可视为上文的前身。该文在3D DRAM根本上,提出了一种利用CSE加速视觉AI模型的稠浊键合设计,并供应了稠浊键合设计的全面剖析,在多种基准事情负载和数据集上评估,该项事情均匀提高了5.69×~28.13×的能效和3.82×~10.98×的面积效率。总体而言,该文涉及了稠浊键合DRAM技能发展、I/O密度的限定和扩展的难题、2.5D TSV前辈封装的浸染等内容。
存储打算随着时期的发展已涌现各种新的问题和限定。在岳志恒的论文中,提到了近存打算与“滩前问题”两个观点。近存打算则是近年行业广泛采取HBM作为办理方案后,再辅以前辈封装办法将HBM芯片与打算芯片在silicon interposer上集成,以此打算芯片与存储芯片近间隔集成封装,实现了打算单元与存储单元之间数据的较短间隔传输,通过“近存打算”提高处理性能。
在此打破下,此种高带宽近存方案仍受到“滩前问题”制约。滩前问题是指,假设打算芯片是一个海岛,则可以放置数据I/O通道的位置为岛的沙滩位置,而沙滩的长度则是可以放置I/O的总长度。当受到旗子暗记串扰等成分约束时,相邻的I/O位置受限,从而导致2.5D近存集成方案下I/O数量无法进一步提升,从而难以提升带宽。
为理解决滩前问题,目前业界正逐步提高打算单元可用带宽,如二维存内打算,便是基于DRAM的存内打算进一步将打算单元集成在存储阵列内部,详细而言,在每个存储Bank周围集成打算单元,Bank数据读出后,被相邻打算单元立即处理,实现了Bank级别的存内打算,有效办理了二维近存方案的滩前问题。
二维存内打算也有着毛病,论文提到,与前辈逻辑工艺比较,集成于DRAM阵列内的打算电路性能有差距、面积代价高。同时,引入的打算单元将挤占DRAM存储阵列面积,造成DRAM自身的存储容量低落。例如,Samsung HBM-PIM在引入存内打算单元后,存储容量减少了50%。
三、清华打破:创新三维存算领悟架构
针对近存架构的带宽瓶颈和二维存内打算架构的工艺瓶颈问题,研究团队首次探索了三维立体存算一体架构方案。此方案通过将打算单元与DRAM存储单元在垂直方向堆叠,单元间以金属铜柱作为数据通道互联,有效办理了“滩前问题”,能任意位置放置数据I/O,大幅提高数据通路密度。DRAM阵列与打算逻辑可独立制造,逻辑电路不受DRAM工艺限定,不影响存储容量。
在本架构中,DRAM阵列由基本DRAM Bank组成,每个DRAM Bank与对应的打算Bank通过hybrid bonding工艺在垂直方向堆叠,二者通过高密度铜柱交互数据。互连铜柱间隔短、寄生容抗小,数据通路等效于互连线直连,每个DRAM Bank与对应的打算Bank构成了Bank级存算一体单元(如图1所示)。
图1,三维DRAM存算一体架构
团队同时探索了Bank级存算一体架构下的设计空间,包括DRAM Bank适配的打算Bank算力,打算Bank的片上缓存大小,三维集成引入的面积开销等;并深入剖析了三维架构的硬件可靠性及散热问题,实现了完全的存算一体架构设计,大幅打破了存储墙瓶颈,对AI大模型运算,供应了有力的支持。
四、相似性感知的三维存算一体架构
为进一步提升系统性能,设计团队提出了相似性感知三维存算一体架构。实验创造,激活数据在存储阵列内连续存储时,局部区域数据具有相似性,本文归结为存储数据的簇相似效应。利用此特性,设计团队提出在三维存算一体架构内,每个打算Bank能够独立且并行地挖掘对应DRAM Bank内数据的相似性,并利用相似数据完成打算加速,提升系统性能。
该存算一体设计战胜了三个关键技能难点:1.如何探求相似数据。由于DRAM Bank空间大,遍历搜索相似数据将引入极大的功耗和韶光开销;2.如何利用相似数据。先前存算一体单元并未针对数据相似性特点设计,无法充分挖掘其带来的性能增益;3.如何平衡相似数据。由于在三维存算一体架构内,不同的打算Bank独立并行,因此系统性能受制于负载最重的打算Bank。本存算一体架构为办理以上困难,提出了三项关键技能:
1、基于热点机制的DRAM Bank相似数据搜索方案
研究团队提出采取热点机制完成快速的相似数据搜索。热点数据为具有区域信息代表性的数据,即其与区域内多数数据有高相似性。本设计采取内容可寻址单元网络不同区域的热点数据,新数据从DRAM Bank读出时先在该单元内快速搜索匹配区域热点数据,此热点数据作为参考值与后续读出数据实行差分操作(如图2所示)。由于数据之间存在相似性,因此差分结果每每具有高稀疏特性,可被用于打算加速。
图2相似性感知的硬件加速单元
2、针对相似数据特性的渐进式稀疏打算单元
当DRAM Bank数据读出并经预处理单元差分操作后,由于热点数据与DRAM Bank内区域数据具有相似性,异或结果每每在高比特位存在大量0值。针对这一稀疏特性,存算一体架构设计了渐进式稀疏检测机构。先将完全数据按权重位置分块,判断数据比特块是否全为0,若全0则直接跳过对应数据块打算,非0部分由计分牌硬件单元迅速定位有效数据。完成稀疏检测后,计分牌单元选择将非冗余数据块送入PE阵列进行打算,从而跳过了稀疏比特,提高了打算效率(如图3所示)。
图3渐进式稀疏打算单元
3、针对数据相似性差异的负载均衡机制
本存算一体架构采取Bank级并行,不同打算单元对应的DRAM Bank内数据相似性可能存在较大差别(如图4所示)。这是由于数据相似性由硬件单元在运行时动态检测,无法在任务映射时提前判别。针对不同打算Bank任务不屈衡的问题,本方案借助DRAM Bank间的数据相似性,对任务负载进行压缩处理,并在不同打算Bank间重分配任务,减少对片间路由网络带宽的挤占,实现Bank级别的负载均衡和性能提升。
图4由于数据相似性差异导致的负载不屈衡
本事情完成了存算一体架构设计、单元电路实现及性能功耗面积剖析。实验结果显示在系统性的AI任务负载上,本架构比较公开宣布的高算力AI芯片,如Wormhole和TPUv3,3D基线实现了6.72倍和2.34倍的吞吐量提升。相似性技能进一步将吞吐量提高了1.21倍。(如图5所示)在能效方面,3D基线相较于Wormhol和TPU实现了3.49倍和2.89倍的提升。数据相似性进一步提升了1.97倍的能效。(如图6所示)
图5有效吞吐提升
图6有效能效提升
五、存算一体新打破,中科院、清华齐发力
在存算一体领域,我国科学院、高校坚持研发研讨。今年2月,中国科学院微电子研究所刘明院士团队研发出基于外积运算的数模稠浊存算一体宏芯片,设计了一种数模稠浊浮点SRAM存内打算方案,提出了仿照与数字存算宏的稠浊方法,结合了利用仿照存算方案进行高效阵列内位乘法和利用数字存算方案进行高效阵列外多位移位累加的优点,达到整体上高能量效率与面积效率。通过残差式数模转换器架构,使数模转换器所需分辨率仅为输入位精度的对数,实现了高吞吐率和低开销。通过基于矩阵外积打算数学事理的浮点/定点存算块架构,矩阵-矩阵-向量打算可通过累加器元件完成。
该打破以“A 28nm 72.12TFLOPS/W Hybrid-Domain Outer-Product Based Floating-Point SRAM Computing-in-Memory Macro with Logarithm Bit-Width Residual ADC”为题揭橥在ISSCC 2024国际会议上,微电子所博士生袁易扬为第一作者,张锋研究员与北京理工大学王兴华教授为通讯作者。该研究得到了科技部重点研发操持、国家自然科学基金、中国科学院计策先导专项等项目的支持。
据悉,同之前的数字存算方案利用矩阵内积事理的大扇入、多级加法器树比较,吞吐率更高。该架构还支持细粒度的非构造激活稀疏性以进一步提升总体能效。该存算一体宏芯片在28nm CMOS工艺下流片,可支持BF16浮点精度运算以及INT8定点精度运算,BF16浮点矩阵-矩阵-向量打算峰值能效达到了72.12TFLOP/W,INT8定点矩阵-矩阵-向量打算峰值能效达到了111.17TFLOP/W。这一研究结果为采取数模稠浊方案的存算一体架构芯片供应了新思路。
此外,去年10月,清华大学集成电路学院教授吴华强、副教授高滨团队基于存算一体打算范式,研制出环球首颗全部系集成的、支持高效片长进修的忆阻器存算一体芯片,在支持片长进修的忆阻器存算一体芯片领域取得重大打破。该研究成果以“面向边缘学习的全集成类脑忆阻器芯片”(Edge Learning Using a Fully Integrated Neuro-Inspired Memristor Chip)为题在线揭橥在《科学》(Science)上。
相同任务下,该芯片实现片长进修的能耗仅为前辈工艺下专用集成电路(ASIC)系统的3%,展现出卓越的能效上风,极具知足人工智能时期高算力需求的运用潜力,为打破冯·诺依曼传统打算架构下的能效瓶颈供应了一种创新发展路径。
吴华强先容,存算一体片长进修在实现更低延迟和更低能耗的同时,能够有效保护用户隐私和数据。该芯片参照仿生类脑处理办法,可实现不同任务的快速“片上演习”与“片上识别”,能够有效完成边缘打算场景下的增量学习任务,以极低的耗电适应新场景、学习新知识,知足用户的个性化需求。