MCM GPU成为趋势
以去年AMD发布的首个MCM GPU Instinct MI250X为例,这款GPU集成了两个GPU Chiplet和128GB的超大HBM2e内存,在算力和带宽上都做到了极致,实现了383TFLOPS(FP16)和3.2TB/s的恐怖成绩,无疑是专注AI的各大超算中央梦寐以求的加速器了。同样,英特尔也在其Ponte Vecchio GPU上采取了MCM。

Instinct MI250X GPU / AMD

虽然MCM已经由AMD和英特尔两家GPU厂商开始推进了,但目前来看英伟达的动作比较小,虽然有干系的研究,但还未拿出商用的MCM产品。不过以上都是面向HPC/AI市场的GPU,消费级的GPU是否也会迎来MCM的GPU呢?据现在的传闻,AMD极有可能不才一代RDNA3架构的高端GPU中用上MCM。
但消费级运用与HPC/AI运用又属于截然不同的场景,后者利用多个GPU跑负载是很常见的情形。但消费场景中多GPU已经相称少见了,在兼容性上肯定会大打折扣,以是迈出这一步很可能会带来一定的风险。
IP公司眼中的MCM
MCM不仅为GPU公司带来了更多设计灵巧性,也让一众IP公司找到了新的商业模式。比如IP公司Credo就供应稠浊旗子暗记DSP IP,用于客户的ASIC设计,以Chiplet的形式集成到SoC上,打造更低功耗更高性能的MCM。随着数据中央的网络架构逐步趋向于400G以上,芯片连接性的哀求也在逐步升高。为此,Credo在去年底推出了全新的3.2Tbps BlueJay重定时器chiplet,通过64通道56Gbps PAM4 LR的DSP,供应了强大的系统级连接性。
BlueJay Chiplet / Credo
BlueJay虽然只因此台积电28nm工艺打造,但担保了性能和功耗的哀求,与其前辈工艺方案Nutcracker比较也降落了本钱。此外,由于BlueJay与主机端MCM中SoC核心的通信是通过超低功耗的BoW D2D接口实现的,其接口已经针对台积电的CoWoS封装技能做了优化。这种将SerDes功能从片上(on-die)转向片外(off-chip)的做法,显著增加了ASIC的可利用面积,设计者可以将这一部分多出来的面积用于实现更高的打算性能。
AI在MCM上的创新
同样,AI也在MCM上找到了新的办理方案。我们已经看到了大的机器学习模型通过演习大数据在多个领域展示了惊人的成果,比如打算机视觉、语音识别和自然措辞处理等。为了减少机器学习加速器的本钱,业界引入了不少设计创新,个中之一便是MCM。
Coral TPU / 谷歌
英伟达的Simba,谷歌的TPU,都用到了MCM的设计。谷歌的Coral TPU是一个用于边缘真个机器学习推理加速器,在极小的占用面积下可以实现4 TOPS(INT8)的峰值性能,能效比可达2 TOPS/W。英伟达的Simba同样是一个用于推理的芯片,但规模比谷歌的Coral更大,全体MCM由36个Chiplet组成,每个都能实现4 TOPS的峰值性能,将全体芯片算力提升至最高128 TOPS,能效比更是高达6.1 TOPS/W。
一来在设计上,设计小芯片的难度比一整块芯片要低,二来小芯片由于面积较小,生产良率也更高。这都证明了这种方案既可以减少设计和生产本钱,也能达到与单个大芯片近似的性能与能效。
但正如我们上文提到的MCM GPU兼容问题一样,机器学习中MCM也并非毫无痛点。由于MCM中单个Chiplet的内存远比单个大芯片要小,以是大型机器学习模型的演习与推理都须要将矢量打算的数据流图在Chiplet上进行划分。多芯片进行划分便是为了将运算分配给Chiplet,从而将某个性能指标最大化,比如说吞吐量。但与单芯片不一样,MCM中小芯片的数量以及神经网络的节点数量增加,都会让搜索空间成指数级增长,从而降落效率,更不用说由于MCM的硬件特性,可用的划分方案并不多。以是这种划分的质量,直接影响到了MCM芯片设计的优化。
为理解决这个问题,谷歌的研究员们开拓了一种深度强化学习的划分方案,同时利用一个约束求解器来专门办理MCM封装的机器学习模型划分问题。他们的方案可以通过预演习来遍及到未知的输入图,通过对生产级BERT模型的硬件评估,他们得到了超过随机搜索和仿照退火等现有方案5%以上的吞吐量。更主要的是,这种方案具备极佳的迁移学习性能,利用预演习的模型可以有效提升样本效率,将搜索韶光从3个小时减少到了9分钟。









