亿铸科技熊大年夜鹏：大年夜模型时代AI大年夜算力芯片急需破除“存储墙”_模子_芯片

文章目录 [+]

编辑 | GACS

9月14日~15日，2023环球AI芯片峰会（GACS 2023）在深圳南山圆满举行。
在首日开幕式上，亿铸科技创始人、董事长兼CEO熊大鹏分享了题为《存算一体超异构AI大算力芯片破局大模型时期“芯”寻衅》的主题演讲。

亿铸科技熊大年夜鹏：大年夜模型时代AI大年夜算力芯片急需破除“存储墙”_模子_芯片通讯

熊大鹏提出，大模型时期下的“芯”寻衅，比起算力如何增长，更大的问题在于数据搬运能力的剪刀差越来越大。
数据显示，打算能力与数据搬运之间的鸿沟，大概以每年50%的速率扩大。
大模型涌现后，数据访存在全体打算周期里的占比，达到了95%以上乃至更高。

亿铸科技认为，随着AI运用进入到2.0时期，要办理AI打算芯片面临的诸多寻衅，关键在于回归阿姆达尔定律并成功破除“存储墙”。
据悉，亿铸科技原型技能验证（POC）芯片已回片，并成功点亮。
该POC是首颗基于ReRAM的面向数据中央、云打算、自动驾驶等场景的存算一体矩阵POC，能效比超过预期表现，进一步验证了公司的技能实力和市场潜力。

以下为熊大鹏的演讲实录：

大家好！
我去年也参加了AI芯片峰会，但今年情形不一样，由于今年大模型的火爆给人工智能芯片等各方面都带来了巨大的变革。
下面我将先容亿铸科技存算一体超异构AI大算力芯片怎么去应对大模型时期的“芯”寻衅。

一、数据搬运，大模型时期的“芯”寻衅

大模型的参数规模，像GPT-3目前是1750亿，未来可能将会迎来几倍、几十倍、上百倍的增长。
这样的增长带来的好处是，大模型的容量、智能等各方面将会超过人的大脑。

但与此同时，大模型时期也对我们提出了很多寻衅跟需求。
第一，算力如何提升。
目前来说，人们针对大模型的芯片制造工艺或是其他各方面投入基本都已经到了极限。
第二，大模型对打算能耗的需求非常大。
AMD CEO苏姿丰说过，如果没有新的技能涌现，按照目前的打算效率，12年往后，也便是2035年，每一台Zetta级别的超级打算机所须要的能耗将会相称于半个核电站。

从算力的角度来说，支撑底层算力的摩尔定律现在几近闭幕。
但是我们的模型越来越大，算法越来越繁芜，对算力的哀求也越来越高，这将是一个很大的寻衅。
AI芯片，或者说大算力AI芯片，将来的路该怎么走？

除了算力以外还有一个更大的问题——数据搬运能力的剪刀差越来越大。

基于摩尔定律，算力每年大概以60%-70%的速率提升。
但是对付数据搬运，无论是从外部的存储器搬运到芯片内部，还是芯片内部的数据总线，其物理线速率的提升基本是每年10%以内。
这就导致打算能力与数据搬运之间的鸿沟，大概以每年50%的速率扩大。

在过去十年，单位打算力所须要和所能获取的数据搬运带宽，差距扩大了3倍。
对大模型来说，实在问题的根源就在于，怎么把数据不被堵塞地从外部搬到内部。

下图这个模型，我已经在很多地方讲过。
这里的F值，指的是数据访存在全体打算周期里的占比。

在过去存算分离的冯·诺伊曼架构下，做AI芯片或是跟AI芯片干系的运用时，F值就已经达到80%-90%。
这意味着大量的能耗是卡在数据搬运访存上的，造成了性能瓶颈。
在大模型的时期背景下，F值更是能达到95%。

这意味着如果数据搬运的速率不提升，纵然我们将来用更好的工艺去获取更高的算力，对实际性能提升的百分比实在非常有限，可能只有10%-20%。
这也是为什么到本日，更多的公司开始把把稳力集中在办理数据搬运的问题上，比方说大量地采取HBM、 3D RAM封装技能等等。
这些办理方案会带来更好的片间互连、板间互连，能够比较有效地去办理数据搬运问题，从而非常有效地提升实际性能。

二、数据搬运的根本办理方案在于存算一体

这些传统的办理方案的确有效。
我们看F值就知道，如果把数据搬运效率提升1倍，不须要用5纳米、3纳米、1纳米工艺，实际打算性能也能提升1倍。

但是要真正办理这个问题，我们认为根本的办理方案是存算一体。
存算一体相称于在存储单元的根本上，把打算的部分加上去，模型的参数搬运环节基本上就免掉了。

比方说1750亿参数的GPT-3模型，每一次推理打算的时候都要把350Gbyte的数据搬到芯片上，才能做一次推理、算一次Token。
如果是演习，这个数据量会更大。
但如果这个数据不须要搬运，就意味着数据搬运的瓶颈根本不存在，打算的效率会高很多。

存算一体的技能现在也逐步被大厂所接管，比如AMD已经宣告他们将会以存算一体作为核心，结合异构的办法，实现既兼顾通用性，又能够有非常强的打算能力的芯片。

还例如特斯拉，最近宣告其基于近存储打算的超级打算机Dojo1已经准备好了，业界对此评价非常高。
摩根士丹利说，光是芯片就有可能给特斯拉带来5000亿美元市值的增量。

三星也宣告将基于DRAM做存算一体，他们认为在不久的将来，存储器在AI做事器中的主要性将超过英伟达GPU的主要性。
三星估量到2028年发布以存储器为中央的超级打算机。
言下之意便是要做基于存算一体的超级打算机。

亿铸科技近期成功点亮大模型时期存算一体AI大算力原型技能验证芯片（POC）。
该POC芯片基于成熟工艺制程，在100W以内，单卡算力可以打破P级，也便是1000T。
其余，该POC芯片的能效比已经远超英伟达5纳米工艺制程的H100系列4T/W旁边的能效比。

面对ChatGPT等大模型带来的AI算力寻衅，亿铸科技在年初提出“存算一体超异构”，以存算一体（CIM）AI加速打算单元为核心，以统一ISA指令集和架构将不同的打算单元进行异构集成和系统优化，既能实现更大的AI算力以及更高的能效比，还可以供应更好的可编程性和更为通用的运用生态。

通过前面讲到的CMOS工艺、新型存储器、存算一体的架构、Chiplet、前辈封装，我们能够将芯片有效算力做到更大，参数能放置更多，支持更大规模的模型，能效比更高，软件的兼容性和可编程性更好。
其余很关键的一点，便是芯片的发展空间非常大。
目前该POC芯片采取了传统工艺制程，未来，不管是容量还是性能，比较守旧地说，至少拥有几倍或者十倍以上的成长空间，这是可以预期的。

三、AI运用进入2.0时期，存算一体成为AI大模型算力发展“灵丹灵药”

在强AI的大模型时期，一定范围内，大模型会替代传统的小模型。
由于大模型突出的泛化性，将会低成本地催生新的AI运用处景，并且在各个垂直领域能够快速地落地和推广。
其余，我们认为大模型将来有可能会以IAAS（Intelligence As A Service，智能即做事）的产品形式赋能各个行业。

此外，极高的AI研发投入带来的副浸染，是“通用智能寡头”的格局。
但出于大模型的泛化性，在详细的垂直行业、垂直领域反而有利于通用人工智能落地。
将来在各个领域，我们认为会涌现“百花齐放”的格局。

总的来说，AI运用已经进入到了新的2.0时期。
目前最突出的问题，便是大模型导致的巨量数据搬运问题，这个问题的根源来自于存储墙。

现在性能最好的H100芯片，如果用在参数总量为350Gbyte的GPT-3模型上做推理打算，数据搬运每秒只能搬6次旁边。
这就意味着用H100，1秒大概只能算6个或10个Token。

但从打算能力上来说，这样的数据搬运实在只占用H100打算能力中很少的百分比，大部分算力是空余的。
如果把这个存储墙问题办理，H100的实际效能可能至少提升10倍以上。

我们认为在大模型时期，AI大算力芯片的竞争核心会逐步转向破除“存储墙”。
这部分谁办理得好，谁就会在未来AI芯片竞争格局里占上风，Amdahl Law阿姆达尔定律早已揭示了这点。

在大模型时期，数据搬运已经霸占全体打算周期90%以上。
这意味着算力本身对付实际算力来说，主要性反而不是那么高，更主要的是办理数据的搬运。

由此出发，我们认为存算一体超异构的AI芯片架构，天然地适宜AI的并行打算。
换句话说，存算一体是为AI大模型而生的打算架构，它的核心便是办理存储墙，从而办理能耗跟实际算力瓶颈的问题。
本日就先容这些，感激大家！

以上是熊大鹏演讲内容的完全整理。