探索AI大年夜算力芯片的未来形态：全数字存算一体_芯片_博士

文章目录 [+]

存算一体，比较传统冯诺依曼架构，不仅避开“存储墙”限定；而且借着AI发展的东风，显得格外有潜力。
亿铸科技作为市场上为数不多基于存算一体技能的AI大算力芯片企业，正操持从芯片到板卡、做事器，终极将算力横向扩展至大规模运算集群，并终极借助存算一体技能在天生式AI时期站稳脚跟。

对此，我们采访了亿铸科技创始人、董事长兼CEO 熊大鹏博士，解读AI浪潮下大算力AI芯片的新形态——基于ReRAM的全数字存算一体芯片。

探索AI大年夜算力芯片的未来形态：全数字存算一体_芯片_博士探索AI大年夜算力芯片的未来形态：全数字存算一体_芯片_博士互联网

大算力存算一体芯片何时商用？

（图片来自网络侵删）

传统冯诺依曼架构芯片的“存储墙”问题日益严重。
在须要海量数据搬运的场景内，传统芯片不仅面临打算单元闲置导致系统效率降落的问题；还面临存储、通信和数据搬运的功耗开销都远高于打算的“能耗墙”问题。
除此之外，亿铸科技此前在中国临港国际半导体大会上，还提到“编译墙”问题——即动态数据流调度繁芜，编译器无法在静态、可预测情形下自动优化可实行程序，依赖手动调头等情形。
以上三点都极大限定了资源日益紧缺、功耗大幅增长的AI家当的发展。

对此，熊大鹏博士在主题演讲中曾提到“阿姆达尔定律（Amdahl Law）”，谈到存算一体比较传统GPGPU在做加速时的上风在于数据搬运量大幅低落，令访存限定趋近于0，实现有效算力密度的增长；其数据访问模式可预测，数据流和掌握流大略，易于算子和可实行层代码自动优化。

基于以上上风，在性能和效率方面，存算一体芯片能够以成熟制造工艺比肩基于前辈制造工艺的冯诺依曼架构传统芯片，并实现更低本钱。
“存算一体芯片的算力密度更高，拥有更好的能效比，”熊大鹏博士在接管采访时表示，“用更少的晶体管达成相同的算力”“而且存算一体可以减少数据搬运量和间隔，这也是实现更高能效比的紧张缘故原由”。

即便存算一体芯片的上风已经被越来越多的人所知，但这类芯片到现在尚未全面盘踞大众视野。
熊大鹏博士认为存算一体芯片是新技能，“不管是架构设计、软件生态，都还面临着相称程度的寻衅”。
熊大鹏博士透露，亿铸在和昕原半导体互助，“目前市场公承认以或许实现ReRAM这类新型存储量产的，只有昕原和台积电，这两家的制造工艺也都比较成熟。
”

“但在AI大算力、大模型等运用方面，存算一体技能落地，从架构设计等各方面细节来看，还是存在不少寻衅。
”“大算力存算一体芯片毕竟也是最近两三年才涌现的，新技能推向市场也须要韶光磨合。
” 熊大鹏博士强调，“2025-2026年，大算力存算一体芯片该当会逐步在商用市场推广开来。
”

全数字化存算一体如何办理技能寻衅？

在此前的主题演讲中，熊大鹏博士曾提到存算一体的“三把刀”，或者说三大类方案，分别是仿照、数模稠浊与全数字化的方案。

在一样平常仿照的存算一体系统中，数据以仿照旗子暗记的办法存储，以存储单元内不同的电压电平来表示，基于欧姆定律和基尔霍夫定律（Kirchhoff’s Laws）实行MAC等运算。
这种方案的最大问题在于精度，仿照电路噪声和各种变量是个华夏因。
“不管是制造工艺还是事情环境，都会让忆阻器代表的完全数有偏差或漂移”。
数模稠浊方法考试测验平衡效率和精度问题，但依旧不能担保高精度。

以是亿铸的方案是基于ReRAM的全数字化存算一体。
由于是全数字化，数据以二进制的办法放进存储单元内，“一个忆阻器（ReRAM）只表示一位，也就只有高低电平、高低电阻、高低电流的差异，这种情形下就能做到可靠”。

熊大鹏博士在谈到存算一体芯片的算力大规模扩展时，提出当前面临的三大寻衅。
其一是精度不可信的问题；其二，基于仿照打算，数模模数转换带来了能耗、die size和性能的瓶颈；其三，AI大模型对容量有哀求。
全数字化路径能够很好地办理这些问题，这也是亿铸科技做AI大算力推理芯片的依据。

而存储介质选择ReRAM（Resistive Random Access Memory），“是性能、能效比、容量密度、工艺成熟度等方面的综合考虑。
”“ReRAM技能本身也在不断提升。
”其余ReRAM是CMOS兼容的，能够基于标准CMOS工艺制造，享受CMOS的很多前辈技能，实现密度持续提升及未来更高的算力与能效比。

在办理技能问题往后，去年亿铸科技点亮了基于ReRAM的高精度、低功耗存算一体AI大算力PoC芯片。
“无论是能效比还是算力，都超出了我们的预期。
”熊大鹏博士谈到，“我们也运行了一些范例的demo，比如以图搜图，比如（基于）LoRA跑比较小规模的Transformer网络，结果都远超竞争对手。
至于量产芯片，目前处于设计冲刺阶段。
”

亿铸的芯片会是什么样？

采访中我们还是获悉了有关亿铸这颗要问世的AI大算力芯片的少量细节：性能方面，亿铸的芯片 “有效性能、能效比都会有上风”，即便是相较竞争对手最“新的办理方案”，“也不会输”，虽然“不敢说打开垄断局势，但至少也能撕开一条缝，给用户新的选择”。

其余对付存算一体芯片的“通用性和可编程性”，鉴于“采取异构构造，存算一体本身只做大规模矩阵打算，通用性和可编程性要依赖通用途理器，包括SIMT（single instruction multiple threads）。
”熊大鹏阐明道，“我们定义了一套完全的ISA。
”CPU指令集主体为RISC-V，“SIMT、存算一体，和其他组成部分，将不同架构、不同体系打算单元领悟在一起，终极“将通用打算与存算一体有效领悟”。

“其余以前的AI芯片紧张基于CNN（卷积神经网络），造成了很大的通用性局限，对现在主流Transformer的支持不是特殊友好。
”“亿铸的芯片兼顾CNN和Transformer。
”与此同时，“不少科学家工程师也在磋商Transformer替代方案。
我们也会关注未来AI模型、算法会往哪个方向演进。
”“不管是Transformer 2, Transformer 3，还是多模态、MoE，各种流派都在往前走。
”

以上是芯片层面的信息。
对付要实现算力扩展的AI芯片而言，芯片、板卡系统与节点间的高速互联是当代系统层面AI性能发挥的瓶颈。
以是熊大鹏博士特殊提到，“芯片互联、板间互联、节点互联是非常关键的技能，我们也花了不少精力去做。
”

个中细节熊大鹏博士并未透露，不过他提到不同层级的互联会采取开放标准，“比如RDMA”。
他还强调了DPU的主要性，对付大模型而言，“DPU扮演的角色越来越清晰，浸染也越来越主要”，“我们会跟互助伙伴一起去开拓针对大模型的DPU”。
系统层面，“我们会和互助伙伴一起，做到做事器级别”，将来算力扩展至全体大规模打算集群。

如何构建存算一体软件及运用生态

对付加速器类型的芯片而言，软件开拓生态是另一大难点。
“从用户的角度来看，亿铸的芯片就相称于一颗GPGPU，只不过是基于存算一体的GPGPU。
”存算一体架构对开拓者是不可见的。
“很多企业、古人基于GPGPU做了各种各样的开源开拓工具和生态构建，我们都用得上。
”

“现在我们打算集中力量，在AI大模型运用处景上发展。
比如说Llama 2-70b等等，容量大的、小的模型，我们都会去支持。
”熊大鹏博士谈到，“存算一体自身的特点，决定了对算子的优化相对大略，更随意马虎支持范例的AI大模型。
以是在支持范例AI大模型的根本上，泛化到其他AI模型。
”

从AI大模型角度切入，实则涵盖了终端运用领域的方方面面，包括数据中央、金融、游戏、安防、教诲、工业、机器人、交通等等。

“建立软件团队要一步步来。
先是环绕芯片建立团队，这一步基本已经达到了目标。
后续还要针对用户利用、支配、各种工具等等完善软件团队。
”“生态构建是须要打磨的，也关乎用户接管度方方面面的问题，这些都须要韶光。
”

亿铸科技在宣扬中提到，团队具备数字化存算一体全栈研发履历及垂直整合能力——研发团队申请的专利已经超过40项，国际最起先进工艺非冯体系架构设计和芯片流片；具备主流架构SoC量产交付能力——团队此前的SoC设计、量产及发卖的芯片已经有20+颗；

更主要的是在软件和编译器方面，也有200+和350+案例的团队系统软件研发交付履历；加上还具备“国内外一线公司算法积累”，到终极运用处景和生态可能都只是韶光问题。

结语

末了，熊大鹏博士表示，中国要发展自己的AI芯片与技能，首先要“立足海内的供应链”，并强调，“不立足海内供应链，纵然做出来能够达到国际前辈水平的芯片，终极也会受到各种限定”；“其次，一定要走不同的技能路线，才有机会实现换道超车。
”而亿铸科技就在走这样一条明确的道路：与海内Foundry与IP供应商互助；走分歧凡响的存算一体路线，这也让亿铸科技的大算力全数字存算一体芯片更加值得期待！