Tenstorrent 首席实行官 Jim Keller 表示:“将更多产品交到开拓职员手中总是有益的。利用我们的 Wormhole 卡发布开拓系统有助于开拓职员扩大规模并开拓多芯片 AI 软件。除了这次发布之外,我们很高兴我们的第二代 Blackhole 的流片和通电进展非常顺利。”
据先容,Wormhole n150采取 Tenstorrent 自研的灵巧、可扩展的Wormhole Tensix 人工智能打算内核,拥有72核心和 108 MB SRAM,主频为1GHz,运行功率高达 160W,可以供应262 TeraFLOPs (FP8)的算力。单芯片卡配备了 12 GB GDDR6 内存,带宽为 288 GB/s。
须要指出的是,Tenstorrent 的每一个Tensix 人工智能打算内核内部都集成了 5 个支持各种数据格式的基于 RISC-V 架构的微处理器。
Tenstorrent称,与传统 GPU 比较,Wormhole n150供应卓越的性价比和广泛的数据精度格式支持。同时,还可以联网成事情站和做事器的多芯片网格,并由两个开源SDK支持,用于高等(TT-Buda)或低级(TT-Metalium)开拓,还包括主动冷却套件。
Wormhole n300 便是由两颗Wormhole n150芯片组成的PCIe加速卡,拥有128 个Wormhole Tensix 核心,主频1GHz,192 MB SRAM,以及板载24 GB GDDR6,频率为 576 GB/s,可以在300W 下供应高达 466 FP8 TFLOPS的算力。软件配套方面与Wormhole n150s同等。
Tenstorrent 还推出了新的事情站,包括 TT-QuietBox和TT-LoudBox。
TT-QuietBox 是一款液冷桌面事情站,是面向运行或测试 AI 模型的开拓职员的绝佳办理方案,或者是为 HPC 移植和开拓库的绝佳办理方案。TT-QuietBox 配备了AMD 的 EPYC 处理器和四张Wormhole n300加速卡,统共有 8 个 Wormhole Tensix 处理器。这些处理器通过灵巧的、基于以太网的网状拓扑连接,该拓扑可以扩展以实现 96GB 内存池。这使得TT-QuietBox能够运行多达约800亿个参数的单用户/单模型和多达约200亿个参数的单用户/多用户、多个模型。TT-QuietBox 也由两个开源 SDK 支持,用于高等 (TT-Buda) 或低级 (TT-Metalium) 开拓。
TT-LoudBox 紧张为希望运行、测试和开拓 AI 模型或移植和开拓 HPC 库的开拓职员供应卓越的性价比的办理方案。其配备了英特尔的Xeon处理器,和备四张Wormhole n300加速卡,统共有 8 个 Wormhole Tensix 处理器,这种基于以太网的灵巧网状拓扑构造可以扩展以实现 96GB 内存池。这使得TT-LoudBox能够运行多达约800亿个参数的单用户/单模型和多达约200亿个参数的单用户/多用户、多个模型。TT-LoudBox 也由两个开源 SDK 支持,用于高等 (TT-Buda) 或低级 (TT-Metalium) 开拓。
定价方面,Tenstorrent 的 Wormhole n150 零售价为 999 美元,Wormhole n150零售价为1,399 美元,这个价格要比市场竞争对手的产品的便宜得多。TT-LoudBox 事情站零售价为 6,000 美元,而 TT-QuietBox 事情站的零售价为 15,000 美元。
小结:
从上面的先容当中,我们可以看到,虽然Tenstorrent的Wormhole n150芯片的算力并不高,与英伟达、AMD、英特尔的AI芯片仍有一定差距。作为比拟,英伟达的H100在300W功率时其FP8的性能高达 1,670 TFLOPS(稀疏时为 3,341 TFLOPS),远高于160W功率下的Wormhole n150(262 TeraFLOPs ),也高于300W 功率下的Wormhole n300加速卡的算力(466 FP8 TFLOPS)。
虽然从纸面上看,Wormhole 系列AI芯片及加速卡性能不高,但 Tenstorrent 操持通过供应巨大的可扩展性来使其 AI 产品具有竞争力。这意味着当须要统一电源时,多个Wormhole 处理器可以作为一个单元运行,或者它们也可以单独利用,这统统都是由于利用了以太网互连,这是也是Jim Keller高度讴歌的。也便是说,要达到类似英伟达H100的算力,可能须要4张Wormhole n300加速卡互联就可以办到。
并且,在价格方面,一张英伟达H100 加速卡的零售价高达 30,000 美元,而Wormhole n150的零售价仅为 999 美元,4张Wormhole n300加速卡的零售价也只有不到4000美元,仅为H100的约1/8。
Jim Keller此前也曾批评英伟达等公司的人工智能芯片昂贵,显然Tenstorrent正是希望供应更具性价比的办理方案。
而Wormhole AI芯片之以是能够做到具备更高的性价比,一个关键缘故原由是由于其并未像英伟达、AMD、英特尔的AI芯片那样配备的大容量的HBM(高带宽内存),这是这些AI芯片关键组件,但是其本钱高昂,并且功耗较高。而Wormhole AI芯片则是与Groq的LPU芯片一样,选择采取了高带宽的片上SRAM,虽然其容量与常见的AI芯片中动辄几十GB、乃至上百GB容量的HBM差距巨大,但由于其直接是在集成在片内的,无需将数据从GPU到HBM来回搬运,数据处理速率更快、更高效、功耗也较低,综合本钱也更低。
Jim Keller认为,全新办法可让Tenstorrent芯片在部分AI运用领域取代GPU及HBM。此外,Tenstorrent也会只管即便提升产品本钱效益。不过,Jim Keller也坦言想要动摇目前规模日益弘大的HBM家当,恐怕须要花上数年韶光。他预测,未来将有更多新兴AI芯片公司进入英伟达目前还无法做事到的AI市场,但不是涌现单独一家完备取代英伟达的企业。
编辑:芯智讯-浪客剑