在过去两年里,Sohu,环球首款专为变压器设计的专用芯片(ASIC),应运而生。这意味着Sohu无法运行大多数传统的AI模型,如驱动Instagram广告的DLRMs、AlphaFold 2这样的蛋白质折叠模型或是Stable Diffusion 2等旧版图像模型。也无法运行CNN、RNN或LSTM。
然而,对付变压器,Sohu是有史以来最快的芯片,速率远超其他。Sohu每秒超过50万个token的Llama 70B吞吐量,使得许多在GPU上无法实现的产品成为可能。Sohu比NVIDIA的下一代Blackwell (GB200) GPU还要快且便宜一个数量级。
如今,每个最前辈的AI模型都是变压器:ChatGPT、Sora、Gemini、Stable Diffusion 3等等。如果变压器被SSMs、RWKV或任何新架构取代,Sohu将变得毫无用途。
但如果赌对了,Sohu将改变天下。以下是我们做出这一赌注的缘故原由。
规模是超级智能的关键
五年间,AI模型在大多数标准化测试中变得比人类更聪明。这是由于Meta利用了比OpenAI在GPT-2上多50000倍的打算资源来演习Llama 400B(2024年的最前辈模型,频年夜多数人类更聪明)。
通过为AI模型供应更多打算资源和更好的数据,它们会变得更聪明。规模是几十年来唯一持续有效的策略,每个大型AI公司(Google、OpenAI / Microsoft、Anthropic / Amazon等)将在未来几年内投入超过1000亿美元以连续扩展。我们正处于史上最大的根本举动步伐培植期间。
GPU碰着瓶颈
圣克拉拉的秘密是GPU并没有变得更好,而是变得更大。芯片每单位面积的打算能力(TFLOPS)在四年内险些没有提升。
NVIDIA的B200、AMD的MI300、Intel的Gaudi 3和Amazon的Trainium2都利用双芯片方案来“更加”性能。2022-2025年,除了Etched,所有GPU性能提升都是依赖这种技巧。
随着摩尔定律的放缓,唯一的提升性能的方法是专业化。
专用芯片的一定性
在变压器盛行之前,许多公司构建了灵巧的AI芯片和GPU来处理各种架构,如NVIDIA的GPU、Google的TPU、Amazon的Trainium、AMD的加速器等。没有公司曾构建过专用算法的AI芯片(ASIC),由于芯片项目本钱高达5000万至1亿美元,且须要多年才能投入生产。
但现在情形发生了变革:
前所未有的需求:在ChatGPT涌现之前,变压器推理市场约为5000万美元,而现在已达到数十亿美元。所有大科技公司都利用变压器模型(OpenAI、Google、Amazon、Microsoft、Facebook等)。
架构的收敛:自GPT-2以来,最前辈的模型架构险些保持不变!
OpenAI的GPT系列、Google的PaLM、Facebook的LLaMa,乃至Tesla FSD都是变压器。
变压器的巨大护城河
变压器在硬件上的上风:能够最快、最便宜地运行在硬件上的模型才是赢家。变压器足够强大、有用且盈利,能在替代品准备好之前主导每个紧张AI打算市场。
每个大型AI产品:从代理到搜索再到谈天,都是由变压器驱动的。AI实验室已经投入数亿美元进行研发,以优化GPU以适应变压器。
认识Sohu
Sohu是环球首款变压器ASIC。一个8xSohu做事器可以替代160个H100 GPU。通过专业化,Sohu实现了前所未有的性能。一个8xSohu做事器每秒可以处理超过500,000个Llama 70B token。
由于Sohu只能运行一个算法,大多数掌握流逻辑可以被移除,从而拥有更多的数学单元。因此,Sohu的FLOPS利用率超过90%(比较GPU的约30%)。
软件运作
在GPU和TPU上,软件非常繁芜。处理任意的CUDA和PyTorch代码须要极其繁芜的编译器。第三方AI芯片(AMD、Intel、AWS等)在软件上花费了数十亿美元,但奏效甚微。
由于Sohu只运行变压器,以是只需为变压器编写软件!
大多数公司利用特定的变压器推理库,如TensorRT-LLM、vLLM或HuggingFace的TGI。
Etched将成为第一
如果这个赌注现在看起来很猖獗,想象一下在2022年做出这一赌注的情景。当时,ChatGPT还不存在!
图像和视频天生模型是U-Nets,无人驾驶汽车由CNN驱动,变压器架构还远未遍及。
幸运的是,场合排场已经向Etched倾斜。每个领域的顶级模型——从措辞到视觉——现在都是变压器。这一收敛不仅验证了Etched的赌注,也使得Sohu成为本十年最主要的硬件项目。
如果Etched赌对了,Sohu将改变天下。AI模型一夜之间变得快20倍且便宜,这会带来什么?Gemini须要超过60秒来回答一个视频问题,编码代理的本钱比软件工程师还高,视频模型每秒只能天生一帧,乃至OpenAI在ChatGPT用户达到1000万时也耗尽了GPU容量,这只是天下的0.15%。
但有了Sohu,这统统将变得即时。实时视频、通话、代理和搜索将真正实现。
很快就能见证这些变革。申请Sohu开拓者云的早期访问 (https://docs.google.com/forms/d/e/1FAIpQLSfNy_O_4UHUjzCgcEbYR5IEd2bSkkGpLbiw1i51BpWHMW3GwA/viewform),共同办理当代最主要的问题。