在被英伟达统治的AI芯片市场中,已经良久没有新闻了,但龙年春节刚过,一家名为Groq的初创公司从前者手中夺下“最快”AI推理芯片的称号。
Groq流传宣传其LPU(措辞处理单元)的推理性能是英伟达GPU(图形处理器)的10倍,而本钱仅为其十分之一。此外,Groq凭借自研的推理芯片LPU,使大模型天生速率靠近每秒500 token(文本中的一个最小单位),碾压GPT-3.5的每秒40 token。
这在社交媒体上引发了广泛谈论。2月19日,Groq向用户开放了产品体验入口,“快”是经由Groq加速推理的开源大模型带给人的最直不雅观感想熏染。有用户登入这家公司的网站,敲入一个问题,它以闪电般的速率给出了答案,每秒钟278个token!
对此,有人评价:“它回答的速率比我眨眼还快。”

然而,虽然Groq的LPU推理速率快,但是这种快也很烧钱,本钱比通用的GPU要赶过不少。此外,LPU还有些专,现在只能跑两个Mixtral 8×7B-32K、Llama 2-70B-4K开源模型。对付Groq的LPU未来还能跑哪些模型,《中国经营报》联系采访该公司方面,截至发稿未获答复。
电子创新网CEO张国斌对表示:“任何一个人工智能算法都可以利用英伟达的H100,但只有Mixtral和Llama 2才能利用Groq的LPU。LPU是一款ASIC(专用芯片),只能适用特定模型,通用性较差,而且性价比并不高,不值得高调炒作,以免误导了人工智能领域芯片公司的开拓方向。”
以“快”震荡环球
虽然有不雅观点称其为“史上最快大模型”,但Groq作出了澄清:“我们不是大型措辞模型。我们的LPU推理引擎是一种新型的端到端处理单元系统,它为打算密集型运用供应最快的推理能力,这些运器具有序列组件,例如人工智能措辞运用。”
据理解,Groq由谷歌第一代张量处理单元(TPU)创造者之一的乔纳森·罗斯(Jonathan Ross)在2016年创立。他认为,芯片设计应从软件定义网络(SDN)中吸取灵感。
罗斯表示,Groq的存在是为了肃清“贫富差距”,并帮助 AI 社区中的每个人发达发展。他还表示,推理对付实现这一目标至关主要,由于速率是将开拓职员的想法转化为业务办理方案和改变生活的运用程序的关键。
2021年,Groq得到了由有名投资机构老虎环球管理基金、D1 Capital领投的3亿美元,总融资额达3.67亿美元。
在2023年的高性能打算会议SC23上,Groq以每秒超过280个Token的速率天生回答,刷新了Llama-2 70B推理的性能记录。2024年1月,Groq首次参与公开基准测试,就在 Anyscale的LLMPerf 排行榜上取得了突出的成绩,远超其他基于GPU的云做事供应商。
2月13日,Groq在ArtificialAnalysis.ai最新的LLM基准测试中再次得胜,在延迟与吞吐量等关键性能指标上击败了8名参与者,其处理吞吐量达到其他推理做事的4倍,同时收费还不到Mistral自己的1/3。
Groq创新的核心在于其LPU,它旨在以前所未有的速率加速AI模型,包括ChatGPT这类措辞模型。Groq官网先容说,LPU代表措辞处理单元,是一种新型的端到端处理单元系统,可为具有顺序组件的打算密集型运用程序(如大措辞模型LLM)供应最快的推理做事。
为什么LPU用于LLM和天生式AI时比GPU快得多?Groq官网阐明说,LPU旨在战胜LLM的两个瓶颈:打算密度和内存带宽。对付LLM来说,LPU的打算能力要大于GPU和CPU,减少了打算每个单词所需的韶光后,可以更快天生文本序列。此外,通过肃清外部内存瓶颈,LPU推理引擎能在LLM上供应比GPU高几个数量级的性能。
快的代价有点高
值得把稳的是,与利用高带宽内存(HBM)的GPU不同,Groq的LPU用SRAM进行数据存储。然而,这种设计并非创新打破,据称百度昆仑芯和英国的GraphCore也利用类似的内部存储办法。
其余,Groq LPU基于新的张量流处理器架构,其内存单元与向量和矩阵深度学习功能单元交错,从而利用机器学习事情负载固有的并行性对推理进行加速。
在运算处理的同时,每个TSP都还具有网络交流的功能,可直接通过网络与其他TSP交流信息,无须依赖外部的网络设备,这种设计提高了系统的并行处理能力和效率。
Groq可支持多种用于模型推理的机器学习开拓框架,包括PyTorch、TensorFlow和ONNX,但不支持利用LPU推理引擎进行ML演习。
对付Groq芯片的独特之处,据与Groq关系密切的投资人k_zeroS在其X平台账号发文表示,LPU的运作办法与GPU不同,它利用时序指令集打算机(Temporal Instruction Set Computer)架构,与GPU利用的SIMD(单指令,多数据)不同。这种设计可以让芯片不必像GPU那样频繁地从HBM内存重载数据。
Groq芯片利用的是SRAM,其速率比GPU所用的存储器快约20倍。这也有助于避免HB短缺问题并降落本钱,目前HBM的供应除了依赖于三星和海力士,在封装上也依赖台积电的CoWoS技能。
更多信息显示,Groq的芯片采取14nm制程,搭载了230MB SRAM以担保内存带宽,片上内存带宽达80TB/s。在算力方面,该芯片的整型(8位)运算速率为750TOPs,浮点(16位)运算速率为188TFLOPs。
震荡过后,不少行业大佬创造Groq快的代价有点高。
原脸书AI科学家、阿里原技能副总裁贾扬清剖析称,Groq LPU的内存容量非常小(230MB)。大略打算得出,运行700亿参数模型时,须要305张Groq卡,相称于利用8张英伟达H100。从目前的价格来看,这意味着在同等吞吐量下,Groq LPU的硬件本钱约是H100的40倍,能耗本钱约是其10倍。
芯片专家姚金鑫(J叔)在接管采访时表示,从同等算力来看,如果都是用INT8来推理,采取Groq的方案须要9台包含72片的做事器集群,而如果是H100,达到同等算力大约须要2台8卡做事器,此时的INT8算力已经到64P,可以同时支配的7B大模型数量达到80多个。从本钱的角度看,9台的Groq做事器的本钱,也是远远高过2台H100的做事器。
在第三方网站上,搭载Groq芯片的加速卡售价为2万多美元,差不多15万元公民币,低于H100的2.5万—3万美元。总结来看,Groq的架构建立在小内存、大算力上,因此有限的被处理的内容对应着极高的算力,导致其速率非常快。但反之,Groq极高的速率是建立在很有限的单卡吞吐能力上的,要担保和H100同样的吞吐量,就须要更多的卡。
LPU有点专
须要指出的是,目前Groq只支持Mixtral 8×7B-32K、Llama 2-70B-4K和Mistral 7B-8K三个开源大模型,前两个已开放利用,适配到其编译器上运行。
对此,张国斌表示:“任何一个人工智能算法都可以利用英伟达的H100,但只有Mixtral和Llama 2才能利用Groq的LPU。大模型公司想要利用Groq的产品,还须要先确定需求和指定规格,再进行功能验证,末了生产出来的产品才能利用。”
张国斌指出,Groq的LPU是专门为大模型搞的专用芯片,以是速率快,属于正常。“速率快了,效率高了,电费也省了,挺划算。未来市场前景该当有,比如那种支持大模型的智能体、便携式终端。”他说。
但是,张国斌表示自己不看好LPU这个东西,由于它的局限性太大了,只能特定的模型利用。“往后有可能会支持更多大模型,但是总没有通用型的好。目前我看一些测试说它的精度也不足。”张国斌用了一个比喻来阐明精度不足,在一个交通繁芜的城市里,LPU网络了所有人早上上班的方向,然后用软件来决定红绿灯,关掉了一条路上所有的交通灯,让所有同一方向的车子在这条路上只管往前开。
“它是一款ASIC芯片,只能适用特定模型,通用性较差,而且性价比并不高,不值得高调炒作,以免误导了人工智能领域芯片公司的开拓方向。”张国斌还表示,人工智能要深入到千行百业,总不能每个场景搞个ASIC,还是通用GPU比较好,实在便是须要能多个场景利用的人工智能处理器。
Groq的商业模式是针对大型系统,也为企业支配,它不出售单卡/芯片。由于拥有芯片到系统的全体技能栈,而且没有中间商,它能产生单位Token的价格上风。在2023年年底的一场采访中,罗斯表示考虑到GPU的短缺和高昂的本钱,他相信Groq未来的发展潜力:“在12个月内,我们可以支配10万个LPU,在24个月内,我们可以支配100万个LPU。”
通用VS专用,谁更好?得让子弹多飞会儿吧。不过,美国当地韶光2月22日收盘,受最新财报超预期的刺激,英伟达股价报785.38美元,飙涨16.4%,市值单日飙升2733亿美元(约合公民币2万亿元),创下美股史上最大单日市值增幅记录。
英伟达一夜增长的市值,相称于增加了一全体的Netflix或Adobe的市值,或靠近半个摩根大通或两个高盛的市值。英伟达市值再创历史新高,逼近2万亿美元,成为微软、苹果之后环球第三高市值。
(编辑:吴清 校正:颜京宁)