首页 » 科学 » 围攻英伟达三大年夜巨擘的芯片再出招!_芯片_微软

围攻英伟达三大年夜巨擘的芯片再出招!_芯片_微软

admin 2024-12-31 20:34:20 0

扫一扫用手机浏览

文章目录 [+]

凭借其GPU的领先上风,英伟达过去几年炙手可热,乘着ChatGPT热潮,公司的市值从今年年初至今更是大涨了93.6%,过去五年的涨幅更是达到惊人的385%。
虽然GPU是英伟达的最主要倚仗,但这绝不是美国芯片“当红炸子鸡”的唯一武器。

通过过去几年的收购和自研,英伟达已经打造起了一个涵盖DPU、CPU和Switch,乃至硅光在内的多产品线巨子,其目的便是想在一个做事器乃至一个机架中做很多的买卖。
但和很多做GPGPU或者AI芯片的竞争对手想取替GPU一样,英伟达的“取替”操持彷佛也不是不能一帆风顺。

围攻英伟达三大年夜巨擘的芯片再出招!_芯片_微软 围攻英伟达三大年夜巨擘的芯片再出招!_芯片_微软 科学

近日,三巨子更是再次脱手,想把英伟达拒之门外。

围攻英伟达三大年夜巨擘的芯片再出招!_芯片_微软 围攻英伟达三大年夜巨擘的芯片再出招!_芯片_微软 科学
(图片来自网络侵删)

博通芯片,瞄准Infiniband

熟习博通的读者该当知道,面向Switch市场,美国芯片巨子拥有三条高端产品线,分别是面向高带宽需求的Tomahawk、面向更多功能的 Trident,以及虽然带宽不高,但是却拥有更深的Buffer和更高可编程性的Jericho。

昨日,他们带来了Jericho系列最新的产品Jericho3-AI。
在他们看来,这是比英伟达Infiniband更适宜AI的一个新选择。

据博通所说,大公司(乃至 NVIDIA) 都认为 AI 事情负载会受到网络延迟和带宽的限定,而Jericho3-AI 的存在则旨在减少 AI 演习期间花在网络上的韶光。
其构造的紧张特性是负载平衡以保持链路不拥塞、构造调度、零影响故障转移以及具有高以太网基数(radix)。

博通强调,AI 事情负载具有独特的特色,例如少量的大型、长期流,所有这些都在 AI 打算周期完成后同时开始。
Jericho3-AI 构造为这些事情负载供应最高性能,具有专为 AI 事情负载设计的独特功能:

完美的负载均衡将流量均匀分布在构造的所有链路上,确保在最高网络负载下实现最大网络利用率。
端到端流量调度的无拥塞操作可确保无流量冲突和抖动。
超高基不偶专程许可 Jericho3-AI 构造将连接扩展到单个集群中的 32,000 个 GPU,每个 800Gbps。
零影响故障转移功能可确保在 10 纳秒内自动收敛路径,从而不会影响作业完成韶光。

利用这一独特的功能,与 All-to-All 等关键 AI 基准测试的替代网络办理方案比较,Jericho3-AI 构造的事情完成韶光至少缩短了 10%。
这种性能改进对降落运行 AI 事情负载的本钱具有乘法效应,由于它意味着昂贵的 AI 加速器的利用效率提高了10%。
此外,Jericho3-AI 构造供应每秒 26 PB 的以太网带宽,险些是上一代带宽的四倍,同时每千兆比特的功耗降落 40%。

此外,Broadcom 表示,由于它可以处理 800Gbps 的端口速率(对付 PCIe Gen6 做事器)等等,以是它是一个更好的选择。
对付将“AI”放在产品名称中,Broadcom 并没有做出过多解读,乃至关于网络 AI打算功能,他们也没涉及,这其实让人摸不着头脑,由于这是英伟达Infiniband 架构的紧张卖点。

只管如此,Broadcom 表示其 Jericho3-AI 以太网在 NCCL 性能方面比 NVIDIA 的 Infiniband 好大约 10%。

“Jericho3-AI 构造的一个独特之处在于它供应了最高的性能,同时还实现了最低的总拥有本钱。
这是通过长间隔 SerDes、分布式缓冲和高等遥测等属性实现的,所有这些都利用行业标准以太网供应。
这些成分为最大的硬件和软件供应商生态系统供应了网络架构和支配选项的高度灵巧性。
”博通强调。

微软,自研芯片再曝进展

由于ChatGPT大火的企业除了英伟达外,作为ChatGPT投资人的微软也备受关注。
在半导体行业不雅观察日前发布的文章《英伟达H100市情价格飙升!
Elon Musk:每个人都在买GPU》
中我们也表露,为了发展ChatGPT,微软已经抢购了不少GPU。
随着算力需求的增加,微软在后续必须要更多的芯片支持。

如果一如既往地购买英伟达GPU,这对英伟达来说会是一笔昂贵的支出,他们也会为此不爽。
于是,就适可而止地,微软的自研芯片有了更多信息曝光。

据路透社引述The Information 的宣布,微软公司正在开拓自己的代号为“Athena”的人工智能芯片,该芯片将为 ChatGPT 等人工智能谈天机器人背后的技能供应支持。

根据该报告,这些芯片将用于演习大型措辞模型和支持推理——这两者都是天生 AI 所须要的,例如 ChatGPT 中利用的 AI 来处理大量数据、识别模式并创建新的输出来模拟人类对话。
报告称,微软希望该芯片的性能优于目前从其他供应商处购买的芯片,从而为其昂贵的 AI 事情节省韶光和金钱。

虽然目前尚不清楚微软是否会向其 Azure 云客户供应这些芯片,但据宣布,这家软件制造商操持最早于明年在微软和 OpenAI 内部更广泛地供应其 AI 芯片。
据宣布,该芯片的初始版本操持利用台积电 (TSMC) 的 5 纳米工艺,不过作为该项目的一部分,可能会有多代芯片,由于微软已经制订了包括多个后代芯片的路线图。

据宣布,微软认为自己的 AI 芯片并不能直接替代 Nvidia 的芯片,但随着微软连续推动在Bing、Office 运用程序、GitHub和其他地方推出 AI 驱动的功能,内部的努力可能会大幅减少本钱。
研究公司 SemiAnalysis 的 Dylan Patel 也见告The Information,“如果 Athena 具有竞争力,与 Nvidia 的产品比较,它可以将每芯片的本钱降落三分之一。

关于微软造芯,最早可以追溯到2020年。
据彭博社在当时的宣布,微软公司正在研究用于运行公司云做事的做事器打算机的内部处理器设计,以促进全行业减少对英特尔公司芯片技能依赖的努力。
知情人士透露,这家环球最大的软件制造商正在利用Arm的设计光降盆将用于其数据中央的处理器。
它还在探索利用另一种芯片来为其部分 Surface 系列个人电脑供应动力。

近年来,微软加大了处理器工程师的招聘力度,在英特尔、超微、英伟达等芯片制造商的后院招聘。
2022年,他们乃至还从苹果公司挖走了一位履历丰富的芯片设计师,以扩大自身的做事器芯片业务。
据宣布,这位名为Mike Filippo 的资深专家将在由 Rani Borkar 运营的微软 Azure 集团内从事处理器方面的事情。
微软发言人证明了 Filippo 的聘任,他也曾在 Arm和英特尔公司事情过。

今年年初,微软更是宣告收购了一家名为Fungible的DPU芯片公司。

微软 Azure 核心部门的 CVP Girish Bablani 在一篇博文中写道:“Fungible 的技能有助于实现具有可靠性和安全性的高性能、可扩展、分解、横向扩展的数据中央根本举动步伐”。
他进一步指出:“本日的公告进一步表明微软致力于数据中央根本举动步伐进行长期差异化投资,这增强了公司的技能和产品范围,包括卸载、改进延迟、增加数据中央做事器密度、优化能源效率和降落本钱。
”Fungible 在其网站上的一份声明中写道。
“我们很自满能成为一家拥有 Fungible 愿景的公司的一员,并将利用 Fungible DPU 和软件来增强其存储和网络产品。

由此我们可以看到微软在芯片上做更多的发布也不足为奇。

谷歌TPU,已经第四代

在取代英伟达的这条路上,谷歌无疑是个中最武断,且走得最远的一个。

按照谷歌所说,公司谷歌早在 2006 年就考虑为神经网络构建专用集成电路 (ASIC),但到 2013 年情形变得紧迫。
那时他们意识到神经网络快速增长的打算需求可能须要我们将数量 增加一倍我们运营的数据中央。
从2015年开始,谷歌就将其TPU支配到了做事器中,并在后续的测试中得到了不邵的反馈,以迭代其产品。

近日,谷歌对其TPUv4及其基于这个芯片的打造的超级打算系统进行了深度表露。

据他们在一篇博客中先容,得益于互连技能和领域特定加速器 (DSA) 方面的关键创新,谷歌云 TPU v4 在扩展 ML 系统性能方面比 TPU v3 有了近 10 倍的飞跃;与当代 ML DSA 比较,提高能源效率约 2-3 倍。
在与Nvidia A100 比较时,谷歌表示,TPU v4比前者快 1.2-1.7 倍,功耗低 1.3-1.9 倍。
在与Graphcore的IPU BOW比较,谷歌表示,其芯片也拥有领先的上风。

基于这个芯片,谷歌打造了一个拥有 4,096 个张量处理单元 (TPU)的TPU v4 超级打算机。
谷歌表示,这些芯片由内部开拓的行业领先的光电路开关 (OCS) 互连,OCS 互连硬件许可谷歌的 4K TPU 节点超级打算机与 1,000 个 CPU 主机一起运行,这些主机偶尔(0.1-1.0% 的韶光)不可用而不会引起问题。

据谷歌先容,OCS 动态重新配置其互连拓扑,以提高规模、可用性、利用率、模块化、支配、安全性、功率和性能。
与 Infiniband 比较,OCS 和底层光学组件更便宜、功耗更低且速率更快,不到 TPU v4 系统本钱的 5% 和系统功耗的 5% 以下。
下图显示了 OCS 如何利用两个 MEM 阵列事情。
不须要光到电到光的转换或耗电的网络分组交流机,从而节省了电力。

值得一提的是,TPU v4 超级打算机包括 SparseCores,这是一种更靠近高带宽内存的中间芯片,许多 AI 运算都发生在该芯片上。
SparseCores 的观点支持 AMD、英特尔和高通等公司正在研究的新兴打算架构,该架构依赖于打算更靠近数据,以及数据进出内存之间的折衷。

此外,谷歌还在算法-芯片协同方面做了更大的投入。
如半导体行业不雅观察之前的文章《从谷歌TPU 看AI芯片的未来》中所说;“随着摩尔定律未来越来越靠近物理极限,估量未来人工智能芯片性能进一步提升会越来越倚赖算法-芯片协同设计,而另一方面,由于有算法-芯片协同设计,我们估量未来人工智能芯片的性能仍旧将保持类似摩尔定律的靠近指数级提升,因此人工智能芯片仍旧将会是半导体行业未来几年最为热门的方向之一,也将会成为半导体行业未来连续发展的主要引擎。

写在末了

综合上述宣布我们可以直言,对付英伟达而言,其面临的寻衅是方方面面的,而不是仅仅局限于其GPU。
其对手也不仅仅是芯片公司,因此如何在规模化上风的情形下,担保其高性价比,是安然度过未来潜在寻衅的有效方法之一。

不过,可以肯定的是,环绕着数据中央的创新远未靠近停滞,乃至可以说由于大模型的盛行,这场战斗才刚刚开始。

标签:

相关文章

科讯CMS7,引领未来内容管理的新标杆

随着互联网技术的飞速发展,内容管理系统的应用越来越广泛。在我国,科讯CMS7作为一款具有高度智能化、开放性和安全性的内容管理系统,...

科学 2025-01-02 阅读0 评论0

程序语言银行,金融科技的未来基石

随着科技的飞速发展,金融行业也迎来了前所未有的变革。其中,程序语言作为金融科技的核心驱动力,正引领着行业的发展。本文将从程序语言银...

科学 2025-01-02 阅读0 评论0