文 | 新态度NewPosition
1993年4月5日,黄仁勋这天刚好满30岁,和普里姆以及马拉乔夫斯基三人,在加州圣何塞一家连锁餐厅里谈论着创业成立公司的事。
这家丹尼餐厅位于一座立交桥阁下,环境吵闹同时装修简陋,店铺的前脸布满了弹孔,由于途经的社会人常常朝停在门前的警车开枪。三个创始人此时正拿鸡蛋卷裹喷鼻香肠片,就着劣质焦咖啡,英伟达就在这样的环境下出身了。
黄仁勋出生在台南囝仔,本日从这个地方往东北方向不到20公里,便是台积电的第十八晶圆厂。
这个生产基地2017年底开工培植,估量到今年的总投资额将超过1000亿美元,是台积电最昂贵的晶圆厂,其最前辈的5纳米和3纳米制程在这落地。无论是英伟达的RTX4000系列游戏显卡,还是当下一卡难求的H100,都在这里完成从硅到芯片的关键转化。两家公司相互造诣,如今共同节制着尖顶星科技,市值合计1.5万亿美元。
从成立之日算起,黄仁勋在英伟达CEO位置上干了整整三十年。论敬业程度,硅谷同行里大概少有人能出其右。
在硅谷叙事模式里,这里成功的科技公司常日在年轻创始人带领下迅速发展为天下巨子,或者已经成为天下巨子的公司由于跟不上形势而快速没落,又或者没掉队又再次凭借某个拳头产品重新变得伟大。总之交往返回,兴也勃焉亡也忽焉,核心便是一个快字。
以这样的视角打量,英伟达显然不太一样。除了在最初创业时差点“暴毙”,英伟达在长达二十年的韶光里活得相称宁静,谈不上惊艳但也没遭遇大灾大难。
直到最近几年,英伟达溘然开挂爆种,从人工智能到加密货币,从元宇宙到ChatGPT,不是英伟达在追风口,而更像是风口失落了智般往英伟达身上撞。
作为总设计师,黄仁勋本人显然不会认可这种说法。在他那里,英伟达的故事该当是关于技能理解、商业远见和长期主义的绝佳范例。
顶多再加一点小小的运气。
东亚的风眯了黄仁勋的眼
黄仁勋和其余两个合资人终极决定创业时,有着相称朴素但又同时触及实质的思考。无论电影、电视或者印刷的书本报纸,抑或是音乐,这些都是人类用来表达想法讲述故事的媒介。
而当时正显露雏形的3D图像技能,凭借实时天生的画面和互动性,将有可能成为下一种新的大众媒介。
唯一的问题是此时的3D图像任务,由于须要耗费极高的打算量,只有利用极其弘大的专业事情站才能完成。而黄仁勋和英伟达想要做的,便是把这项技能变得足够便宜,然后遍及它。
事实上,1993年英伟达成立的时候,它是第一家考试测验把3D图像推向普通消费者的公司。不过首先做到这件事的公司并不是英伟达,索尼在一年零八个月后推出的初代PS游戏主机要成功得多,在推出九年后,这款主机出货量打破了1亿台。
另一方面,英伟达前期的先发上风很快就不复存在,短短两年韶光里极客各处的硅谷就冒出了90家英伟达的竞争者。而在这两年韶光里,市场形势已经发生了翻天覆地的变革,问题出在DRAM这个元器件上面。
从技能事理上说,图像在打算机内部的存储须要花费相称大的空间资源。在未经压缩的情形下,如今一张1080P的图片含有超过两百万像素点(1920 × 1080),按照8比特的色深,每个像素点须要4个字节的存储空间,所有像素点合计超过8M字节。而要产生动态连续的不雅观感,屏幕上显示的图像还须要保持每秒多次刷新。
只管在30年前屏幕的显示规格,无论是说分辨率还是色彩还没有这么高,但存储空间仍旧是在算力之外3D图像技能的关键瓶颈。在英伟达成立的1993年,DRAM内存的价格在50美元/MB这个水平,主流VGA显示器的分辨率则是640480。
即便利用当时最前辈的办理方案,3D图像显示所须要的DRAM也得4MB,以是单单是这块DRAM的本钱就须要200美元。
加上板上的掌握芯片和其他组件,再算上一定的利润空间,终极这些产品的定价得要1000美元往上。虽然本日游戏玩家花大几千或者上万的价格买张显卡还处在可以理解的范畴,但这是由于环绕这张显卡已经建立起了丰富的生态。而在30年前是没有这么多所谓的3A大作的,消费级市场不会有人乐意花这么多钱买个电子元件回来当摆设。
以是黄仁勋他们环绕DRAM搞了技能创新,使得英伟达产品须要的内存空间大大降落,从红杉那里融到的1千万美元很大部分也都花在了这个“遥遥领先”的办理方案上。黄仁勋本来以为这会给他们的产品带来差异化的竞争力,但到创业的第二年,DRAM的价格就从单价50美元跌到了5美元。
这意味着英伟达前期瞄着内存优化做的巨大投入完备打了水漂。
后来的险些所有文章都把英伟达NV1这款产品的失落败,归结到跟OpenGL路线的三角渲染模式不兼容上面,但实际上不兼容并不是NV1失落败的真正缘故原由。给NV1造成致命打击的,是内存价格暴跌把NV1从前辈变成了不前辈,而一款不前辈的产品并没有机会参与行业标准的塑造,终极的不兼容实在是结果而非缘故原由。
DRAM价格暴跌的缘故原由是供过于求,新产能的紧张贡献者是亚洲人。在九十年代,韩国和台湾的经济都涌现了爆发性增长,两家的经济模式都是出口导向,支柱家当是电子和半导体。以韩国为例,在政府支持下,几家财阀借助从银行得到的贷款大量进行成本开支,生产规模迅速扩展。仅韩海内存行业产能在1991到1995的短短几年里就增长了8.3倍。
由于行业特性,内存晶圆厂须要保持很高的产能利用率才能摊平固定本钱。内存厂商乃至会在明知供给远超需求的情形下连续生产,这进一步推低了产品价格。不过这些余波对黄仁勋而言已经不主要了,由于此刻的英伟达要抛掉过去另起新灶了。
英特尔不是对手,是黑洞
在NV1发布的两年后,英伟达迎来了第一款成功的产品:RIVA128。RIVA128这块产品标志着英伟达在技能路线上的重大转向,英伟达彻底放弃了之前与行业不兼容的办理方案,选择全面拥抱Direct3D和OpenGL的技能规范。
这个时候3Dfx公司生产的Voodoo显卡已经成为行业标杆,而刚推出的RIVA128由于驱动问题在图像质量上跟Voodoo有明显差距。
不过英伟达通过后续的固件更新,很快使RIVA128输出的图像画质遇上乃至超越Voodoo。在这种情形下,RIVA128两个设计上风就表示了出来。
一方面,大概是前期走自主路线累积的技能根本,英伟达在RIVA128上通过分外的内存架构设计,使得其能够输出更高分辨率的图像。另一方面,跟Voodoo显卡不同,RIVA128同时集成了2D和3D图形芯片,这使得插RIVA128的电脑不须要一张单独的2D显卡来处理输出。
接下来的韶光里,RIVA128及其改款产品帮助英伟达在显卡市场站稳了脚跟。1999年,英伟达发布了第一款GeForce系列产品:GeForce256。只管在这之前实在已经有了类似的观点,但英伟达仍旧把GeForce256称之为“天下上第一款GPU”,GPU这个新潮的词汇走向大众化也是从这开始的。
GeForce256的确算得上是一张划时期的GPU,它第一次把多边形转换与光源处理(T&L)干系的几何打算从CPU肩上解放了出来。
这里我们不妨对芯片特点做个大略的科普。所有的芯片大致可以分成两个类型,通才和专才。通才类型的芯片便是CPU,它们是不折不扣的多面手,能够实行各种通用普遍的打算任务。而GPU则更靠近专才,它们就像精通某项技艺的大国工匠,善于于把聚焦范围内的任务做到极致。
而芯片行业历史上的一个大趋势,便是由于摩尔定律的存在,CPU能做的事情越来越多,性能也越来越强。这就导致很多打算任务开始是由专有设备完成的,但当这些任务变得普遍同时又趋于稳定的时候,把它们集成进CPU便是迎刃而解的迁移转变。
这个过程中,CPU厂商加强了产品竞争力,消费者由于集成得到了性价比,只有原来这些专有厂商被扫进了历史的垃圾堆:通才型芯片像个黑洞一样,把专才芯片吸纳进去。
比如,密码学作为当代网络通信的关键根本举动步伐,初期便是靠单独的集成电路实现的,后来变成了CPU的几条指令。其他像音频卡、视频卡之类的产品,也都重复了类似的发展路径。
在这个背景下,再来看GeForce256将T&L打算任务从CPU那里拿过来的操作,就有了非同一般的象征意义。由于从行业发展方向来说,这是跟我们上面描述的“通才吸纳专才”这个过程完备相反的动作。
作为芯片行业一个刚刚起步的玩家,在看到那些同行前赴后继的悲惨命运过后,黄仁勋明白只有创造独特代价,企业才有长期存在的可能。
幸运的是,跟密码学或者普通的音视频解码比较,3D图像领域有着高得多的天花板。普通用户总是在期待画面质量更加精细,图像刷新速率更高,这带来了对GPU性能的追求。而反过来当GPU对现有需求进行回应后,又会再度引发新的需求,这构成了长期坚持的正向循环勉励。
直到现在,最旗舰GPU每每也只是刚好知足最苛刻3A游戏的性能需求。同时,像元宇宙这类新的运用前景,已经由于触及现有的算力瓶颈而难以到达。
以是现实的情形总是,即便核显达到了几年前独立GPU的性能,英伟达新的GPU又与之拉开了显著的差距。对英特尔而言,在很长一段韶光里它实在算不上英伟达的对手,由于它并不想进入并主导GPU这个行业,而是在等待吞并并消灭这个行业,就像它曾经多次做到的那样。
漫长时令里长出的CUDA
到目前为止的30年里,除了创立初期那段韶光,此后的英伟达险些再也没有碰着过死活存亡的危急时候。在把昔日巨子3Dfx收入囊中过后,GPU行业进入了英伟达/ATI寡头垄断时期。随后十几年里英伟达的市场份额稳步提升,但整体营收则在2008年达到40亿美元过后,缓慢振荡提升,终极在2016年才困难到达50亿美元的里程碑。
与之对应的是,在2016年之前,英伟达的股价保持在10美元以下的区间随古迹表现浮动。这是一段漫长的时令,过程中黄仁勋带领同事做了费力的考试测验,英伟达弘大帝国的地基在此期间悄然建立。
我们在上个部分曾经谈过,为了避免被集成,造GPU的英伟达须要跑得比造CPU的英特尔更快。这个目标是通过造更强大的芯片,同时向开拓者群体供应更多能有效利用这些强大芯片的工具栈来实现的。
这个群体里比例最大的一部分是游戏开拓者,以是英伟达发明了可编程着色器(programmable shader)这样的技能,来使得游戏开拓在画面呈现上有更多的灵巧度和特色。
黄仁勋本人把可编程着色器视为英伟达史上最关键的创新之一,它扩展了行业边界,也正是这项技能使GPU能够花费掉越来越多的晶体管和算力,也就避免了被CPU或者主板上的芯片组集成吞并。
但黄仁勋的技能远见在于,他不但是带着英伟达沿着打算图形这条路走到底,还很早就看到了GPU和CPU在打算范式上的实质差异,并以极大的耐心和勇气为此做了充分的准备。
人们在进入千禧年后不久,实在就已经创造摩尔定律在逐步失落效,因而多核CPU渐成趋势。发展到本日,顶级的消费级CPU已经堆到16个物理核心,做事器CPU乃至有高达128个物理核心,因此面向CPU的多线程并行编程早已变得相称普遍。
但CPU的多核并行跟GPU出发点完备不同,多核CPU的涌现更多是为应对单核性能难以连续保持大幅提升的退而求其次,而GPU从一开始方法论便是把大问题分解成尽可能多的小问题,然后再用尽可能多的“弱”打算核心去办理这些小问题。
举个例子,跟如今高端消费级CPU的16个核心比较,像4090这类高真个消费级GPU拥有超过16000个核心,千倍的量变显然意味着质变。
以可编程着色器为代表的技能,只是上述模式在图形打算领域的运用,将其进一步推而广之至通用打算领域将有更广阔的新天下,而英伟达打开这个新天下的钥匙便是CUDA。
用黄仁勋的话说,第一步是\"大众make graphics programmable\"大众, 第二步则是\"大众open up GPU for programmability for all kinds of things\"大众。
在英伟达推出CUDA之前,GPU编程是件非常麻烦的事情,须要写很多底层代码。CUDA的易用性使得更广泛的人群成为开拓者,开释出GPU这个打算平台的潜力。但在英伟达的每张显卡上都嵌入对CUDA的支持是种本钱很高的做法,CUDA体系的研发和掩护也都须要巨量的资源投入。
不过无论黄仁勋如何苦口婆心地阐述CUDA是项多么伟大的创新,华尔街的剖析师们并不买账,以是英伟达的股票长期保持在个位数美元的位置徘徊。站在本日往回看,当然会有人骂这群剖析师身在宝山不识宝。不过剖析师也有话说啊,毕竟这些年里科技公司吹过但没实现的牛逼太多了。
失落败的Tegra,成功的Orin
2013年9月5日,雷军在北京国家会议中央发布了第三代小米手机。黄仁勋当时作为特邀高朋,也来到了现场。当时小米还没有PC产品线,黄仁勋来北京是为了给旗下的手机SoC站台,小米3的移动版用的是英伟达Tegra4四核CPU。
只管发布会上两人谈笑风生,但雷军并没有把宝全压在英伟达上面,小米3的联通和电信版都用的高通处理器。
这是英伟达进军移动打算领域的高光时候,也是黄仁勋当时为英伟达探求的下个星辰大海。在智好手机浪潮兴起后,黄仁勋认为移动打算领域的发达需求将诱发一场革命,这终极乃至会反过来颠覆PC和做事器市场。
2011年初,黄仁勋接管科技媒体VentureBeat采访时说到,Tegra系列芯片将会使英伟达的有效市场扩大6倍。
不过在说完这句话后,黄仁勋还顺便跟了句诺基亚从塞班系统向Windows的转型会是英伟达的“绝好机会”。除诺基亚之外,Tegra芯片的另一个关键客户是摩托罗拉。旗下的安卓平板Motorola Xoom正是利用的Tegra2芯片。在苹果的iPad2代500美元起售的情形下,Xoom这款平板的定价达到了800美元。
事后来看,这些细节大概已然预示了英伟达Tegra产品线进入移动芯片市场将遭受的失落败。
不过英伟达对Tegra的投入并非竹篮打水,颇有失落之东隅收之桑榆的幸运感。在终极由于基带问题彻底退脱手机市场后,Tegra系列产品转变了设计目标,从此前瞄准功耗和效率的表现调度到专注于性能。
范例的代表产品是Tegra X1,该款芯片被用在了任天国的Switch游戏主机上面,被认为带来了优质的画面体验。
更进一步的,研发Tegra系列芯片的过程中,英伟达积累了丰富的SoC开拓履历,这虽然终极没能撬开移动市场,但却帮助英伟达快速布局了智能汽车时期。在采取软硬件全栈自研之前,特斯拉汽车上就搭载的Tegra X2芯片。
同时,当前高端智能汽车上标配的Orin芯片也是属于Tegra这个系列。实际上,目前英伟达做事于驾驶赞助的“Nvidia Drive”和做事于嵌入式设备自动化的“Nvidia Jetson”都是基于Tegra系列芯片。
自动驾驶芯片是智能驾驶平台的关键要素,在英伟达之外,高通和英特尔也对此年夜志勃勃。不过就目前的形势来说,英伟达仍旧处于明显领先的位置。
英特尔这边,在以高额溢价支付153亿美元收购Mobileye过后,虽然一举跨进了汽车零部件供应商的第一阵营,但在高端产品性能上已被英伟达拉开差距。根据Mobileye向美国证监会SEC提交的文件,Mobileye的估值已从去年3月的500亿美元大幅下滑至160亿美元。而高通这边,在以440亿美元收购恩智浦的交易告吹后,紧张声量更多集中在以骁龙8155为代表的座舱芯片上面。
算法、硬件和彩票
爱迪生在1877年造出了天下上第一台留声机,随后这项发明跟黑胶唱片一起,在那个年代的音乐爱好者群体里扩散开来。但爱迪生本人对这个现实感到沮丧和失落望,由于他最初为留声机设计的用场是记录临终之人的遗言。跟这个设想比起来,拿留声机听音乐这事就有点太low了。
在科技史上,这种不按剧本走的发明实在不少,其余一个较为著名的例子是辉瑞公司研发的心血管药物西地那非。这种命运的奇特安排有时是一种捉弄,有时则被证明是一种幸运,就像英伟达一样。
当然,这么说并不是要否定黄仁勋的技能眼力和商业才能,而是强调在个人奋斗的成分之外,也要考虑到历史的行程。
黄仁勋当然一贯知道在电子游戏之外,英伟达的GPU存在更多的潜力,从一种新的打算范式角度来理解GPU,将会带来大得多的可能。但根据福布斯2016的一篇文章,他并没有实际上预见到深度学习会成为GPU的爆发性运用。
深度学习的根本性事情早在上个世纪就已经奠基完毕:反向传播算法最早在1963年就已经提出,深度卷积神经网络则是在1979年就存在了。但在中间这几十年里,这些观点并没有被发扬光大,直到我们有了足够多的数据和充分的算力。
事实上,Google Brain一位叫做萨拉·胡克的研究员把深度学习通过当代GPU设备取得的进展称之为中了“硬件彩票”。虽然萨拉那篇论文的核心不雅观点是想提醒公众,如今在学术界和业界取获胜利脱颖而出的研究想法,很大可能并不是由于这些想法本身在办理对应问题上优于其他失落败的idea,只是由于这类想法更符合现有的硬件环境。
她认为深度学习在GPU这类并行打算设备帮助下取得的成绩,或许便是例子。但从萨拉的不雅观点中,我们显然也可以反过来窥见一丝GPU终极被深度学习选中的有时性。
本日我们谈起深度学习的起源和英伟达的命运拐点时,总是绕不开的一个标志性事宜,即2012年Hinton及他的博士生Krizhevsky和Sutskever参加ImageNet图像识别大赛时,用卷积神经网络把缺点率从上年度的25%一举降到了15%。而Krizhevsky等人在演习神经网络模型的时候,利用了两张英伟达的GeForce游戏显卡学习了120万张图片。
但Krizhevsky等人并不是第一个利用GPU来演习深度神经网络的学者。吴恩达的斯坦福团队在2008年就写了一篇《Large-scale Deep Unsupervised Learning using Graphics Processors》的论文,里面提到用GPU可以大幅加速神经网络模型的学习过程。
然而直到2013年的英伟达GTC大会上,黄仁勋演讲时的keynote里都基本没有怎么提AI。要等到第二年的GTC,我们才会看到黄仁勋把人工智能领域看作英伟达最关键的业务。
这也解释黄仁勋并非一开始就推all in AI,而是在业界已然形成风气后才做这件事。不过即便从这韶光节点上来说,英伟达的动作也算相称早了。
当然,如之前所说,没有精准预见AI会在多年后成为英伟达的帝国基座,并不影响黄仁勋的伟大。
某种程度上说,从最初沿着图像打算这个方向的创新,到后来环绕CUDA建立的技能生态,英伟达的布局注定将会长出惊艳的果实。黄仁勋没有预见到这个果实具体会是什么,但他知道它一定会长出来。
最新的二季度财报显示,英伟达本季营收达到了破记录的135.1亿美元,同比增长101%。个中,最大贡献为数据中央业务,当季业务收入为103.2亿美元,同比增长171%,同创下历史新高。即便在之前的古迹指引里,已经预见到这个季度营收和利润会爆,但管理层和华尔街都没想到会爆的这么厉害。
自2021财年Q2数据中央营收超过游戏业务以来,前者日益成为英伟达古迹的压舱石。二季度数据中央业务收入占总收入的比例从去年同期的35%上升到了76%。
如果要提英伟达近几年唯一经历的一个挫败,大概便是2020年对Arm公司的收购因监管缘故原由告吹。
我们之前在第二部分里提到过,从芯片的分类来说,英特尔和英伟达分别处于通才和专才两端。当下数据中央的发展趋势是系统集成程度越来越高,越来越往SoC的方向发展,芯片公司须要整合CPU和GPU,就像苹果在消费者业务里M系列芯片做的那样。
而随着数据中央业务对付两家公司的主要性不断提升,二者都在试图填补自身的短板。
英特尔一贯都是做CPU的,它须要往专才的方向靠,以是过去几年接连收购了Altera、Mobileye、Habana Labs等公司;而英伟达一贯都是做GPU的,以是它须要往通才的方向靠,这构成了它收购Arm的基本逻辑。其余,从这个角度看,AMD由于在很早之前就收购了ATI,有着多年CPU和GPU两方面的打螺丝履历,以是理论上说它实在有些独特的上风。
当然,这桩收购案告吹的最大受害者可能是孙正义,即便他刚从Arm上市中回了波血。
当时软银因终止收购得到的12.5亿美元分离费,对付本来可能得到的收益来说显得不值一提。由于2020年的时候英伟达的收购要约是120亿美元现金,加上215亿美元的英伟达股票。如果按照最新市值打算,这笔交易的代价已经在千亿美元规模。这样看,孙正义愿景基金上个财年亏损的320亿美元,或许都有机会找补回来。
写在末了
英特尔的创始员工和第三任CEO安迪·格鲁夫曾说过一句话,“成功引起自满,自满导致失落败,只有偏执狂才能生存”。
我们很难说这是否道出了英特尔错失落新浪潮的缘故原由,但可以确定的是,黄仁勋的偏执是本日造诣英伟达的关键。在商业和技能两方面,他都称得上是天才。
在目所能及的范围内,当下的英伟达还没有与之匹敌的对手。但万亿英伟达所昭示的大略事实是,它正处在一条出息光明但又令人如蚁附膻的赛道上。 谷歌亚马逊微软这些大厂都在考试测验自己设计的AI加速芯片,瞄准自动驾驶和其他AI算力的创业公司如雨后春笋,而已被甩在身后的AMD和英特尔更有充分的可能卷土重来。
黄仁勋仍需带领英伟达的同道连续保持谦逊谨慎、不骄不躁的作风。