历史进程中的英伟达
图片来源@视觉中国
文 | 新立场NewPosition
1993年4月5日,黄仁勋这天刚好满30岁,和普里姆以及马拉乔夫斯基三人,在加州圣何塞一家连锁餐厅里讨论着创业成立公司的事。
这家丹尼餐厅位于一座立交桥旁边,环境吵闹同时装修简陋,店铺的前脸布满了弹孔,因为路过的社会人经常朝停在门前的警车开枪。三个创始人此时正拿鸡蛋卷裹香肠片,就着劣质焦咖啡,英伟达就在这样的环境下诞生了。
黄仁勋出生在台南囝仔,今天从这个地方往东北方向不到20公里,就是台积电的第十八晶圆厂。
这个生产基地2017年底开工建设,预计到今年的总投资额将超过1000亿美元,是台积电最昂贵的晶圆厂,其最先进的5纳米和3纳米制程在这落地。无论是英伟达的RTX4000系列游戏显卡,还是当下一卡难求的H100,都在这里完成从硅到芯片的关键转化。两家公司相互成就,如今共同掌握着尖顶星科技,市值合计1.5万亿美元。
从成立之日算起,黄仁勋在英伟达CEO位置上干了整整三十年。论敬业程度,硅谷同行里大概少有人能出其右。
在硅谷叙事模式里,这里成功的科技公司通常在年轻创始人带领下迅速成长为世界巨头,或者已经成为世界巨头的公司因为跟不上形势而快速没落,又或者没落后又再次凭借某个拳头产品重新变得伟大。总之来来回回,兴也勃焉亡也忽焉,核心就是一个快字。
以这样的视角打量,英伟达显然不太一样。除了在最初创业时差点“暴毙”,英伟达在长达二十年的时间里活得相当宁静,谈不上惊艳但也没遭遇大灾大难。
直到最近几年,英伟达突然开挂爆种,从人工智能到加密货币,从元宇宙到ChatGPT,不是英伟达在追风口,而更像是风口失了智般往英伟达身上撞。
作为总设计师,黄仁勋本人显然不会认可这种说法。在他那里,英伟达的故事应该是关于技术理解、商业远见和长期主义的绝佳范例。
顶多再加一点小小的运气。
东亚的风眯了黄仁勋的眼
黄仁勋和另外两个合伙人最终决定创业时,有着相当朴素但又同时触及本质的思考。无论电影、电视或者印刷的书籍报纸,抑或是音乐,这些都是人类用来表达想法讲述故事的媒介。
而当时正显露雏形的3D图像技术,凭借实时生成的画面和互动性,将有可能成为下一种新的大众媒介。
唯一的问题是此时的3D图像任务,由于需要耗费极高的计算量,只有使用极其庞大的专业工作站才能完成。而黄仁勋和英伟达想要做的,就是把这项技术变得足够便宜,然后普及它。
事实上,1993年英伟达成立的时候,它是第一家尝试把3D图像推向普通消费者的公司。不过首先做到这件事的公司并不是英伟达,索尼在一年零八个月后推出的初代PS游戏主机要成功得多,在推出九年后,这款主机出货量突破了1亿台。
另一方面,英伟达前期的先发优势很快就不复存在,短短两年时间里极客遍地的硅谷就冒出了90家英伟达的竞争者。而在这两年时间里,市场形势已经发生了翻天覆地的变化,问题出在DRAM这个元器件上面。
从技术原理上说,图像在计算机内部的存储需要消耗相当大的空间资源。在未经压缩的情况下,如今一张1080P的图片含有超过两百万像素点(1920 × 1080),按照8比特的色深,每个像素点需要4个字节的存储空间,所有像素点合计超过8M字节。而要产生动态连续的观感,屏幕上显示的图像还需要保持每秒多次刷新。
尽管在30年前屏幕的显示规格,无论是说分辨率还是色彩还没有这么高,但存储空间仍然是在算力之外3D图像技术的关键瓶颈。在英伟达成立的1993年,DRAM内存的价格在50美元/MB这个水平,主流VGA显示器的分辨率则是640*480。
即便使用当时最先进的解决方案,3D图像显示所需要的DRAM也得4MB,所以单单是这块DRAM的成本就需要200美元。
加上板上的控制芯片和其他组件,再算上一定的利润空间,最终这些产品的定价得要1000美元往上。虽然今天游戏玩家花大几千或者上万的价格买张显卡还处在可以理解的范畴,但这是因为围绕这张显卡已经建立起了丰富的生态。而在30年前是没有这么多所谓的3A大作的,消费级市场不会有人愿意花这么多钱买个电子元件回来当摆设。
所以黄仁勋他们围绕DRAM搞了技术创新,使得英伟达产品需要的内存空间大大降低,从红杉那里融到的1千万美元很大部分也都花在了这个“遥遥领先”的解决方案上。黄仁勋本来以为这会给他们的产品带来差异化的竞争力,但到创业的第二年,DRAM的价格就从单价50美元跌到了5美元。
这意味着英伟达前期瞄着内存优化做的巨大投入完全打了水漂。
后来的几乎所有文章都把英伟达NV1这款产品的失败,归结到跟OpenGL路线的三角渲染模式不兼容上面,但实际上不兼容并不是NV1失败的真正原因。给NV1造成致命打击的,是内存价格暴跌把NV1从先进变成了不先进,而一款不先进的产品并没有机会参与行业标准的塑造,最终的不兼容其实是结果而非原因。
DRAM价格暴跌的原因是供过于求,新产能的主要贡献者是亚洲人。在九十年代,韩国和台湾的经济都出现了爆发性增长,两家的经济模式都是出口导向,支柱产业是电子和半导体。以韩国为例,在政府支持下,几家财阀借助从银行获得的贷款大量进行资本开支,生产规模迅速扩张。仅韩国内存行业产能在1991到1995的短短几年里就增长了8.3倍。
由于行业特性,内存晶圆厂需要保持很高的产能利用率才能摊平固定成本。内存厂商甚至会在明知供给远超需求的情况下继续生产,这进一步推低了产品价格。不过这些余波对黄仁勋而言已经不重要了,因为此刻的英伟达要抛掉过去另起新灶了。
英特尔不是对手,是黑洞
在NV1发布的两年后,英伟达迎来了第一款成功的产品:RIVA128。RIVA128这块产品标志着英伟达在技术路线上的重大转向,英伟达彻底放弃了之前与行业不兼容的解决方案,选择全面拥抱Direct3D和OpenGL的技术规范。
这个时候3Dfx公司生产的Voodoo显卡已经成为行业标杆,而刚推出的RIVA128由于驱动问题在图像质量上跟Voodoo有明显差距。
不过英伟达通过后续的固件更新,很快使RIVA128输出的图像画质赶上甚至超越Voodoo。在这种情况下,RIVA128两个设计优势就体现了出来。
一方面,大概是前期走自主路线累积的技术基础,英伟达在RIVA128上通过特殊的内存架构设计,使得其能够输出更高分辨率的图像。另一方面,跟Voodoo显卡不同,RIVA128同时集成了2D和3D图形芯片,这使得插RIVA128的电脑不需要一张单独的2D显卡来处理输出。
接下来的时间里,RIVA128及其改款产品帮助英伟达在显卡市场站稳了脚跟。1999年,英伟达发布了第一款GeForce系列产品:GeForce256。尽管在这之前其实已经有了类似的概念,但英伟达仍然把GeForce256称之为“世界上第一款GPU”,GPU这个新潮的词汇走向大众化也是从这开始的。
GeForce256的确算得上是一张划时代的GPU,它第一次把多边形转换与光源处理(T&L)相关的几何计算从CPU肩上解放了出来。
这里我们不妨对芯片特点做个简单的科普。所有的芯片大致可以分成两个类型,通才和专才。通才类型的芯片就是CPU,它们是不折不扣的多面手,能够执行各种通用普遍的计算任务。而GPU则更接近专才,它们就像精通某项技艺的大国工匠,擅长于把聚焦范围内的任务做到极致。
而芯片行业历史上的一个大趋势,就是由于摩尔定律的存在,CPU能做的事情越来越多,性能也越来越强。这就导致很多计算任务开始是由专有设备完成的,但当这些任务变得普遍同时又趋于稳定的时候,把它们集成进CPU就是水到渠成的转折。
这个过程中,CPU厂商加强了产品竞争力,消费者因为集成获得了性价比,只有原来这些专有厂商被扫进了历史的垃圾堆:通才型芯片像个黑洞一样,把专才芯片吸纳进去。
比如,密码学作为现代网络通信的关键基础设施,初期就是靠单独的集成电路实现的,后来变成了CPU的几条指令。其他像音频卡、视频卡之类的产品,也都重复了类似的发展路径。
在这个背景下,再来看GeForce256将T&L计算任务从CPU那里拿过来的操作,就有了非同一般的象征意义。因为从行业发展方向来说,这是跟我们上面描述的“通才吸纳专才”这个过程完全相反的动作。
作为芯片行业一个刚刚起步的玩家,在看到那些同行前赴后继的悲惨命运过后,黄仁勋明白只有创造独特价值,企业才有长期存在的可能。
幸运的是,跟密码学或者普通的音视频解码相比,3D图像领域有着高得多的天花板。普通用户总是在期待画面质量更加精致,图像刷新速率更高,这带来了对GPU性能的追求。而反过来当GPU对现有需求进行回应后,又会再度激发新的需求,这构成了长期维持的正向循环激励。
直到现在,最旗舰GPU往往也只是刚好满足最苛刻3A游戏的性能需求。同时,像元宇宙这类新的应用前景,已经因为触及现有的算力瓶颈而难以到达。
所以现实的情况总是,即便核显达到了几年前独立GPU的性能,英伟达新的GPU又与之拉开了显著的差距。对英特尔而言,在很长一段时间里它其实算不上英伟达的对手,因为它并不想进入并主导GPU这个行业,而是在等待吞并并消灭这个行业,就像它曾经多次做到的那样。
漫长季节里长出的CUDA
到目前为止的30年里,除了创立初期那段时间,此后的英伟达几乎再也没有遇到过生死存亡的危急时刻。在把昔日巨头3Dfx收入囊中过后,GPU行业进入了英伟达/ATI寡头垄断时代。随后十几年里英伟达的市场份额稳步提升,但整体营收则在2008年达到40亿美元过后,缓慢振荡提升,最终在2016年才艰难到达50亿美元的里程碑。
与之对应的是,在2016年之前,英伟达的股价保持在10美元以下的区间随业绩表现浮动。这是一段漫长的季节,过程中黄仁勋带领同事做了辛勤的尝试,英伟达庞大帝国的地基在此期间悄然建立。
我们在上个部分曾经谈过,为了避免被集成,造GPU的英伟达需要跑得比造CPU的英特尔更快。这个目标是通过造更强大的芯片,同时向开发者群体提供更多能有效利用这些强大芯片的工具栈来实现的。
这个群体里比例最大的一部分是游戏开发者,所以英伟达发明了可编程着色器(programmable shader)这样的技术,来使得游戏开发在画面呈现上有更多的灵活度和特色。
黄仁勋本人把可编程着色器视为英伟达史上最关键的创新之一,它扩张了行业边界,也正是这项技术使GPU能够消耗掉越来越多的晶体管和算力,也就避免了被CPU或者主板上的芯片组集成吞并。
但黄仁勋的技术远见在于,他不只是带着英伟达沿着计算图形这条路走到底,还很早就看到了GPU和CPU在计算范式上的本质区别,并以极大的耐心和勇气为此做了充分的准备。
人们在进入千禧年后不久,其实就已经发现摩尔定律在逐步失效,因而多核CPU渐成趋势。发展到今天,顶级的消费级CPU已经堆到16个物理核心,服务器CPU甚至有高达128个物理核心,因此面向CPU的多线程并行编程早已变得相当普遍。
但CPU的多核并行跟GPU出发点完全不同,多核CPU的出现更多是为应对单核性能难以继续保持大幅提升的退而求其次,而GPU从一开始方法论就是把大问题分解成尽可能多的小问题,然后再用尽可能多的“弱”计算核心去解决这些小问题。
举个例子,跟如今高端消费级CPU的16个核心相比,像4090这类高端的消费级GPU拥有超过16000个核心,千倍的量变显然意味着质变。
以可编程着色器为代表的技术,只是上述模式在图形计算领域的应用,将其进一步推而广之至通用计算领域将有更广阔的新世界,而英伟达打开这个新世界的钥匙就是CUDA。
用黄仁勋的话说,第一步是\”make graphics programmable\”, 第二步则是\”open up GPU for programmability for all kinds of things\”。
在英伟达推出CUDA之前,GPU编程是件非常麻烦的事情,需要写很多底层代码。CUDA的易用性使得更广泛的人群成为开发者,释放出GPU这个计算平台的潜力。但在英伟达的每张显卡上都嵌入对CUDA的支持是种成本很高的做法,CUDA体系的研发和维护也都需要巨量的资源投入。
不过无论黄仁勋如何苦口婆心地阐述CUDA是项多么伟大的创新,华尔街的分析师们并不买账,所以英伟达的股票长期保持在个位数美元的位置徘徊。站在今天往回看,当然会有人骂这群分析师身在宝山不识宝。不过分析师也有话说啊,毕竟这些年里科技公司吹过但没实现的牛逼太多了。
失败的Tegra,成功的Orin
2013年9月5日,雷军在北京国家会议中心发布了第三代小米手机。黄仁勋当时作为特邀嘉宾,也来到了现场。当时小米还没有PC产品线,黄仁勋来北京是为了给旗下的手机SoC站台,小米3的移动版用的是英伟达Tegra4四核CPU。
尽管发布会上两人谈笑风生,但雷军并没有把宝全压在英伟达上面,小米3的联通和电信版都用的高通处理器。
这是英伟达进军移动计算领域的高光时刻,也是黄仁勋当时为英伟达寻找的下个星辰大海。在智能手机浪潮兴起后,黄仁勋认为移动计算领域的蓬勃需求将诱发一场革命,这最终甚至会反过来颠覆PC和服务器市场。
2011年初,黄仁勋接受科技媒体VentureBeat采访时说到,Tegra系列芯片将会使英伟达的有效市场扩大6倍。
不过在说完这句话后,黄仁勋还顺便跟了句诺基亚从塞班系统向Windows的转型会是英伟达的“绝好机会”。除诺基亚之外,Tegra芯片的另一个关键客户是摩托罗拉。旗下的安卓平板Motorola Xoom正是使用的Tegra2芯片。在苹果的iPad2代500美元起售的情况下,Xoom这款平板的定价达到了800美元。
事后来看,这些细节大概已然预示了英伟达Tegra产品线进入移动芯片市场将遭受的失败。
不过英伟达对Tegra的投入并非竹篮打水,颇有失之东隅收之桑榆的幸运感。在最终因为基带问题彻底退出手机市场后,Tegra系列产品转变了设计目标,从此前瞄准功耗和效率的表现调整到专注于性能。
典型的代表产品是Tegra X1,该款芯片被用在了任天堂的Switch游戏主机上面,被认为带来了优质的画面体验。
更进一步的,研发Tegra系列芯片的过程中,英伟达积累了丰富的SoC开发经验,这虽然最终没能撬开移动市场,但却帮助英伟达快速布局了智能汽车时代。在采用软硬件全栈自研之前,特斯拉汽车上就搭载的Tegra X2芯片。
同时,当前高端智能汽车上标配的Orin芯片也是属于Tegra这个系列。实际上,目前英伟达服务于驾驶辅助的“Nvidia Drive”和服务于嵌入式设备自动化的“Nvidia Jetson”都是基于Tegra系列芯片。
自动驾驶芯片是智能驾驶平台的关键要素,在英伟达之外,高通和英特尔也对此雄心勃勃。不过就目前的形势来说,英伟达仍然处于明显领先的位置。
英特尔这边,在以高额溢价支付153亿美元收购Mobileye过后,虽然一举跨进了汽车零部件供应商的第一阵营,但在高端产品性能上已被英伟达拉开差距。根据Mobileye向美国证监会SEC提交的文件,Mobileye的估值已从去年3月的500亿美元大幅下滑至160亿美元。而高通这边,在以440亿美元收购恩智浦的交易告吹后,主要声量更多集中在以骁龙8155为代表的座舱芯片上面。
算法、硬件和彩票
爱迪生在1877年造出了世界上第一台留声机,随后这项发明跟黑胶唱片一起,在那个年代的音乐爱好者群体里扩散开来。但爱迪生本人对这个现实感到沮丧和失望,因为他最初为留声机设计的用途是记录临终之人的遗言。跟这个设想比起来,拿留声机听音乐这事就有点太low了。
在科技史上,这种不按剧本走的发明其实不少,另外一个较为著名的例子是辉瑞公司研发的心血管药物西地那非。这种命运的奇特安排有时是一种捉弄,有时则被证明是一种幸运,就像英伟达一样。
当然,这么说并不是要否定黄仁勋的技术眼光和商业才能,而是强调在个人奋斗的因素之外,也要考虑到历史的行程。
黄仁勋当然一直知道在电子游戏之外,英伟达的GPU存在更多的潜力,从一种新的计算范式角度来理解GPU,将会带来大得多的可能。但根据福布斯2016的一篇文章,他并没有实际上预料到深度学习会成为GPU的爆发性应用。
深度学习的基础性工作早在上个世纪就已经奠基完毕:反向传播算法最早在1963年就已经提出,深度卷积神经网络则是在1979年就存在了。但在中间这几十年里,这些概念并没有被发扬光大,直到我们有了足够多的数据和充分的算力。
事实上,Google Brain一位叫做萨拉·胡克的研究员把深度学习通过现代GPU设备取得的进展称之为中了“硬件彩票”。虽然萨拉那篇论文的核心观点是想提醒公众,如今在学术界和业界取得成功脱颖而出的研究想法,很大可能并不是因为这些想法本身在解决对应问题上优于其他失败的idea,只是因为这类想法更符合现有的硬件环境。
她认为深度学习在GPU这类并行计算设备帮助下取得的成绩,或许就是例子。但从萨拉的观点中,我们显然也可以反过来窥见一丝GPU最终被深度学习选中的偶然性。
今天我们谈起深度学习的起源和英伟达的命运拐点时,总是绕不开的一个标志性事件,即2012年Hinton及他的博士生Krizhevsky和Sutskever参加ImageNet图像识别大赛时,用卷积神经网络把错误率从上年度的25%一举降到了15%。而Krizhevsky等人在训练神经网络模型的时候,使用了两张英伟达的GeForce游戏显卡学习了120万张图片。
但Krizhevsky等人并不是第一个使用GPU来训练深度神经网络的学者。吴恩达的斯坦福团队在2008年就写了一篇《Large-scale Deep Unsupervised Learning using Graphics Processors》的论文,里面提到用GPU可以大幅加速神经网络模型的学习过程。
然而直到2013年的英伟达GTC大会上,黄仁勋演讲时的keynote里都基本没有怎么提AI。要等到第二年的GTC,我们才会看到黄仁勋把人工智能领域看作英伟达最关键的业务。
这也说明黄仁勋并非一开始就推all in AI,而是在业界已然形成风气后才做这件事。不过即便从这时间节点上来说,英伟达的动作也算相当早了。
当然,如之前所说,没有精准预见AI会在多年后成为英伟达的帝国基座,并不影响黄仁勋的伟大。
某种程度上说,从最初沿着图像计算这个方向的创新,到后来围绕CUDA建立的技术生态,英伟达的布局注定将会长出惊艳的果实。黄仁勋没有预料到这个果实具体会是什么,但他知道它一定会长出来。
最新的二季度财报显示,英伟达本季营收达到了破纪录的135.1亿美元,同比增长101%。其中,最大贡献为数据中心业务,当季业务收入为103.2亿美元,同比增长171%,同创下历史新高。即便在之前的业绩指引里,已经预料到这个季度营收和利润会爆,但管理层和华尔街都没想到会爆的这么厉害。
自2021财年Q2数据中心营收超过游戏业务以来,前者日益成为英伟达业绩的压舱石。二季度数据中心业务收入占总收入的比例从去年同期的35%上升到了76%。
如果要提英伟达近几年唯一经历的一个挫败,大概就是2020年对Arm公司的收购因监管原因告吹。
我们之前在第二部分里提到过,从芯片的分类来说,英特尔和英伟达分别处于通才和专才两端。当下数据中心的发展趋势是系统集成程度越来越高,越来越往SoC的方向发展,芯片公司需要整合CPU和GPU,就像苹果在消费者业务里M系列芯片做的那样。
而随着数据中心业务对于两家公司的重要性不断提升,二者都在试图弥补自身的短板。
英特尔一直都是做CPU的,它需要往专才的方向靠,所以过去几年接连收购了Altera、Mobileye、Habana Labs等公司;而英伟达一直都是做GPU的,所以它需要往通才的方向靠,这构成了它收购Arm的基本逻辑。另外,从这个角度看,AMD由于在很早之前就收购了ATI,有着多年CPU和GPU两方面的打螺丝经验,所以理论上说它其实有些独特的优势。
当然,这桩收购案告吹的最大受害者可能是孙正义,即便他刚从Arm上市中回了波血。
当时软银因终止收购获得的12.5亿美元分手费,对于本来可能获得的收益来说显得不值一提。因为2020年的时候英伟达的收购要约是120亿美元现金,加上215亿美元的英伟达股票。如果按照最新市值计算,这笔交易的价值已经在千亿美元规模。这样看,孙正义愿景基金上个财年亏损的320亿美元,或许都有机会找补回来。
写在最后
英特尔的创始员工和第三任CEO安迪·格鲁夫曾说过一句话,“成功引起自满,自满导致失败,只有偏执狂才能生存”。
我们很难说这是否道出了英特尔错失新浪潮的原因,但可以确定的是,黄仁勋的偏执是今天成就英伟达的关键。在商业和技术两方面,他都称得上是天才。
在目所能及的范围内,当下的英伟达还没有与之匹敌的对手。但万亿英伟达所昭示的简单事实是,它正处在一条前途光明但又令人趋之若鹜的赛道上。 谷歌亚马逊微软这些大厂都在尝试自己设计的AI加速芯片,瞄准自动驾驶和其他AI算力的创业公司如雨后春笋,而已被甩在身后的AMD和英特尔更有充分的可能卷土重来。
黄仁勋仍需带领英伟达的同志继续保持谦虚谨慎、不骄不躁的作风。