1. 首页>>财经头条

黄仁勋,碰到大麻烦

正如黄仁勋 (Jensen Huang) 喜欢说的那样,摩尔定律已死——而在本月的 Nvidia GTC 大会上,这位 GPU 大佬的首席执行官无意中透露了计算缩放定律的根深蒂固。

黄仁勋站在台上,不仅展示了这家芯片设计公司的下一代Blackwell Ultra处理器,还透露了有关其未来两代加速计算平台的大量细节,其中包括一个包含576 个 GPU 的600kW 机架级系统。我们还了解到,即将于 2028 年问世的 GPU 系列将以Richard Feynman的名字命名。你肯定在开玩笑!

芯片制造商不时透露其发展路线图并不罕见,但我们通常不会一次性获得这么多信息。这是因为 Nvidia 陷入了困境。它遇到的障碍不只一个,而是好几个。更糟糕的是,除了投入资金解决问题外,这些障碍基本上都不受 Nvidia 的控制。

这些挑战对于那些关注的人来说并不意外。分布式计算一直是瓶颈打地鼠游戏,而人工智能可能只是终极的打地鼠游戏。

一切都从这里开始

其中第一个也是最明显的挑战是围绕计算扩展(scaling compute)。

近年来,工艺技术的进步已经放缓。虽然仍有一些可以改变的因素,但改变的难度却呈指数级增长。

面对这些限制,Nvidia 的策略很简单:尽可能扩大每个计算节点的硅片数量。如今,Nvidia 最密集的系统(或真正的机架)使用其高速 1.8TB/s NVLink 结构将 72 个 GPU 整合到一个计算域中。然后使用 InfiniBand 或以太网将八个或更多机架连接在一起,以实现所需的计算和内存容量。

在 GTC 上,Nvidia透露了其计划将 GPU 数量提升至每机架 144 个,最终达到 576 个。不过,规模扩大并不仅限于机架;芯片封装也同样如此。

一年前 Nvidia推出Blackwell 加速器时,这一点就变得显而易见。这些芯片的性能比 Hopper 高出 5 倍,这听起来很棒,但你意识到它需要两倍的芯片数量、新的 4 位数据类型和 500 瓦以上的功率才能实现。

事实是,以 FP16 为标准,Nvidia 顶级规格的 Blackwell 芯片仅比 GH100 快 1.25 倍,密度为 1,250 teraFLOPS,而密度为 989 —— 只是恰好有两个而已。

我们尚不清楚 Nvidia 计划在其下一代芯片中使用哪种工艺技术,但我们知道 Rubin Ultra 将延续这一趋势,从两个光罩限制芯片增加到四个。即使效率提高了约 20%,黄仁勋预计台积电 2nm 仍将是一个热门技术。

这不仅仅是计算,还有内存。眼尖的读者可能已经注意到 Rubin 和 Rubin Ultra 之间的容量和带宽有了相当大的提升——每个封装的288GB 对 1TB。其中大约一半来自更快、容量更大的内存模块,但另一半来自内存专用硅片数量翻倍,从 Blackwell 和 Rubin 上的 8 个模块增加到 Rubin Ultra 上的 16 个。

更高的容量意味着 Nvidia 可以将更多的模型参数(FP4 时约 2 万亿)塞进一个封装中,或者每个“GPU”中 5000 亿个,因为他们现在计算的是单个芯片而不是插槽。HBM4e 还有望有效地将内存带宽提高一倍,超过 HBM3e。带宽预计将从目前每个 Blackwell 芯片的约 4TB/s 跃升至 Rubin Ultra 的约 8TB/s。

不幸的是,如果工艺技术没有重大突破,未来 Nvidia GPU 封装很可能会占用更多的硅片。

好消息是,工艺改进并不是扩展计算或内存的唯一方法。一般来说,从 16 位精度降至 8 位精度可以有效地使吞吐量翻倍,同时还可以将给定模型的内存需求减半。问题是 Nvidia 已经没有足够的位数可以降低来提高性能了。从 Hopper 到 Blackwell,Nvidia 降低了 4 位,使硅片增加了一倍,并声称浮点性能提高了 5 倍。

但在四位精度以下,LLM 推理会变得非常粗糙,困惑度分数会迅速上升。话虽如此,围绕超低精度量化,目前有一些有趣的正在进行中,精度低至 1.58 位,同时保持准确性。

这并不意味着降低精度并不是提高 FLOPS 的唯一方法。您还可以将较少的芯片面积分配给 AI 工作负载不需要的更高精度数据类型。

我们在 Blackwell Ultra 上看到了这一点。Nvidia 加速计算业务部副总裁 Ian Buck 在一次采访中透露,他们实际上削弱了芯片的双精度 (FP64) 张量核心性能,以换取 50% 以上的 4 位 FLOPS。

这是否表明 FP64 即将被 Nvidia 淘汰还有待观察,但如果您真的关心双精度运算,AMD 的 GPU 和 APU 应该位于您的首选名单之首。

无论如何,Nvidia 的前进道路是明确的:从现在开始,其计算平台只会变得更大、更密集、更热、更耗电。正如上周在新闻发布会上不吃热量的黄仁勋所说,机架的实际极限是你能够为其提供多少电量。

“现在一个数据中心的功耗是 250 兆瓦。这差不多就是每个机架的功耗限制。我认为剩下的只是细节问题,”黄仁勋说道。“如果你说一个数据中心的功耗是 1 千兆瓦,那么我会说 1 千兆瓦/机架听起来是个不错的限制。”

无法逃避电力问题

自然,600kW 机架对于数据中心运营商来说是一个极其令人头痛的问题。

需要明确的是,冷却兆瓦级超密集计算并不是一个新问题。Cray、Eviden 和联想的人们多年来一直在解决这个问题。变化的是,我们谈论的不是每年少数几个精品计算集群。我们谈论的是数十个集群,其中一些集群非常大,如果将 200,000 个 Hopper GPU 与 Linpack 捆绑在一起可以赚钱的话,它们足以取代 Top500 中最强大的超级集群。

在这种规模下,高度专业化、小容量的热管理和电力输送系统根本无法满足需求。不幸的是,数据中心供应商——你知道那些销售那些让你的数百万美元的 NVL72 机架正常工作所需的不那么性感的零碎东西的人——现在才赶上需求。

我们怀疑这就是为什么到目前为止宣布的 Blackwell 部署中有很多都是针对风冷 HGX B200,而不是黄一直大肆宣传的 NVL72。这些八 GPU HGX 系统可以部署在许多现有的 H100 环境中。Nvidia 多年来一直在生产 30-40kW 机架,因此跃升至 60kW 并不是什么难事,事实上,每个机架减少到两到三台服务器仍然是一种选择。

NVL72 是一种机架式设计,其灵感主要来自超大规模计算设备,配有直流母线、电源滑轨和前端网络。在 120kW 的液冷计算下,在现有设施中部署超过几个这样的设备很快就会出现问题。而一旦 Nvidia 的 600kW 巨型机架于 2027 年底首次亮相,这只会变得更加困难。

这就是黄仁勋不断谈论的“人工智能工厂”发挥作用的地方——与施耐德电气等合作伙伴共同设计的专用数据中心,以满足人工智能的电力和散热需求。

令人惊讶的是,在详细介绍了未来三年的 GPU 路线图一周后,施耐德宣布在美国进行 7 亿美元的扩张,以提高支持 GPU 所需的所有电源和冷却套件的产量。

当然,拥有为这些超密集系统供电和冷却所需的基础设施并不是唯一的问题。首先,为数据中心供电也同样是个问题,而这在很大程度上不受 Nvidia 的控制。

每当 Meta、甲骨文、微软或其他任何公司宣布另一个 AI 比特仓库时,通常都会有一份丰厚的电力购买协议。Meta 在河口诞生的大型 DC与一座 2.2GW 的天然气发电厂同时宣布——这些可持续性和碳中和承诺就到此为止了。

尽管我们希望看到核能的回归,但即使最乐观的预测也认为小型模块化反应堆将在 2030 年代左右部署,因此我们很难认真对待小型模块化反应堆。

云厂商的决定,带来压力

对于黄仁勋和英伟达来说,他们还在碰到的一个问题是:云厂商似乎正在放缓他们的数据中心建设步伐。

投资银行 TD Cowen 的最新报告显示,微软已经放弃了在美国和欧洲租赁价值 2 千兆瓦数据中心容量的谈判,并且已经推迟和取消了其他数据中心的租赁。该银行的分析师认为,微软取消租约“主要是由于其决定不支持增量式开放人工智能训练工作量”。就在同一个月前,同一分析师透露微软已终止了美国数百兆瓦数据中心容量的租约。

对于某些人来说,这些取消意味着人工智能热潮即将破灭。

然而,我们认为微软可能撤回其数据中心租赁的原因有一个更简单的解释:许多数据中心无法满足高端人工智能硬件产生的电力和冷却需求。

Nvidia 的大规模 NVL72机架级系统承诺,推理工作负载的性能将达到其 Hopper GPU 的 30 倍或更高,训练性能将达到其 Hopper GPU 的 4 倍。这种性能是以更密集的机架、更高的功耗和更多的废热产生为代价的。安装 Nvidia 最新产品的机架额定功率为 120kW,是典型 Hopper 机架的三倍。液体冷却不再是一种选择,而是一种不可避免的要求。

正如 TD Cowen 所指出的,超大规模企业和云提供商必须重新设计他们的数据中心,以适应超密集、耗电的设备——而这样做绝非易事。

因此,微软签署的数据中心租约并不能处理 Nvidia 的最新套件(以及接下来的套件)——无论后者是做什么的——都是短视的。

Omdia 首席分析师 Alan Howard 向The Register表示,数据中心容量规划“是一个非常棘手的游戏,最不希望出现的情况是需求超过容量。与执行相比,获取土地和确保电力的整个过程成本较低。”

如果微软计划租赁的数据中心或主机托管设施无法满足这些更密集系统的需求,那么不难理解为什么这家软件巨头会放弃并专注于建设专用设施或转移到更合适的地点。

微软已经表示相信需要全新的数据中心设计,甚至在 2024 年详细制定了此类设施的计划。

然而,TD Cowen 指出,让新建数据中心的容量投入使用需要时间。关键部件和能源供应的短缺也对这一情况不利。Omdia 的 Howard 表示,目前从头开始构建一个数据中心大约需要 24 个月,并指出 xAI 在田纳西州的 Colossus 集群是在 10 个月内建成的。

TD Cowen 声称,微软已指示其数据中心合作伙伴开始改造现有设施以支持液体冷却。而且,我们注意到,可以使用过道内冷却剂储存器、分配单元和液体-空气热交换器来支持现有设备大厅中的液体冷却系统。

事实上,该银行的分析表明,随着人工智能工作负载从训练转向推理,改造可能比新租约更能体现增长。

该文件指出:“我们越来越相信,推理需求的初始指标将是超大规模改造的速度,而不是主要市场中第三方租赁在现有可用区域内增量子部署的速度。”

不过,由于 Nvidia 已经在规划 600kW 机架,改造后是否能满足用户的需求还有待观察。

除了改造新设施之外,值得注意的是,微软已经拥有大量 Hopper GPU,其中许多都用于运行 OpenAI 的训练工作负载。

如果微软确实像 TD Cowen 所声称的那样减少了对 OpenAI 的训练工作,那么雷德蒙德可以将计算能力转换为自己的推理工作负载,或将其出租给客户。

微软发言人在声明中表示,该公司仍承诺在 2025 财年在基础设施上投入 800 亿美元。

“得益于我们迄今为止所做的大量投资,我们完全有能力满足当前和不断增长的客户需求。仅去年一年,我们增加的产能就超过了历史上任何一年。虽然我们可能会在某些领域战略性地调整基础设施,但我们将继续在所有地区保持强劲增长。这使我们能够投资和分配资源到未来的增长领域,”该发言人表示。

追随领头羊

需要明确的是,这些障碍并非 Nvidia 独有。AMD、英特尔以及所有其他争夺 Nvidia 市场份额的云提供商和芯片设计师不久后必定会遇到同样的挑战。Nvidia 恰好是第一个遇到这些挑战的公司之一。

虽然这确实有其缺点,但它也使 Nvidia 处于一个独特的地位,可以影响未来数据中心电源和热设计的方向。

正如我们之前提到的,黄仁勋之所以愿意透露其下一代三代 GPU 技术并预告其第四代技术,是为了确保其基础设施合作伙伴能够在这些技术最终问世时为其提供支持。

黄仁勋表示:“我之所以向全世界公布 Nvidia 未来三至四年的发展路线图,是为了让其他人都可以进行规划。”

另一方面,这些努力也为竞争芯片制造商扫清了道路。如果 Nvidia 设计出 120kW 或现在的 600kW,机架和主机托管提供商以及云运营商愿意支持这一点,那么 AMD 或英特尔现在就可以将同样多的计算能力装入他们自己的机架级平台,而不必担心客户会把它们放在哪里。

对于英伟达来说,还有一个不确定因素,那就是他们在中国的业务。

在过去几年,拜登发布了多项禁令,阻止英伟达向中国出售最先进的芯片。现在,英伟达可以销售到国内的数据中心包括 A100 和 H100功能削弱版本的A800 和 H800 芯片,以及后来的功能更强大的H20。其中,H20更是成为现在中国最为热销的GPU。因为虽然H20 的核心数量减少,性能较低,但仍能够提供 AI 功能。甚至连谷歌和 Meta 等大公司都在使用这种GPU。

根据 Nvidia 的10-K 表,中国大陆和香港是该芯片制造商的第四大市场,占其 2025 财年收入的约 13%(即 171 亿美元)。

然而,据《金融时报》报道,中国监管机构将出台先进芯片的能效规定。这些规定将禁止中国客户在建设或扩建数据中心时使用 Nvidia 的 H20 芯片。《金融时报》称,虽然新规尚未全面实施,但监管机构正在劝阻中国科技巨头订购 H20。

据英国《金融时报》报道,英伟达正在寻求与中国监管机构进行谈判,并考虑进行技术变革以满足规定。然而,这些变化可能会削弱芯片的性能。这就让英伟达面临销售额被华为等中国国内竞争对手抢走的风险。

Nvidia 在给英国《金融时报》的一份声明中表示:“我们的产品在我们服务的每个市场都具有极佳的能效和价值。随着技术的快速发展,出口管制政策应该进行调整,以允许美国公司提供尽可能节能的产品,同时仍能实现政府的国家安全目标。”

本文采摘于网络,不代表本站立场,转载联系作者并注明出处:https://ylfx.com/toutiao/54116.html