看懂英伟达 2026 全面布局:从「卖显卡」到「卖 AI 工厂」

本文从 CES 2026 发布内容出发,系统梳理了英伟达从 Vera Rubin 架构,到 BlueField-4 DPU 推理架构、Physical AI、自动驾驶与人形机器人的完整布局。如何把 72 张 GPU 虚拟成一颗「超级芯片」,以及通过拆分「算力」与「记忆」重构推理成本结构。

NVIDIA 2026 布局

刚过去的 CES 2026 上,黄仁勋又站在台上,讲了两个多小时。

很多人看完只得到一个结论:没发 6090,啥也没有

但如果你只把这场发布会当成一次「没显卡的春晚」,那确实是错过了重点。

这一次,英伟达真正想传递的是一句话:

游戏结束了,他们要彻底把 AI 这一盘棋下完。

从 Vera Rubin 架构,到 NVL72 整柜 AI 系统,再到云端推理、Physical AI、自动驾驶和人形机器人,

英伟达不再是单纯卖 GPU 的公司,而是在卖一整座「AI 工厂」。

下面我们就用一篇文章,把这份 2026 年的「帝国蓝图」拆开讲清楚。


晨涧云AI算力平台 提供了各种英伟达显卡租用,支持试用。


一、五年前,你还得自己「攒一台 AI 电脑」

先把时间拉回五年前,看一下那时要搞 AI 是什么体验。

如果你是某家 AI 公司的老板,想训练自己的大模型,大概要这么干:

  • 先去找英伟达买一堆 GPU
  • 再去找英特尔 / AMD 买 CPU
  • 去博通买交换机、去 Mellanox(后来被英伟达收购)买网卡
  • 把这堆硬件扛回机房,雇一个年薪百万的系统架构师团队
  • 花三个月,把各种规格不一样的设备「硬拼」成一个勉强能用的集群

最后的结果通常是:

  • 调兼容性就能让你掉一层皮
  • 理论性能写在 PPT 上很好看
  • 真正跑起来,效率可能只有预期的 60%

那时候的英伟达,角色也很单纯——

  • 台上只讲单颗 GPU 有多快
  • 顶多再讲一下 NVLink 带宽、Tensor Core 性能
  • 对于整个系统,只负责「最贵那块芯片」

直到 Hopper,尤其是 Blackwell 时代,情况才开始变化——英伟达消化掉 Mellanox,打通芯片互联,搞出了第一代 NVL72,把 72 张卡塞进一个机柜里,但更多还只是「高端拼装货」。

今天,随着 Vera Rubin 架构的 NVL72 出现,这张拼图终于补全了:

英伟达第一次真正卖的是「一整座 AI 工厂」,而不是几块散装的 GPU。


二、Vera Rubin NVL72:6 颗关键芯片拼出的「AI 工厂模组」

表面上看,Vera Rubin NVL72 就是一个机柜。

但在英伟达的定义里,它更像是一块「由 72 颗 GPU 虚拟成的一颗超级芯片」。

要做到这一点,需要 6 颗关键芯片:

  1. Rubin GPU:算力心脏
  2. Vera CPU:数据调度大脑
  3. NVLink 6 交换芯片:72 卡全互联总线
  4. BlueField-4 DPU:系统管家 + KV Cache 加速
  5. ConnectX-9 + SpectrumX:向外扩展到上千机柜的网络地基
  6. 新一代液冷系统:让这一整柜「插电接水就能用」

我们逐个拆一下。

1. Rubin GPU:一柜 3.6 EFLOPS 的「心脏」

Rubin 是这次的 GPU 主角:

  • 单颗 Rubin 的算力约 50 PFLOPS(浮点性能)
  • 一柜 72 颗,总算力达到 3.6 EFLOPS 级别

这个量级已经接近几年前占满一个足球场的全球第一超算,但现在被压进了一个「冰箱大小」的铁盒子里,而且性能还是人家的数倍。

对开发者来说更重要的是:72 颗物理 GPU 在逻辑上被当成「一颗超大 GPU」来用

2. Vera CPU:为 GPU 生的「数据搬运工」

机柜里还有 36 颗 Vera CPU,比例是 2 张 GPU 配 1 颗 CPU。

它不是传统 x86 通用 CPU,而是英伟达自研、专门面向 AI 的第二代 CPU,特点很明确:

  • 极简指令集,不再纠结复杂的通用逻辑
  • 把几乎所有技能点都加在「内存带宽 + IO 吞吐」上
  • 唯一任务:不让 GPU 因为「等数据」而闲着

以前拿英特尔 CPU 给 GPU 喂数据,有点像让爱因斯坦搬砖。

Vera 则是反过来:专职把砖搬好,让爱因斯坦只管算题

物理上,这 72 张 GPU 是独立的。

那逻辑上怎么看起来像一颗芯片?

答案是第三颗关键芯片:NVLink 6 专用交换芯片

它在机柜内部构建了一个 全互联拓扑

  • 每张 GPU 都有到其他 71 张卡的独立硬件通路
  • 直接绕过传统的 CPU 和 PCIe 总线
  • GPU 访问另一张 GPU 上数据的速度,可达 3.6 TB/s 级别

对开发者来说,这件事的意义非常大:

过去 72 张卡是 72 个「小岛」,
现在更像是一块巨大的统一内存空间。

很多原本必须小心「切 batch、拆模型、写复杂通信代码」的地方,现在可以简化为:

当成一张超大显存的卡来写程序

4. BlueField-4 DPU:系统管家 + KV Cache 加速器

第四颗芯片,是最容易被忽略、但本质上最关键的:BlueField-4 DPU

以前搞集群运维,最烦的一堆杂事包括:

  • 数据解压、压缩
  • 安全加解密
  • 存储访问、虚拟化
  • 多租户隔离、网络虚拟化
  • 以及现在推理时代最头疼的:KV Cache 管理

这些工作如果让 GPU 做,就是浪费算力;

让 CPU 做,又会占用本来就紧张的计算与带宽资源。

BlueField-4 的定位就是:专职管家 + 卸载器——

  • 把运维层面的杂活全部包下来
  • 把 KV Cache 存储、调度、搬运从 GPU 上剥离出去
  • 让 GPU 和 CPU 尽可能只做一件事:算

这也是为什么现在买一整柜 NVL72 回来,

很多以前需要人肉搭积木的事,在硬件层面就被做完了

5. ConnectX-9 与 SpectrumX:让第 1000 台机柜也不掉速

单机柜强只是第一步,真正的难度在于:上千个机柜连起来之后,性能还能不能线性扩展

这里登场的是:

  • ConnectX-9 SuperNIC:单口 800 Gbps 的网卡
  • SpectrumX 以太网交换芯片:为 AI 集群做了全栈优化的交换芯片

它们要解决的不是单点带宽问题,而是:

当你从 1 个柜扩展到 1000 个柜时,每增加一台机器,
性价比是否还是和第一台差不多,
还是说被网络瓶颈拖垮得七零八落。

英伟达给出的答案是:

网络延迟和带宽都围绕 AI 负载重做过,尽量保证「接近线性」扩展

6. 液冷与 PUE:45℃ 热水也能当「冷却液」

最后一块,是看起来最朴素,却直接决定运维成本的:散热与能效

NVL72 的功耗相对上一代翻倍,但这一次:

  • 整个水路和散热系统被重新设计
  • 可以用 45℃ 的热水 做液冷循环,而不是传统的十几度冷水
  • 大幅减少对昂贵冷水机组(Chiller)的依赖
  • 让数据中心的 PUE(能源使用效率)压到更低水平

对运营方来说,这意味着三件事:

  1. 不再需要整套大型制冷机房
  2. 电费和运维显著下降
  3. 真正接近「插电、接水,就能用」

到这一层,Vera Rubin NVL72 已经从「芯片堆积」变成了一个 AI 基础设施产品


三、推理架构的改造:GPU 不再负责「又算又记」

训练市场上,英伟达一直是无可争议的霸主。

但在 推理 市场,以前反而有点尴尬:

  • GPU 很强,但太贵,用来跑简单聊天机器人不划算
  • AMD、Google TPU、自研 ASIC 等在推理侧有很强的性价比优势

黄仁勋很清楚这个短板,所以这两年做了两件事:

  1. 推出专门面向推理的 Rubin CPX,砍掉昂贵 HBM,改用便宜 GDDR7
  2. 更重要的是,在 CES 2026 上,彻底改写推理架构

核心观察是:

现在推理真正的瓶颈,不是 GPU 算得不够快,
而是「记性太差」——KV Cache 胀到离谱。

长上下文模型动辄几万字,每生成一个新 token,都要反复扫描整段历史。

这会产生海量 KV Cache:

  • 放在 HBM 里,又贵容量又有限
  • 不放,又会拖垮推理速度

Rubin 架构的做法是:

  • 让 GPU 专心算
  • 把「记忆」这件事,从 GPU 显存剥离出来,交给 BlueField-4 和专门的存储层

BlueField-4:

  • 把 KV Cache 存在专用内存 / 存储上
  • 通过 800 Gbps 的网络链路,在需要时再高速回填给 GPU
  • 从「单卡推理」变成「系统级推理」

对对手还在比较「单卡性价比」时,英伟达直接换了一套规则:

以前是「一张卡,又算又记」
现在是「GPU 负责算,DPU + 存储负责记」

本质上,这是一种系统级的降维打击:

  • 客户不再需要为了存 KV Cache 去买一堆贵 GPU
  • GPU 利用率提高,推理集群总成本降低

四、Physical AI:让 AI 从屏幕里走出来

训练和推理之外,这次发布会上还有一个高频词:Physical AI

简单理解就是:

AI 不只是活在屏幕上的 ChatGPT,而是长在现实世界里——

  • 机器人
  • 自动驾驶
  • 工厂里的机械臂
  • 各种具身智能体

黄仁勋说了一句很重的话:

「机器人的 ChatGPT 时刻已经到来。」

这句话背后,是一整套从「模拟世界」到「机器人大脑」的布局。

1. Cosmos:给机器人造一个「精神时光屋」

ChatGPT 变聪明的方式,是读海量文本。

那机器人要怎么变聪明?

  • 如果完全依赖现实世界试错,那代价极高:
  • 让机器人学端盘子,可能要打碎十万只盘子
  • 跑真实自动驾驶,每一公里都是风险和成本

英伟达的做法是:先构建一个懂物理规律的视频生成与仿真平台(文稿中称为 Cosmos)。

它的目标是:

  • 看过大量真实世界的视频,学习物理规律(物体如何掉落、碰撞、破碎、流动…)
  • 在计算机中,生成无数段 符合真实物理规律 的虚拟视频与场景
  • 让机器人在这些虚拟世界里进行高强度训练

你可以把它理解成:

现实世界是「正式考场」,
Cosmos 是「精神时光屋里的模拟考试」。

在这个模拟世界里:

  • 一百万个虚拟机器人可以在虚拟厨房里无限练习端盘子
  • 摔盘子无数次也不用赔钱
  • 等它们在模拟里成为「端盘子大师」之后,再把这套策略迁移到真实机器人上

当真实机器人第一次见到盘子,它就已经「有经验」了。

2. 自动驾驶大模型:会「思考」而不是只会「条件反射」

自动驾驶这块,这次也有一个关键变化:

英伟达不只是给车厂卖芯片,而是给出了一套 「能看路、听懂人话、自己做决策」的大模型驾驶系统(文稿中称为一个新的 VLM/多模态模型)。

传统自动驾驶本质上是条件反射:

  • 红灯停,绿灯行
  • 前有车减速,前方无车加速
  • 系统背后是一大堆「如果 A 就 B」的规则和模型

一旦遇到没见过的场景,就容易懵:

  • 货车掉了一地货物
  • 逆光下突然窜出一个人
  • 现场条件和训练数据不一样

大模型驾驶系统想做的是:

  • 像人类老司机一样,以 逻辑 + 视觉理解 来决策,而不是死记规则
  • 在新的场景下,靠推理做出「最合理」的行为,而不是简单超纲就退出

更关键的是,英伟达与传统车企的合作方式:

  • 模型和模拟器数据集都以开源/开放形式提供
  • 车厂可以用自己的数据继续训练、定制风格
  • 数据主权和产品灵魂握在车厂自己手里

与「你要把全部数据交给造车的对手」的模式相比,这对于丰田、福特这种传统车企,是一个更容易接受的选项。

当然,「免费」的大脑最终要跑在英伟达的芯片和云上——

真正卖钱的,还是那整套软硬一体的基础设施。

3. Project GR00T:给人形机器人装上「统一大脑」

在人形机器人方向,英伟达提出了 Project GR00T——

可以理解为:为各种双足机器人、机械体提供统一「大脑」。

新版本的 GR00T 在 CES 上展示的效果包括:

  • 被推一下,机器人会下意识调节重心,而不是先做一堆高延迟的计算
  • 会转头看是谁推了自己,以更「人类」的方式理解互动

在这条线上,英伟达的目标很明确:

不管谁造机器人,
尽量都用英伟达的「操作系统 + 大脑 + 仿真平台」。

五、游戏玩家的复杂心情:没 6090,但方向彻底变了

整场发布会对游戏显卡只字未提,这让很多熬夜等 6090 的玩家很失落。

但在 CES 现场,英伟达还是包了一个大展区展示游戏生态,并且重点展示了 DLSS 4.5 与神经渲染

这释放了一个非常明确的信号:

游戏图形的未来,从「算」变成了「画」。

以前的渲染逻辑是:

  • 显卡老老实实把每一帧都算出来
  • 你想要 4K + 光追 + 高帧率,就必须多一代比一代夸张的纯算力

DLSS 4.5 的思路则是:

  • 每 7 帧画面里,只有 1 帧是硬算出来的
  • 另外 6 帧是由 AI 根据前后帧「脑补」出来的
  • 画面不仅不输,有时在锐度、细节、稳定性上反而更好

这意味着:

  • 高画质、高帧率不再完全依赖「堆料王」级别的 GPU
  • 一张中高端 RTX 50 系列 + 强 AI 渲染,就可以达到传统上可能需要 10 倍算力的效果

对玩家来说,这是一个复杂的消息:

  • 坏消息:堆料时代会慢慢降温,发烧级显卡的差距感可能没以前那么「炸裂」
  • 好消息:游戏体验的上限继续拉高,但「硬件门槛」有望逐步降低

在这条线上,英伟达的战略也很清楚:

把更多「画面升级」的收益,放在软件和 AI 上,而不是无止境堆硬件 FLOPS


六、英伟达真正的护城河:不再是「下一代卡多快」,而是「谁定义了物理世界的算力标准」

用一句话总结这次 CES 2026:

英伟达展示的不是几块新芯片,而是一张「新工业革命」的架构图。

过去的工业革命,是机械、电力、石油改变了「生产物品」的方式。

这一次,英伟达想做的是:把「智能」做成基础设施,渗透进现实世界的每一个角落

  • 数据中心:Vera Rubin + NVL72,把算力做成标准化 AI 工厂模组
  • 推理:GPU + DPU + 存储,重写推理成本结构
  • Physical AI:仿真世界 + 机器人大脑,让 AI 能在物理世界行动
  • 自动驾驶和机器人:提供统一的大脑和系统层,让传统厂商更容易接入

当竞争对手还在算下一代芯片多几个 TOPS、多几块 HBM 时,

英伟达已经在想:

「如果现实世界的 AI 运转规则都由我来定义,
那其他人就只能在这套规则里竞争。」

这才是它真正的护城河。

阅读更多