看懂英伟达 2026 全面布局:从「卖显卡」到「卖 AI 工厂」
本文从 CES 2026 发布内容出发,系统梳理了英伟达从 Vera Rubin 架构,到 BlueField-4 DPU 推理架构、Physical AI、自动驾驶与人形机器人的完整布局。如何把 72 张 GPU 虚拟成一颗「超级芯片」,以及通过拆分「算力」与「记忆」重构推理成本结构。
刚过去的 CES 2026 上,黄仁勋又站在台上,讲了两个多小时。
很多人看完只得到一个结论:没发 6090,啥也没有。
但如果你只把这场发布会当成一次「没显卡的春晚」,那确实是错过了重点。
这一次,英伟达真正想传递的是一句话:
游戏结束了,他们要彻底把 AI 这一盘棋下完。
从 Vera Rubin 架构,到 NVL72 整柜 AI 系统,再到云端推理、Physical AI、自动驾驶和人形机器人,
英伟达不再是单纯卖 GPU 的公司,而是在卖一整座「AI 工厂」。
下面我们就用一篇文章,把这份 2026 年的「帝国蓝图」拆开讲清楚。
晨涧云AI算力平台 提供了各种英伟达显卡租用,支持试用。
一、五年前,你还得自己「攒一台 AI 电脑」
先把时间拉回五年前,看一下那时要搞 AI 是什么体验。
如果你是某家 AI 公司的老板,想训练自己的大模型,大概要这么干:
- 先去找英伟达买一堆 GPU
- 再去找英特尔 / AMD 买 CPU
- 去博通买交换机、去 Mellanox(后来被英伟达收购)买网卡
- 把这堆硬件扛回机房,雇一个年薪百万的系统架构师团队
- 花三个月,把各种规格不一样的设备「硬拼」成一个勉强能用的集群
最后的结果通常是:
- 调兼容性就能让你掉一层皮
- 理论性能写在 PPT 上很好看
- 真正跑起来,效率可能只有预期的 60%
那时候的英伟达,角色也很单纯——
- 台上只讲单颗 GPU 有多快
- 顶多再讲一下 NVLink 带宽、Tensor Core 性能
- 对于整个系统,只负责「最贵那块芯片」
直到 Hopper,尤其是 Blackwell 时代,情况才开始变化——英伟达消化掉 Mellanox,打通芯片互联,搞出了第一代 NVL72,把 72 张卡塞进一个机柜里,但更多还只是「高端拼装货」。
今天,随着 Vera Rubin 架构的 NVL72 出现,这张拼图终于补全了:
英伟达第一次真正卖的是「一整座 AI 工厂」,而不是几块散装的 GPU。
二、Vera Rubin NVL72:6 颗关键芯片拼出的「AI 工厂模组」
表面上看,Vera Rubin NVL72 就是一个机柜。
但在英伟达的定义里,它更像是一块「由 72 颗 GPU 虚拟成的一颗超级芯片」。
要做到这一点,需要 6 颗关键芯片:
- Rubin GPU:算力心脏
- Vera CPU:数据调度大脑
- NVLink 6 交换芯片:72 卡全互联总线
- BlueField-4 DPU:系统管家 + KV Cache 加速
- ConnectX-9 + SpectrumX:向外扩展到上千机柜的网络地基
- 新一代液冷系统:让这一整柜「插电接水就能用」
我们逐个拆一下。
1. Rubin GPU:一柜 3.6 EFLOPS 的「心脏」
Rubin 是这次的 GPU 主角:
- 单颗 Rubin 的算力约 50 PFLOPS(浮点性能)
- 一柜 72 颗,总算力达到 3.6 EFLOPS 级别
这个量级已经接近几年前占满一个足球场的全球第一超算,但现在被压进了一个「冰箱大小」的铁盒子里,而且性能还是人家的数倍。
对开发者来说更重要的是:72 颗物理 GPU 在逻辑上被当成「一颗超大 GPU」来用。
2. Vera CPU:为 GPU 生的「数据搬运工」
机柜里还有 36 颗 Vera CPU,比例是 2 张 GPU 配 1 颗 CPU。
它不是传统 x86 通用 CPU,而是英伟达自研、专门面向 AI 的第二代 CPU,特点很明确:
- 极简指令集,不再纠结复杂的通用逻辑
- 把几乎所有技能点都加在「内存带宽 + IO 吞吐」上
- 唯一任务:不让 GPU 因为「等数据」而闲着
以前拿英特尔 CPU 给 GPU 喂数据,有点像让爱因斯坦搬砖。
Vera 则是反过来:专职把砖搬好,让爱因斯坦只管算题。
3. NVLink 6 Switch:让 72 张卡「彼此都是本地内存」
物理上,这 72 张 GPU 是独立的。
那逻辑上怎么看起来像一颗芯片?
答案是第三颗关键芯片:NVLink 6 专用交换芯片。
它在机柜内部构建了一个 全互联拓扑:
- 每张 GPU 都有到其他 71 张卡的独立硬件通路
- 直接绕过传统的 CPU 和 PCIe 总线
- GPU 访问另一张 GPU 上数据的速度,可达 3.6 TB/s 级别
对开发者来说,这件事的意义非常大:
过去 72 张卡是 72 个「小岛」,
现在更像是一块巨大的统一内存空间。
很多原本必须小心「切 batch、拆模型、写复杂通信代码」的地方,现在可以简化为:
当成一张超大显存的卡来写程序。
4. BlueField-4 DPU:系统管家 + KV Cache 加速器
第四颗芯片,是最容易被忽略、但本质上最关键的:BlueField-4 DPU。
以前搞集群运维,最烦的一堆杂事包括:
- 数据解压、压缩
- 安全加解密
- 存储访问、虚拟化
- 多租户隔离、网络虚拟化
- 以及现在推理时代最头疼的:KV Cache 管理
这些工作如果让 GPU 做,就是浪费算力;
让 CPU 做,又会占用本来就紧张的计算与带宽资源。
BlueField-4 的定位就是:专职管家 + 卸载器——
- 把运维层面的杂活全部包下来
- 把 KV Cache 存储、调度、搬运从 GPU 上剥离出去
- 让 GPU 和 CPU 尽可能只做一件事:算
这也是为什么现在买一整柜 NVL72 回来,
很多以前需要人肉搭积木的事,在硬件层面就被做完了。
5. ConnectX-9 与 SpectrumX:让第 1000 台机柜也不掉速
单机柜强只是第一步,真正的难度在于:上千个机柜连起来之后,性能还能不能线性扩展。
这里登场的是:
- ConnectX-9 SuperNIC:单口 800 Gbps 的网卡
- SpectrumX 以太网交换芯片:为 AI 集群做了全栈优化的交换芯片
它们要解决的不是单点带宽问题,而是:
当你从 1 个柜扩展到 1000 个柜时,每增加一台机器,
性价比是否还是和第一台差不多,
还是说被网络瓶颈拖垮得七零八落。
英伟达给出的答案是:
网络延迟和带宽都围绕 AI 负载重做过,尽量保证「接近线性」扩展。
6. 液冷与 PUE:45℃ 热水也能当「冷却液」
最后一块,是看起来最朴素,却直接决定运维成本的:散热与能效。
NVL72 的功耗相对上一代翻倍,但这一次:
- 整个水路和散热系统被重新设计
- 可以用 45℃ 的热水 做液冷循环,而不是传统的十几度冷水
- 大幅减少对昂贵冷水机组(Chiller)的依赖
- 让数据中心的 PUE(能源使用效率)压到更低水平
对运营方来说,这意味着三件事:
- 不再需要整套大型制冷机房
- 电费和运维显著下降
- 真正接近「插电、接水,就能用」
到这一层,Vera Rubin NVL72 已经从「芯片堆积」变成了一个 AI 基础设施产品。
三、推理架构的改造:GPU 不再负责「又算又记」
训练市场上,英伟达一直是无可争议的霸主。
但在 推理 市场,以前反而有点尴尬:
- GPU 很强,但太贵,用来跑简单聊天机器人不划算
- AMD、Google TPU、自研 ASIC 等在推理侧有很强的性价比优势
黄仁勋很清楚这个短板,所以这两年做了两件事:
- 推出专门面向推理的 Rubin CPX,砍掉昂贵 HBM,改用便宜 GDDR7
- 更重要的是,在 CES 2026 上,彻底改写推理架构
核心观察是:
现在推理真正的瓶颈,不是 GPU 算得不够快,
而是「记性太差」——KV Cache 胀到离谱。
长上下文模型动辄几万字,每生成一个新 token,都要反复扫描整段历史。
这会产生海量 KV Cache:
- 放在 HBM 里,又贵容量又有限
- 不放,又会拖垮推理速度
Rubin 架构的做法是:
- 让 GPU 专心算
- 把「记忆」这件事,从 GPU 显存剥离出来,交给 BlueField-4 和专门的存储层
BlueField-4:
- 把 KV Cache 存在专用内存 / 存储上
- 通过 800 Gbps 的网络链路,在需要时再高速回填给 GPU
- 从「单卡推理」变成「系统级推理」
对对手还在比较「单卡性价比」时,英伟达直接换了一套规则:
以前是「一张卡,又算又记」
现在是「GPU 负责算,DPU + 存储负责记」
本质上,这是一种系统级的降维打击:
- 客户不再需要为了存 KV Cache 去买一堆贵 GPU
- GPU 利用率提高,推理集群总成本降低
四、Physical AI:让 AI 从屏幕里走出来
训练和推理之外,这次发布会上还有一个高频词:Physical AI。
简单理解就是:
AI 不只是活在屏幕上的 ChatGPT,而是长在现实世界里——
- 机器人
- 自动驾驶
- 工厂里的机械臂
- 各种具身智能体
黄仁勋说了一句很重的话:
「机器人的 ChatGPT 时刻已经到来。」
这句话背后,是一整套从「模拟世界」到「机器人大脑」的布局。
1. Cosmos:给机器人造一个「精神时光屋」
ChatGPT 变聪明的方式,是读海量文本。
那机器人要怎么变聪明?
- 如果完全依赖现实世界试错,那代价极高:
- 让机器人学端盘子,可能要打碎十万只盘子
- 跑真实自动驾驶,每一公里都是风险和成本
英伟达的做法是:先构建一个懂物理规律的视频生成与仿真平台(文稿中称为 Cosmos)。
它的目标是:
- 看过大量真实世界的视频,学习物理规律(物体如何掉落、碰撞、破碎、流动…)
- 在计算机中,生成无数段 符合真实物理规律 的虚拟视频与场景
- 让机器人在这些虚拟世界里进行高强度训练
你可以把它理解成:
现实世界是「正式考场」,
Cosmos 是「精神时光屋里的模拟考试」。
在这个模拟世界里:
- 一百万个虚拟机器人可以在虚拟厨房里无限练习端盘子
- 摔盘子无数次也不用赔钱
- 等它们在模拟里成为「端盘子大师」之后,再把这套策略迁移到真实机器人上
当真实机器人第一次见到盘子,它就已经「有经验」了。
2. 自动驾驶大模型:会「思考」而不是只会「条件反射」
自动驾驶这块,这次也有一个关键变化:
英伟达不只是给车厂卖芯片,而是给出了一套 「能看路、听懂人话、自己做决策」的大模型驾驶系统(文稿中称为一个新的 VLM/多模态模型)。
传统自动驾驶本质上是条件反射:
- 红灯停,绿灯行
- 前有车减速,前方无车加速
- 系统背后是一大堆「如果 A 就 B」的规则和模型
一旦遇到没见过的场景,就容易懵:
- 货车掉了一地货物
- 逆光下突然窜出一个人
- 现场条件和训练数据不一样
大模型驾驶系统想做的是:
- 像人类老司机一样,以 逻辑 + 视觉理解 来决策,而不是死记规则
- 在新的场景下,靠推理做出「最合理」的行为,而不是简单超纲就退出
更关键的是,英伟达与传统车企的合作方式:
- 模型和模拟器数据集都以开源/开放形式提供
- 车厂可以用自己的数据继续训练、定制风格
- 数据主权和产品灵魂握在车厂自己手里
与「你要把全部数据交给造车的对手」的模式相比,这对于丰田、福特这种传统车企,是一个更容易接受的选项。
当然,「免费」的大脑最终要跑在英伟达的芯片和云上——
真正卖钱的,还是那整套软硬一体的基础设施。
3. Project GR00T:给人形机器人装上「统一大脑」
在人形机器人方向,英伟达提出了 Project GR00T——
可以理解为:为各种双足机器人、机械体提供统一「大脑」。
新版本的 GR00T 在 CES 上展示的效果包括:
- 被推一下,机器人会下意识调节重心,而不是先做一堆高延迟的计算
- 会转头看是谁推了自己,以更「人类」的方式理解互动
在这条线上,英伟达的目标很明确:
不管谁造机器人,
尽量都用英伟达的「操作系统 + 大脑 + 仿真平台」。
五、游戏玩家的复杂心情:没 6090,但方向彻底变了
整场发布会对游戏显卡只字未提,这让很多熬夜等 6090 的玩家很失落。
但在 CES 现场,英伟达还是包了一个大展区展示游戏生态,并且重点展示了 DLSS 4.5 与神经渲染。
这释放了一个非常明确的信号:
游戏图形的未来,从「算」变成了「画」。
以前的渲染逻辑是:
- 显卡老老实实把每一帧都算出来
- 你想要 4K + 光追 + 高帧率,就必须多一代比一代夸张的纯算力
DLSS 4.5 的思路则是:
- 每 7 帧画面里,只有 1 帧是硬算出来的
- 另外 6 帧是由 AI 根据前后帧「脑补」出来的
- 画面不仅不输,有时在锐度、细节、稳定性上反而更好
这意味着:
- 高画质、高帧率不再完全依赖「堆料王」级别的 GPU
- 一张中高端 RTX 50 系列 + 强 AI 渲染,就可以达到传统上可能需要 10 倍算力的效果
对玩家来说,这是一个复杂的消息:
- 坏消息:堆料时代会慢慢降温,发烧级显卡的差距感可能没以前那么「炸裂」
- 好消息:游戏体验的上限继续拉高,但「硬件门槛」有望逐步降低
在这条线上,英伟达的战略也很清楚:
把更多「画面升级」的收益,放在软件和 AI 上,而不是无止境堆硬件 FLOPS。
六、英伟达真正的护城河:不再是「下一代卡多快」,而是「谁定义了物理世界的算力标准」
用一句话总结这次 CES 2026:
英伟达展示的不是几块新芯片,而是一张「新工业革命」的架构图。
过去的工业革命,是机械、电力、石油改变了「生产物品」的方式。
这一次,英伟达想做的是:把「智能」做成基础设施,渗透进现实世界的每一个角落。
- 数据中心:Vera Rubin + NVL72,把算力做成标准化 AI 工厂模组
- 推理:GPU + DPU + 存储,重写推理成本结构
- Physical AI:仿真世界 + 机器人大脑,让 AI 能在物理世界行动
- 自动驾驶和机器人:提供统一的大脑和系统层,让传统厂商更容易接入
当竞争对手还在算下一代芯片多几个 TOPS、多几块 HBM 时,
英伟达已经在想:
「如果现实世界的 AI 运转规则都由我来定义,
那其他人就只能在这套规则里竞争。」
这才是它真正的护城河。