黄仁勋GTC演讲万字拆解:芯片性能狂飙900倍,机器人开源革命开启

原创 堃方 42号电波

英伟达创始人、CEO 黄仁勋穿着他的标志性皮夹克走上 GTC 舞台,微热吸附式干燥机原理这场「AI 超级碗」进入高潮。

这次主题演讲,老黄带来的信息密度很高,新卡、新库、新平台、新模型络绎不绝,但其实只要明白英伟达致力于成为 AI 时代的基础设施这一愿景,就会发现演讲内容还是很清晰。

老黄先是回顾了 AI 的四阶段,Perception AI(感知 AI)、Generative AI(生成 AI)、Agentic AI(代理 AI)、Physical AI(物理 AI),进而指出驱动 AI 的每个浪潮和阶段的关键主要涉及三个问题,一是如何解决数据问题,二是如何规避人类参与局限进而训练模型,第三个问题则是找到 scaling law。老黄认为世界对 scaling law 仍有误解,他认为具身智能和推理的出现,使得我们现在需要的计算量要超出去年同期的 100 倍。

Scale up 是老黄此番大会的核心关键词。所以老黄切入正题,推出了其系列产品。两款 GPU,一款是 Blackwell Ultra GB300,这是去年发布的 Blackwell 的升级产品;二是全新一代的芯片架构 Vera Rubin 以及 Rubin Ultra,Rubin 的性能将是 Hopper 的 900 倍,这款 AI 芯片在 2026 年下半年推出。伴随新芯片的推出,老黄顺势推出了两款 AI 时代的计算机和 AI 工厂的「操作系统」,他们分别是 DGX Spark、DGX Station 计算机与 Dynamo 操作系统。

除了这些产品,老黄的节目收尾离不开机器人。此次英伟达推出并开源全球首个开源机器人基础模型 Isaac GROOT N1,具有类似于 Figure Helix 双系统的特征。与模型同步,老黄还宣布了与 Googel DeepMind、Disney Reasearch 合作开发的开源物理引擎 Newton。

黄仁勋激情演讲了两个小时,以描绘英伟达的未来蓝图。然而,周二英伟达的股价收盘下跌了 3.43%。

以下是老黄演讲的完整翻译,我们作了不改变原意的删减。

AI发展的四个阶段

GTC 的基因始于 GeForce。25 年后的今天,我手持 GeForce 5090——Blackwell 架构的巅峰之作。相比前代产品,体积压缩 30%同时能耗骤降 30%,性能跃升却超乎想象。这背后是 AI 的反哺革命:当年 GeForce 用 CUDA 为 AI 筑基,如今 AI 正重塑图形计算的未来。

你们眼前呈现的是革命性的实时图形技术——100% 路径追踪,每个像素都经过精准渲染,而 AI 智能预测了其余 15 个像素。这意味着什么?每个数学计算的像素点背后,AI 要完成 15 倍的智能推导,不仅要确保空间维度的完美呈现,更要维持时间维度的帧间稳定。这是图形计算的量子跃迁,是 AI 与物理渲染的共舞时刻。

人工智能的发展轨迹确实令人震撼。让我们把时间轴拉长来看——虽然 AI 概念存在已久,但它真正进入大众认知大概始于十年前。这十年的演进可分为三大阶段:最初是感知智能时代,计算机视觉、语音识别等技术突破让机器开始「感知」世界;紧接着过去五年,生成式 AI 成为主旋律,我们教会 AI 在不同模态间实现信息转换,无论是文本生成图像、视频合成,还是根据氨基酸序列预测蛋白质结构,AI 开始展现出惊人的内容创造能力。

这种创造能力彻底重构了计算范式。传统计算模型本质是信息检索——预先存储海量数据,使用时匹配调用。而生成式 AI 带来了根本性变革:现在的 AI 能够理解上下文语义,洞悉问题本质,主动整合知识并创造全新内容。就像人类大脑的思考过程,它不再只是调取存储库里的现成答案,而是通过认知推理生成解决方案。

更激动人心的突破发生在最近两三年,我们迎来了「AI Agent」时代。这类 AI 不仅具备环境感知与逻辑推理能力,更重要的是拥有了自主决策的行动力。它们可以调用各类工具:理解网页的多模态信息(文字、视频),甚至主动播放学习视频内容;能够规划任务流程,利用新获取的知识解决问题。这种将认知、决策与执行闭环的能力,正在重新定义人机协作的边界。

AI Agent 的基础在于全新维度——推理能力。当前技术演进浪潮已然涌动,我们今天重点探讨的机器人革命,正是源自物理 AI 的突破:这种能够理解物理世界的人工智能,它通晓摩擦力与惯性原理,掌握因果关系本质,认知物体恒存性——即便某物暂时不可见,也并非从宇宙消失,只是隐匿于视野之外。这种三维物理世界的理解能力,正在开启 AI 新纪元,我们称之为物理 AI 时代,它将成为机器人技术爆发的核心驱动力。

每个技术阶段都会催生全新市场机遇,为 GTC 带来更多合作伙伴。如今 GTC 已呈爆满之势,唯一解决方案是扩建圣何塞会场——我们正在积极推进场地扩建计划。此刻站在舞台中央,我希望各位能与我共享这份震撼:去年我们首次线下举办 GTC,被媒体誉为 AI 界的伍德斯托克音乐节;今年则被比作 AI 超级碗。唯一不同的是,这个超级碗没有输家,每位参与者都是赢家。

AI发展的三大核心命题

逐年增长的参会规模印证着 AI 正为更多行业破解关键难题。今年我们的焦点将锁定 AI Agent 与物理 AI,其发展根基始终围绕三大核心命题:

首要命题是数据工程挑战。AI 作为数据驱动的计算科学,需要海量数据建构数字经验,进而形成认知体系。第二核心命题是如何实现无需人工参与的模型训练。人类介入的根本局限在于时间有限性,我们需要 AI 能够以超越人类的速度进行学习,在超实时维度积累经验,达到人类难以企及的规模效应。

第三个核心命题是扩展机制——如何构建普适性算法,使 AI 在任何资源条件下都能持续提升智能水平,这就是著名的扩展定律。去年整个行业都低估了这个领域,事实证明 AI 的计算需求与扩展定律展现出惊人的弹性,实际发展速度远超预期形成超指数级增长。受 AI Agent 与推理技术突破的驱动,当前所需算力已是去年同期预测值的百倍量级。

让我们深入剖析这背后的逻辑脉络。从人工智能的核心能力溯源,AI Agent 的根基在于逻辑推理能力。如今的智能系统已具备真正的分步推理能力:这意味着它能系统化拆解问题——或通过多种方法并行求解并筛选最优解,或运用不同路径交叉验证结果一致性,甚至像解二次方程那样将答案代入逆向检验,彻底摒弃了过往的单次模糊处理模式。

还记得两年前 ChatGPT 初现时那个令人震撼又略带遗憾的场景吗?无论问题复杂度如何,它时常难以给出准确答案——这在当时的技术框架下实属必然。那时的系统依赖单次生成机制,无论是算法习得模式还是预训练数据规律,都只能瞬间输出模糊回应。而如今,我们已突破性地构建出具备渐进式推理能力的 AI 系统!这些智能体融合思维链技术、结果一致性验证、多路径规划等创新突破,通过结构化的问题拆解与递进式推理,最终输出精准解决方案。

大家想象这样一个场景:虽然底层技术架构没有改变,依然是预测下一个 token 的生成机制,但现在的运作方式已经发生质变。每个生成的 token 会构成完整的思维步骤(比如步骤一),这个步骤又会作为新输入,循环生成后续的步骤二、步骤三直至最终步骤。这意味着系统不再孤立预测单个词语,而是在构建完整的推理逻辑链。这种转变直接导致生成的 token 量呈现指数级增长——稍后我会用具体案例展示,这种增长幅度轻松就能达到百倍级别。

这个百倍增长意味着什么?我们可能有两条路可选:要么生成 100 倍的 token(正如大家所见,这个趋势已经显现);要么构建更复杂的模型,让生成的 token 数量提升 10 倍。但为了保持模型的实时响应性(毕竟没人愿意等待过长的响应时间),我们必须同步实现 10 倍速的计算能力提升。这样 10 倍的 token 量乘以 10 倍的处理速度,所需计算资源自然就突破百倍大关。稍后演示中大家会亲眼看到——请特别注意——当前所需的推理计算量确实在经历指数级跃升。

现在关键问题是:如何教会 AI 执行这种推理链条?核心思路在于:我们必须教会 AI 进行逻辑推理。就像我在训练环节强调的,需要解决两个根本问题——数据来源和突破人类参与的限制,毕竟我们能获取的人类示范数据极其有限。这正是过去几年取得重大突破的领域:基于强化学习的方法验证。本质上这是 AI 通过不断试错解决问题的自我进化过程。人类文明史上破解的无数难题——从解二次方程、运用毕达哥拉斯定理、直角三角形法则,到数学、几何、逻辑与科学领域的各种定律——这些已知解法都成为了训练 AI 的基石。

我们可以通过设定约束性问题(比如数独这类拼图解谜游戏)构建训练环境。当存在数百个问题域时,就能创建数百万个差异化案例,为 AI 提供数百次渐进式学习机会。通过强化学习的正向反馈机制持续优化模型,最终形成这样的训练闭环:整合数百个主题、生成数百万案例、进行数百次迭代训练,每次迭代产出数万 token——这些要素共同构成训练所需的海量 token 数据。现在通过强化学习技术,我们不仅能生成万亿级 token 数据,更能采用类似机器人教学的合成数据技术来培养 AI。这种双重技术路径正在推动行业算力升级,整个产业生态也在积极适应这种变革。

Hopper 与 Blackwell 芯片呈爆发式增长

这里展示的是 Hopper 架构在四大公有云厂商(亚马逊 AWS、微软 Azure、谷歌云和甲骨文云)的出货数据。需要说明的是,统计范围仅限于这四家云服务商,不包括 AI 公司及其他机构。通过对比 Hopper 架构峰值年与 Blackwell 架构首年表现,可以清晰看到 AI 产业的关键转折——随着 AI 系统实现推理能力突破和应用场景扩展,实际使用率正呈现爆发式增长。

这种增长有直观的体现:当你使用 ChatGPT 时感受到的响应延迟,正是海量用户高频使用 AI 服务的佐证。无论是模型训练还是推理运算,所需计算量都在以指数级攀升。Blackwell 架构上市仅一年就推动 AI 基础设施实现代际跨越,这个对比数据生动展现了行业爆发的惊人速度。

这种变革正在重塑整个计算领域。当前分析师对全球数据中心资本支出的预测显示,包括云服务商和企业在内的投入将持续增长。如我之前所述,预计全球数据中心建设规模将达到万亿美元量级,这个目标很快就会成为现实。两个关键趋势正在同步演进:首先,通用计算已接近发展瓶颈,我们需要新的计算范式;其次,全球计算平台正在发生根本性转变——从运行手工编码软件的通用计算机,转向基于加速器和 GPU 的机器学习系统。这种转变已突破临界点,全球数据中心建设正迎来历史性拐点。

我们正在见证两大根本性变革:首先是计算方式的范式转移,其次是软件发展正进入资本密集型的新阶段。过去我们编写软件让计算机执行,而未来计算机将化身为内容生成引擎。这意味着计算模式将从信息检索转向内容生成,数据中心也将进化为我称之为「AI 工厂」的新形态。

这些 AI 工厂的唯一使命,就是通过生成神奇的 token,重构出音乐、文字、视频、科研成果、化学物质乃至蛋白质等各类创新形态。这不仅是数据中心数量的增长,更是基础设施架构的革命性蜕变。

计算不止为AI,任一科学都需加速方案

这张承载着 GTC 大会二十年记忆的幻灯片,始终是我们技术演进的核心见证。就像二十年前我们通过 CUDA-X 加速库体系革新各领域计算——从 AI 框架到量子物理模拟,每个科学领域都需要专属的加速方案。如今,我们再次突破边界。

cuPYNumeric 让全球年下载 4 亿次的 NumPy 库获得即插即用级加速;cuLitho 重新定义计算光刻。经过四年攻坚,我们已将整个计算光刻流程迁移至「第二工厂」——如果说传统晶圆厂生产半导体,这个数字工厂就在创造制造半导体所需的海量数据。

未来每个企业都将拥有双引擎:实体工厂制造产品,数字工厂驱动创新。不论是汽车制造商还是智能设备企业,都将配备专属的 AI 工厂。这种虚实融合的制造范式,正在重塑所有行业的发展轨迹。

cuLitho 是我们的计算光刻加速引擎。在技术生态构建中,我们获得了台积电、三星、ASML 等半导体制造龙头,以及新思科技、明导国际等 EDA 领军企业的全方位支持。当前正处于产业转折的关键节点——我敢断言,五年内全球每一片光掩模版的生产、每一次光刻工艺的实施,都将依托英伟达的加速计算平台完成。

NVIDIA Aerial 是我们开发的革命性 5G 基础架构库,可将 GPU 直接转化为 5G 无线通信单元。这项突破完全契合我们的核心优势领域——信号处理。基于此架构,我们进一步整合 AI 能力,成功构建出 AI RAN 新型无线网络架构,实现人工智能与通信系统的全链路深度融合。

传统信息理论为何存在局限?根源在于可用频谱资源的有限性。而 AI 技术的引入将突破这一物理限制。我们的 cuOPT 数学优化引擎已实现跨行业应用,无论是航空座位规划、库存客户匹配,还是生产调度、出行服务,面对海量变量与多重约束条件,都能在时效成本、经营利润、服务质量和资源利用率之间找到最优解。这正是英伟达自身供应链管理所依赖的核心技术。

cuOPT 这一突破性算法库实现了革命性的性能飞跃,将原本需要数小时的计算任务缩短到短短几秒。这不仅极大拓展了优化空间的探索维度,更重新定义了行业基准。我们郑重宣布将开源 cuOPT 算法库——当前工业优化领域的主流解决方案 Gurobi、IBM Cplex 和 FICO Xpress 正与我们开展深度技术合作。整个行业为之振奋的技术革新即将到来,我们将共同加速释放工业优化领域的创新潜能,推动新一代智能优化技术的产业化进程。

Parabricks 正在基因测序与基因组分析领域开创新纪元,MONAI 持续引领全球医学影像数据库的技术演进。我们构建的 Earth2 数字孪生地球系统,通过多物理场建模技术实现了超高精度的区域气象预测。在量子计算前沿,我们即将于 GTC 大会重磅推出基于 cuQuantum 和 CUDA-Q 平台的首届量子计算技术峰会,目前正携手全球生态伙伴推进量子架构创新,加速构建经典-量子异构计算系统解决方案。

这个领域正涌现诸多突破性成果,包括量子化学张量缩并领域的等变神经网络(Equivariant NN)与张量网络(Tensor Network)技术。尽管公众认知多聚焦于 CUDA 这一核心层,但事实上我们在 CUDA 底层架构之上构建了完整的加速计算技术栈,这些深度优化的软件库已全面融入现代计算基础设施的各个层面,为人工智能发展提供坚实基座。今日我将揭晓年度重要技术突破——cuDSS 稀疏求解器,这项计算机辅助工程(CAE)领域的革命性技术,通过与 Cadence、Synopsys、Ansys、达索系统等领军企业的深度合作,我们已实现对主流 EDA 工具链和 CAE 软件的全栈加速支持。

令人惊叹的是,就在不久前,Nvidia 仍在用通用计算机运行软件来设计加速计算机——这个过程对客户来说效率极低,根本原因在于我们当时尚未构建出专门针对 CUDA 优化的软件架构体系。

我们推出的 cuDF 数据框架实现了结构化数据处理的技术突破,如今已能直接加速 Spark 和 Pandas 的运行。这项突破性进展标志着我们的技术能力实现了质的飞跃,其加速效果令人震撼。

更值得关注的是 WARP 物理计算库,这个运行在 CUDA 架构上的 Python 物理库即将迎来重大更新。关于这一开发,喷雾干燥法原理我们有个重要消息要宣布,不过请允许我暂时先卖个关子。

这些仅仅是实现加速计算的众多技术库中的一部分。当然,CUDA 只是其中之一。我们为 CUDA 感到无比自豪,但如果没有 CUDA 和我们庞大的用户基础,这些技术库对开发者来说将失去实际价值。

通过采用这些库中的任意一个,你们开发的出色软件就能触达全球用户。如今加速计算已迎来爆发临界点,CUDA 使这成为可能,而这一切的实现离不开在座每一位的贡献,这也是 GTC 大会的初衷所在。为此我们特别制作了一段短片,向各位创作者、先驱者和未来的建设者致敬——CUDA 正是为你们而生。自 2006 年以来,来自 200 多个国家的 600 万开发者运用 CUDA 彻底改变了计算领域。

依托 900 多个 CUDA-X 技术库和 AI 模型,你们正在加速科研进程、重塑产业格局,并赋予机器视觉感知、自主学习和逻辑推理的能力。如今 NVIDIA Blackwell 的性能已比初代 CUDA GPU 快五万倍,这种数量级的性能飞跃正在消弭数字孪生仿真与实时系统之间的鸿沟。

这对你来说只是一个起点,我们满怀期待想见证你未来的创新之作。我深爱着我们共同的事业,更着迷于你将用这些技术创造的无限可能。

在我从业的三十三年里,最触动我的时刻,是当一位科学家对我说:「黄仁勋,正是你们的技术突破,让我能在有限的生命里完成毕生追求的研究」。这样的时刻,若还不能点燃你的热情,那你的心或许比硅晶圆还要坚硬。

AI始于「云」

接下来我们要探讨 AI 的未来,但各位知道 AI 发端于云端并非偶然——它需要强大的基础设施支撑。既然是机器学习,自然需要机器来承载科学探索。云数据中心不仅具备这样的硬件基础,更汇聚了顶尖的计算机科学家和前沿研究成果,这正是 AI 能在云端和云服务提供商生态中蓬勃发展的根本原因。但 AI 的征途远不止于此,它必将渗透到每个产业领域,接下来我们将从多个维度揭示它的演进方向。

云服务商自然青睐我们的前沿技术,他们尤其看重我们构建的全栈式技术体系。正如我反复强调的,加速计算远不止是芯片本身,也不仅仅是芯片加软件的组合,而是芯片架构、编程范式与完整软件生态的有机融合。这个技术堆栈的复杂性超乎想象——每一层级的创新,每个软件库的突破,都像当年 IBM 革新数据库的 SQL 那样具有划时代意义。想想我们展示的众多 AI 软件库,在人工智能领域这样的核心组件更是不胜枚举。云服务商之所以钟爱 NVIDIA CUDA 生态系统,正因为他们的开发者用户本身就是云平台的核心客户,而所有这些技术最终都将服务于构建全球数字基础设施。这正是我们开发者生态的独特价值所在,也赢得了业界的广泛认可。

当我们将 AI 技术推向全球市场时,必须直面不同地域在系统配置、操作环境、专业领域库以及使用模式上的差异。这种多样性在产业落地过程中尤为突出——无论是智能制造升级、机器人开发、自动驾驶汽车,还是新兴的 GPU 云服务领域。让我们把目光投向 GPU 云服务:约 20 家创新企业正乘着 Nvidia 的技术浪潮崛起,它们专注于 GPU 托管服务并自诩为专业 GPU 云提供商。我们为重要合作伙伴 CoreWeave 的成功上市倍感自豪。尽管 GPU 云服务存在特殊技术要求,但最令我兴奋的仍是边缘计算的巨大潜力。

今天,我们怀着激动的心情宣布:思科、英伟达、全球最大电信运营商 T-Mobile 以及 Cerberus ODC 将携手在美国打造第二个端到端无线网络技术架构。这个全新构建的技术堆栈将把人工智能真正带入网络边缘。特别要指出的是,全球每年有高达 1,000 亿美元的资本支出投入在无线网络和数据中心的通信基础设施建设上。我深信,未来的演进方向必然是加速计算与人工智能的深度融合。通过强化学习技术,AI 能够持续优化无线信号传输、完善大规模 MIMO 系统,并实时适应动态变化的网络环境与流量需求——这正是智能通信网络的未来图景。

MIMO 本身就是个巨型无线电机器人系统,这一点毫无疑问。因此我们自然要赋予它智能处理能力。AI 确实将彻底革新通信方式——就像我给家里打电话时,其实不需要长篇大论,简单几句话就能传递丰富信息。因为我太太清楚我的工作环境,知道我们上次聊到哪儿,也了解我的日常习惯。这种结合上下文理解和人类先验知识的能力,将根本性改变通信模式。从视频处理领域的突破,到我刚才提到的 3D 图形应用,我们在边缘计算领域同样会带来革命性创新。特别值得兴奋的是今天宣布的合作:T-Mobile、思科、英伟达和 Cerebrus ODC 将共同构建完整的端到端技术生态。

AI将渗入各行各业

AI 正在渗透每个行业,而自动驾驶汽车是最早实现落地的领域之一。从 AlexNet 问世开始——当时我们在计算机视觉领域已深耕多年——那个激动人心的时刻促使我们全力投入自动驾驶研发。如今我们在这个领域已经积累了十余年的经验,所开发的技术几乎被所有自动驾驶公司采用。

我们的技术应用场景非常灵活:特斯拉在云端数据中心部署了大量英伟达 GPU;Waymo 和 Cruise 同时在云端和车载系统中使用我们的计算平台;当然也有仅采用车载方案的案例。无论汽车厂商需要何种合作方式,我们都能提供全面支持。我们构建了完整的三大计算系统:训练用计算机、仿真计算机和车载机器人计算机,并开发了全套软件堆栈及模型算法——这套技术体系与我在其他行业展示的解决方案一脉相承。

今天,我非常激动地宣布通用汽车选择与 NVIDIA 携手打造未来自动驾驶车队。自动驾驶时代已然到来,我们期待与通用汽车在智能制造、企业数字化及汽车技术创新等领域深化 AI 合作。能够参与构建他们的 AI 基础设施让我倍感振奋——我们自主研发的汽车安全系统(内部代号 Halos)覆盖从芯片架构设计、系统级工程到算法开发的全技术栈。安全理念必须贯彻多元监控、透明验证、可解释分析三大核心原则,这些要素已深度融入我们的系统开发全流程。值得骄傲的是,我们可能是全球首个完成全代码库安全评估的企业,目前已完成超过 700 万行代码的安全验证。

我们的芯片架构、系统设计、底层软件和核心算法均通过第三方安全认证,专家团队执行严格的逐行代码审查,确保系统设计满足多样性、透明性和可解释性要求。依托已申请的 1000 余项专利,我们在本届 GTC 大会特别设置了 Halos 技术研讨会,诚邀你亲临现场见证这些创新技术如何协同构建安全可靠的自动驾驶未来。这个突破性成果虽然较少被关注,却是我最引以为豪的成就之一,因此今天特别用更多时间来分享。

现在,你将看到 Waymo 自动驾驶出租车的神奇表现,但在此之前,我们精心制作了一段技术解析视频。该视频将展示我们如何运用数据多样性增强、智能训练框架优化等尖端技术,通过 AI 创造更强大的 AI 系统。让我们共同见证这场技术革命。

NVIDIA 正通过 Omniverse 数字孪生平台与 Cosmos 技术矩阵重塑自动驾驶开发范式。基于 Cosmos 预测推理引擎构建的 AI 优先自动驾驶系统,通过三大创新实现端到端演进:知识蒸馏实现模型智能迁移、闭环验证体系构建训练飞轮、合成数据生成突破物理世界限制。

在模型蒸馏技术革新中,我们实现了驾驶智能的跨代际迁移——通过将复杂教师模型的决策智慧提炼注入高效学生模型,构建起知识传承体系。教师模型通过最优轨迹演示,指导学生模型通过持续迭代达到同等决策水平。这种知识蒸馏机制不仅为策略模型奠定基础,更为攻克复杂场景提供了精细调校的可能。

闭环训练系统构建起虚实融合的进化引擎:真实路测数据通过 Omniverse 神经重建技术转化为三维数字孪生场景,在物理精准的仿真环境中进行百万量级的 Transformer 模型验证。Cosmos 评估体系通过多维决策矩阵对每个驾驶行为进行量化分析,海量验证数据持续反哺模型优化,形成自动驾驶应对复杂路况的智能进化闭环。

在合成数据创新维度,Omniverse 基于真实数据构建 4D 数字孪生路网,结合像素级语义分割技术精确还原道路元素的物理属性。Cosmos 系统以此为基础生成百万级差异化场景,通过数字压力测试极大拓展 AI 的认知边界,最终实现虚拟训练场与现实世界的无缝衔接。

Omniverse 与 Cosmos 的技术共振,正在构建具备持续进化能力的自动驾驶认知系统。这不仅是工程创新,更是一场用 AI 重塑 AI 的范式变革——正如我们打造的数字孪生世界,NVIDIA 正在为移动智能提供终极解决方案。

数据中心正在扩展

现在让我们聚焦数据中心领域:Blackwell 芯片已实现规模化量产,标志着计算架构的根本性重构。三年前首发的 Grace Hopper 架构,如今在 Ranger 系统中完成技术跃迁——这台搭载 NVLink 32 的划时代超算,正在突破智能计算的物理边界。当这样的工程奇迹真实呈现时,谁不为计算艺术而震撼?这是硅基智慧的进化史诗,更是人类认知边界的再次突破。

三年前我们首次展示 Ranger 系统时,其物理体积确实超出常规,但架构设计理念经受住了时间考验。当时的核心挑战是突破扩展性极限——在分布式计算领域协调海量计算节点协同处理超大规模任务,而市场上并无现成解决方案。扩展与优化同样重要,但必须优先突破扩展瓶颈。这个攻坚过程充满技术荆棘,绝非简单堆砌硬件就能实现。

传统方案就像 Hadoop 架构那样:把大量普通服务器组成集群,依靠分布式存储和计算解决问题。这确实是革命性的突破,让超大规模数据中心能用现成设备处理海量任务。但事实是,我们需要应对的复杂程度根本不在同一维度——如果继续沿用这种横向扩展方式,深度学习所需的电力消耗将完全超出承受范围,整个领域可能根本不会存在。

这就是为什么我们选择完全不同的技术路径——先突破单机性能极限。这就是我们的扩展之道(举起实物展示)。别看这个足有 70 磅重的设备,它正是上一代 HGX 系统架构的实体呈现,这个划时代的设计彻底革新了计算范式,孕育了现代人工智能。其内部采用 8 个 GPU 阵列配置,每个计算单元都呈现这样的模块化结构(配合手势示意)。具体来说,每个 Blackwell 封装都集成了两个 Blackwell GPU,通过八层架构堆叠形成强大的计算基础。

这些 GPU 通过 NVLink 8 高速互联,再与 CPU 阵列协同工作——双路 CPU 通过 PCIe 连接,整套系统又通过 InfiniBand 组成 AI 超算集群。这曾是行业标准架构,也是我们的技术起点。但当我们试图突破扩展极限时,发现 Ranger 系统虽然通过 NVLink 32 将算力提升四倍,物理尺寸却变得不切实际。你们知道这意味着什么吗?这就像试图用集装箱货轮的速度来比赛车,根本违背了技术演进的基本逻辑。

为此我们完成了革命性的架构重构:将原本集成在主板上的 NVLink 交换机进行了模块化分离。这个全球最强的交换器芯片原本承担着全带宽 GPU 间通信的重任,如今被战略性地重新部署到机箱核心位置。整套系统由分布在 9 个机架的 18 个交换模块构成,通过革命性的液冷方案将海量计算节点浓缩进单一机架——这在计算架构发展史上具有里程碑意义。

特别要感谢在座合作伙伴的鼎力支持,正是你们的协同创新让三大技术革命成为现实:从集成式 NVLink 到模块化架构的蜕变,从传统风冷到高效液冷的跨越,以及单机 6 万组件到单机架 60 万组件的惊人突破。现在整套液冷系统功率达 120 千瓦,单机架即可实现百亿亿次计算——这难道不是现代工程学的奇迹?

新的计算节点

这就是我们的计算节点,重达 3,000 磅的工程杰作。其内部集成 5,000 根总长近 2 英里的专用线缆,构建起令人惊叹的电子设备矩阵。整个系统包含 60 万个精密组件,这个数量级相当于 20 辆豪华轿车的零件总和,而我们将其完美集成于单个超级计算单元。我们的目标不仅是实现这样的工程壮举,更要突破可扩展性的终极边界——这就是超级计算未来的具象化呈现。

我们本质上是在构建一个没有理论限制的芯片系统,现有处理技术根本无法实现这样的构想。这个由 130 万亿个晶体管组成的系统,其中专门用于计算的就达 20 万亿个。显然这在短时间内根本无法实现,于是我们采用了之前提到的解决方案——将其分解为 Grace Blackwell NVLink 72 机架单元。最终我们完成了史上最极致的系统扩展,打造出人类有史以来规模最宏大的扩展架构。

这个系统的计算能力令人震撼:570 TB/s 的内存带宽,所有参数都以万亿量级衡量。我们拥有百亿亿次浮点运算能力(每秒一百万万亿次运算)。之所以要构建如此强大的系统,是为了解决一个看似简单实则极端的计算难题——推理。很多人存在误解,这其实是终极的计算挑战。因为推理本质上就是生成 token 的工厂,而 token 工厂直接决定着收入与利润的产出效率。因此,我们必须以极高的效率和性能来建造这个工厂,它的每个环节都直接影响服务质量、收入能力和盈利水平。

现在让我解释如何理解这个图表,后续我们还会多次回看。图表有两个坐标轴,x 轴代表每秒生成的 token 数量。当你在 ChatGPT 中输入提示时,系统输出的就是这些 token。举个具体例子,每个单词可能包含多个 token。比如「th」这样的字母组合会被视为一个 token,它可以对应「the」、「them」、「theory」等各种单词。系统会将这些 token 重新组合成人类可读的文本。理解 token 生成机制对优化系统性能至关重要,因为这直接关系到工厂的产出效率。

我们发现,如果你想让你的 AI 更聪明,就需要生成大量 token——这些 token 包括用于推理、一致性检查、头脑风暴的 token,这样系统才能从中选出最优方案。就像人类会自我质疑一样,AI 也会通过生成各种可能来寻找最佳答案。因此生成的 token 越多,AI 就越聪明。但现实是,如果响应时间太长,用户就会流失。

这和网络搜索的原理相通——智能应答存在严格的时间限制。所以你需要在这两个维度之间找到平衡:既要生成足够多的 token,又要尽可能快地完成任务。这意味着每个用户的每秒 token 生成率至关重要。不过计算机系统存在一个根本矛盾:延迟响应时间与吞吐量就像鱼与熊掌难以兼得。

在大规模批量处理时,系统会把用户需求打包处理(也就是批处理),然后批量生成结果。但这种方法从处理完成到结果送达用户,往往会产生明显延迟。AI 生成 token 的「工厂」同样面临这个经典难题。

本质上这是两个方向的博弈:既要保证每位用户获得高质量、超快速的智能服务,又要让数据中心能为尽可能多的人生成 token 来实现收入最大化。理想状态当然是右上角的完美平衡点——就像正方形曲线那样,在系统极限内为所有人保持高速 token 生成。但现实中所有系统都只能达到某种曲线形态,你的目标就是最大化曲线下面积(x 轴和 y 轴的乘积),这个数值越高,说明你建造的「工厂」越优秀。

要实现这个目标,系统需要同时具备强大的计算能力(FLOPS)、高带宽和大内存——简而言之就是全方面顶配。这也解释了为什么最优秀的 AI 系统需要:顶尖的算力配置、海量内存、超高带宽、革新架构、极致能效,以及能在这些硬件上流畅运行的软件编程模型。要同时满足所有这些条件,确实是极具挑战性的系统工程。

好的,我们来看个具体演示,让大家直观感受两者的差异。传统大语言模型擅长处理基础问题,而推理模型通过思维链 token 能解决复杂难题。这里有个婚礼座位安排的题目,需要考虑传统礼仪、拍摄角度,还要调解家庭矛盾等复杂条件。

传统大模型快速响应,用了不到 500 个 token,但安排宾客座位时出了错。而推理模型足足用了 8000 多个 token,通过反复推演才得出正确答案——必须请牧师坐镇才能维持和平。大家都知道,如果要给 300 人的婚宴安排完美座位,这确实是只有 AI 或者丈母娘才能解决的世纪难题!

注意看这里,推理模型 R1 会不断尝试各种场景,自我验证解决方案是否可行。而上一代语言模型只是单次推理,用了 439 个 token,虽然快却答错了——这 439 个 token 算是白费了。其实这个题目还算简单,当我们增加更多复杂变量时,推理过程会消耗近 9000 个 token,需要更强大的计算力支持复杂模型运作。这是第一个维度差异,在展示具体数据前,我再说明几个其他要点。

深入的推理需要复杂的并行与调度

当你看 Blackwell 系统,现在扩展到 NVLink 72 架构时,关键在于如何将具有数万亿参数的巨型模型分布到整个 GPU 系统中。以 R1 模型为例,虽然被认为体积较小,但已经拥有 6800 亿参数,而下一代模型的参数规模可能突破万亿量级。

解决方案是通过多种并行策略实现参数分布:张量并行让模型单层跨越多个 GPU 运行,管道并行分割模型的不同阶段,专家并行则将不同专家模块部署在独立 GPU 上。这些并行策略的组合方式极其灵活,需要根据具体模型架构、工作负载类型和场景需求动态调整计算机配置,以在吞吐量最大化和延迟最小化之间取得最佳平衡。此外还需要实时批处理优化等复杂技术,这使得 AI 工厂的操作系统变得异常复杂。

这里有个关键洞察:NVLink 72 架构的同构性让每个 GPU 都能灵活执行上述所有任务。观察发现,推理模型的计算流程分为两个主要阶段。

首先是思维阶段(预填充阶段),这个高密度计算阶段主要进行信息消化。此时生成的 token 主要用于内部处理,可能涉及 PDF 解析、网页抓取甚至视频理解——所有信息都以超线性速度被吸收整合,最终形成答案框架。这个阶段对计算能力的需求极高。

接下来是解码阶段,虽然计算强度降低但对内存带宽要求巨大。以万亿参数模型为例,需要每秒 TB 级带宽才能从 HBM 内存中提取参数生成单个 token。注意我提到的 576TB/s 带宽设计,正是为此而生。之所以每次只生成一个 token,是因为大语言模型的核心机制就是连续预测「下一个 token」。

现代技术如投机解码等加速手段,本质上都是在优化这个预测过程。具体流程是:加载整个模型参数和上下文(即 KV 缓存)生成首个 token,然后将该 token 重新输入系统生成后续 token。以我们的演示为例,8600 个 token 的生成过程实际上经历了 8600 次这样的迭代——每次迭代都需要加载数万亿参数来生成单个 token。

因此,数万亿字节的数据涌入我们的 GPU,逐个 token 地生成内容——这正是你需要 NVLink 的根本原因。NVLink 让所有 GPU 集群变成超级 GPU,实现终极扩展。第二点,现在所有资源都通过 NVLink 连接,我可以灵活分配 GPU 用途——把更多算力放在预填充阶段,少部分用于解码。毕竟当我在进行深度研究、扮演 AI Agent 角色时,需要处理海量信息。举个例子,刚才听 Michael 演讲时提到的研究方式,我自己也在做类似的事情:我们会给 AI 布置超长篇研究任务。这特别划算,毕竟我已经为这些 GPU 付费了,让它们全速运转才物尽其用。

当 AI 执行研究任务时,它会访问 94 个不同网站,消化所有信息后生成结构严谨的报告。整个过程预填充阶段的计算负荷其实并不大,真正生成的 token 数量有限。但如果是数百万人同时使用的聊天服务,解码阶段就会变成 token 生成的重灾区。因此我们需要根据具体场景动态调配 GPU 资源——研究型任务侧重预填充,即时对话服务侧重解码。

刚才我提到的技术栈包含:管道并行、张量并行、专家并行架构,预填充与解码分离,动态批处理,推理任务拆分,以及最复杂的 KV 缓存路由系统——需要精准管理内存层级,把缓存数据分配到正确的 GPU。这套软件系统的复杂度堪称业界之最。今天我们正式发布 NVIDIA Dynamo,它本质上是 AI 工厂的操作系统。传统数据中心用 VMware 管理企业应用,而 Dynamo 则是为生成式 AI 时代量身打造的调度中枢。

但在未来,企业 IT 的核心将不再是传统应用程序,而是 AI Agent;基础架构也不再是 VMware 这样的虚拟化平台,而是 Dynamo 这样的智能操作系统——这个系统运行在 AI 工厂之上,而非传统数据中心。我们将其命名为 Dynamo 有着深刻寓意:正如各位所知,Dynamo 是上一次工业革命(能源革命)的首台关键装置,它实现了「水力输入-电力输出」的革命性转换。想象水流驱动装置,通过蒸汽转化输出无形却极具价值的能量,这个过程耗时 80 年才演进到交流电系统,而 Dynamo 正是这场变革的起点。

因此,我们决定将这个极其复杂的操作系统命名为 Nvidia Dynamo。作为开源平台,我们欣喜地看到众多合作伙伴与我们共同推进,其中 Perplexity.ai 是我特别欣赏的合作伙伴——不仅因其突破性工作,更因创始人 Aran 的卓越远见。虽然当前我们仍需等待基础设施全面扩展,但通过深度模拟(甚至在超级计算机上模拟超级计算机的运作),已经验证了其技术可行性。现在我将用可视化数据具体展示其优势。

请关注这个工厂模型示意图:纵轴代表 AI 工厂的 token 吞吐量(单位:每秒处理量),横轴则体现用户体验的响应速度(单位:每秒生成 token 数)。我们期望构建的超级智能 AI 需要实现规模化生成能力。以 Hopper 架构为例(配置 8 个 GPU 并通过 InfiniBand 互联),在 1 兆瓦功率的数据中心(虽不算大型 AI 工厂)中:当优化单用户体验时,可实现每秒 100 个 token 的生成速度;若侧重批量处理,则整厂峰值吞吐量可达 250 万 token/秒——这充分展现了架构的弹性扩展能力。

好,这样讲得通吗?(点头示意)大家知道,每个 GTC 大会都有它的「入场券」,在这里你们会接受数学的洗礼——没错,只有在 Nvidia 才会有的独特体验。现在说到 Hopper 架构,它的处理能力是每秒 250 万 token。怎么理解这个数字呢?记得 ChatGPT 的成本大约是每百万 token 10 美元对吧?

假设我们把单价定在这个水平——虽然实际可能略有浮动,但先按这个计算。250 万乘以 10,意味着每秒就能创造 2500 万美元的价值,这样讲得通吗?这就是我们的思考方式。换个角度,如果以十万量级计算,简单除以 10,每个计算节点每秒 25 万美元,结合全年 3150 万秒的运作时间,单个兆瓦级数据中心就能创造可观的年收入。

这就是我们的核心目标:一方面要追求极致的 token 处理速度,因为更智能的 AI 能带来更高溢价;另一方面,AI 越智能所需的计算量反而越少——这是个精妙的平衡艺术,正是我们努力优化的技术曲线。刚才展示的 Hopper 已经是全球最快的计算架构,它重新定义了计算机的可能性。那我们如何再突破?答案就是搭载 NVLink 8 的 Blackwell 架构,在保持相同计算节点的情况下,通过 fp8 精度实现性能跃升。Blackwell 不仅是更大更强的存在——更多晶体管、更强算力,更是我们永不止步的创新证明。

因此我们引入了一种新型精度标准,它不像 4 位浮点那么简单,但通过 4 位浮点量化模型,我们能用更少的能耗完成同样的任务。当你能用更少电力完成相同工作时,就能腾出资源做更多事情——这里有个重要认知:未来所有数据中心都将受制于功率上限。你的收入与功率容量直接挂钩,本质上可以根据可用功率来计算营收潜力。这与很多行业面临的限制如出一辙。现在我们已进入功率约束时代,营收能力与此息息相关。正因如此,我们必须确保拥有最节能的计算架构。

接下来看 NVLink 72 的扩展能力。注意观察 NVLink 72 在 fp4 模式下的表现差异,由于架构的高度集成,现在我们通过 Dynamo 技术实现了进一步扩展。你们跟得上吗?Dynamo 对 Hopper 架构有帮助,但对 Blackwell 的提升尤为显著。只有在 GTC 大会上,你才能收获这样的技术喝彩。现在请注意这两个关键模块的位置,这里可能成为你们的性能瓶颈所在。想象这是工厂的核心产线,你们需要在最大吞吐量和最优 AI 质量之间寻找平衡点——既要最智能的 AI,也要最大规模的 AI。那两个 XY 截距点正是你们的优化目标,具体效果如图所示。

看下方两个对比模块,Blackwell 在相同功率下表现远超 Hopper。记住这不是芯片层面的对比,而是功率效率的较量——这才是摩尔定律的精髓所在。在这一代架构中,我们实现了 25 倍的 ISO 功率提升。注意这不是晶体管数量或芯片规模的比较,而是受制于数据中心的终极限制因素:功率容量。

在同等功率约束下,Blackwell 实现了 25 倍能效提升。现在看这个彩虹图谱,各种配置参数令人惊叹。在 Paro 前沿框架下,我们探索了数百万种数据中心配置方案,通过工作负载的并行处理、任务分割和分片调度,最终找到最优解——这就是 Paro 前沿。每个颜色代表不同配置方案,这张图清晰表明:我们需要高度可编程的同构架构,因为前沿工作负载的变化实在太剧烈。

观察顶部的 EXP 并行 8 配置:批量 3000,分解关闭,Dynamo 禁用;中间层是专家并行 64,26%算力用于上下文处理(Dynamo 启用);底部则是张量并行 16 配合专家并行 4,批量 2,仅 1%算力用于上下文。整个参数空间呈现出惊人的配置多样性。这里演示的是标准测试场景:输入 1000 个 token,输出 2000 个 token。还记得刚才的演示吗?实际输出可达 8000-9000 个 token,显然这不是简单的聊天场景能涵盖的。

这个案例更具代表性,正如你所知,我们的目标是打造面向未来工作负载的下一代计算架构。以推理模型为例,Blackwell 的性能直接达到 Hopper 的 40 倍,这种跨越式的提升令人震撼。我之前说过,当 Blackwell 开始大规模出货时,Hopper 将逐渐退出舞台,这其实很好理解。当然,如果你现在仍有 Hopper 的采购需求,完全不必担心,但作为首席营收架构师,我的销售团队已经在提醒:「Jensen,有些场景下 Hopper 确实还能用,但...」 这就是我能为 Hopper 说的最好的话了。当技术迭代如此迅猛时,你们正在建设的这些 AI 工厂,需要明智地投资正确的技术方案。

为了让你们直观感受 100 兆瓦 AI 工厂的规模:基于 Hopper 架构需要 45,000 颗芯片、1,400 个机架,每秒生成 3 亿个 token。而 Blackwell 方案只需要...(停顿)是的,这听起来不太合理。我们并非在推销更少的产品,销售团队甚至开玩笑说:「Jensen,你这是在卖更少但更好的产品」 实际上,采购越多成本效益越高,现在更棒的是:使用越多收益越大。记住,所有技术方案都有其适用场景,在 AI 工厂的架构中,虽然我们从芯片开始讨论,但最终要实现的是完整的规模化扩展。

现在让我们看看 AI 工厂的真实样貌。以单个机架为例:包含 60 万个组件,重达 3,000 磅,还需要完成复杂的系统集成。为此我们开创性地为每个数据中心构建数字孪生——在物理建设之前必须完成虚拟建模。这个可视化方案堪称工程艺术的典范。全球正在竞逐建设最先进的超大规模 AI 工厂,这种 AI 超级工厂的建设需要协调数以万计的专业人员,整合近 50 亿个精密组件和超过 20 万英里光纤——相当于地月距离。英伟达 Omniverse 的数字孪生蓝图,让我们能在破土动工前就完成 AI 工厂的优化设计。我们的工程师正在规划 1 吉瓦级 AI 工厂,集成最新 DGX 超级计算机、施耐德电气智能供冷系统,以及基于 NVIDIA Air 框架优化的网络拓扑结构。传统分段式设计已被颠覆,Omniverse 使工程团队能够并行协作,探索各种配置方案以实现最优 TCO 和能源使用效率。

NVIDIA 采用 Cadence Reality 数字孪生技术,通过 CUDA 和 Omniverse 库加速,实现了空气与液体冷却系统的精准模拟。施耐德电气则运用 EAP 应用程序来验证电力模块的效能与可靠性。实时模拟技术让我们能在数秒内完成大规模场景推演,而不再是耗时数小时。我们通过数字孪生协调众多团队与供应商,显著减少执行误差,加快系统部署。在进行设备升级时,这套方案能精准模拟改造成本与停机影响,为未来 AI 工厂保驾护航。这可是行业首次实现如此完善的数字化建设,实在令人振奋!

NVDIA 的路线图

好的,我得加快节奏了,因为今天要分享的内容实在太多。如果我讲得太快,绝不是不重视大家,实在是信息量太大。

首先介绍我们的技术路线图。Blackwell 架构现已进入全面量产阶段,全球计算机制造商正在大规模部署这些革命性设备。衷心感谢所有团队在架构转型中的卓越付出!今年下半年,我们将无缝升级至 Blackwell Ultra 平台——NVLink 72 将实现 1.5 倍计算性能提升,新增注意力指令集,内存容量同样提升 1.5 倍,这对 KV 缓存等应用至关重要,网络带宽更是达到 3 倍增幅。整个升级过程将保持架构兼容性,确保平稳过渡。

大家可能注意到,这是业界唯一提前两年公布的产品路线图。为什么这么做?因为建设 AI 工厂和基础设施需要长期规划,这不同于购买笔记本电脑的消费行为,而是需要土地审批、电力配套、资本预算、工程储备等系统性准备。我们提前 2-3 年披露技术蓝图,就是希望合作伙伴能从容规划。就像稍后要展示的案例,我们与天文学家 Vera Rubin(暗物质发现者)的后代合作,其技术规划周期同样长达数年。这种超前布局,正是为了确保产业升级的连贯性。

没错,Vera Ruben 确实令人惊叹。这款全新的 CPU 性能是 Grace 的两倍,内存更大、带宽更高,但功耗仅为 50 瓦——这真的非常不可思议。现在来看 Reuben 架构的全新配置:CX9 GPU、智能网卡、NVLink 6 互联、HBM3 内存...基本上除了机箱之外都是全新设计。这种集中创新的策略让我们能够在关键领域大胆突破,同时控制基础设施的整体风险。

需要特别说明的是,Blackwell 芯片内部其实整合了两个 GPU 单元,但我们仍将其整体称为单个 GPU——这个命名惯例可能会影响后续 NVLink 的表述方式。从此刻起,当我们说「NVLink 144」时,就是指可以连接 144 个 GPU 晶粒(die),无论它们以何种封装形式存在。这种定义方式将为明年下半年的 Vera Ruben Ultra(代号 Reuben Ultra)奠定基础。

说到 Reuben Ultra(预计 2027 年下半年),它的扩展能力将达到新高度:NVLink 576 架构、单机架 600 千瓦功率、250 万组件规模。性能指标更是惊人——14 倍算力提升,达到 15 Exaflops 的扩展算力;4,600TB/s 的扩展带宽,配合全新 NVLink 交换机和 CX9 系统。简单来说,每个封装集成 4 个 GPU,16 个站点构成完整系统,这个架构的扩展潜力大家可以感受下。

现在进入最精彩的部分。当前的 Grace Blackwell 加速架构(虽然名字像笔记本芯片但请别误会)与 Reuben 系统的 IO 规格对比显示:扩展前的基础架构已经完成布局,后续我们将通过革命性技术实现指数级扩展。从算力扩展曲线来看,Hopper 架构是基准 1x,Blackwell 达到 68x,而 Reuben 将实现 900 倍跃升。如果结合 TCO(总拥有成本)分析,特别是功耗与性能平方(算力×带宽)的优化关系,可以明显看出 Reuben 将大幅降低 AI 工厂的运营成本。

Nvidia 的技术路线图始终保持每年迭代的节奏。在扩展技术方面,我们正在通过 NVLink 网络架构和 Spectrum X 平台推动以太网向 InfiniBand 特性演进。可能有人惊讶我们选择以太网路线,但若能帮助以太网实现类似 InfiniBand 的低延迟、高吞吐特性,整个行业都将受益于更易管理的网络生态系统。

因此我们决定投资 Spectrum X 平台,通过创新的拥塞控制算法和超低延迟技术,结合我们专门开发的软件套件,将其打造成我们计算架构的核心组件。我们成功扩展了有史以来规模最大的单一 GPU 集群——这个名为 Colossus 的超级集群正是基于 Spectrum X 构建的。目前全球顶尖的企业网络公司正在将 Spectrum X 集成到他们的产品线中,助力传统企业转型为 AI 驱动型组织。当前我们已在十万级 GPU 集群中应用 CX7 技术,随着 CX8 和 CX9 的即将推出,我们的目标是推动 GPU 集群规模突破百万大关。

要实现百万级 GPU 集群,布线技术面临重大挑战。我们坚持「铜缆优先「原则——在一两米距离内,铜缆在可靠性、能效和成本方面都极具优势。但当数据中心规模达到体育场级别时,就必须引入硅光子技术。传统光模块存在显著能耗问题:每个 30W 的收发器仅负责光电信号转换,大规模部署将产生惊人的能耗成本。以百万 GPU 集群为例,仅光模块就需要消耗 180 兆瓦电力,这相当于整个系统的巨大能源负担。

为此我们带来了革命性突破:全球首个 1.6Tb/s 共封装光电子系统。这项基于微环谐振器调制器(MRM)的创新技术,通过与台积电合作开发的先进制程工艺实现。传统光模块(如演示中这个价值千美元的 30W 模块)需要独立的光电转换组件,而我们的解决方案将光子集成电路与电子芯片 3D 堆叠,通过微型光纤阵列实现超紧凑封装。这个创新设计就像在芯片上建造微型交通环岛,通过微环共振精确控制光波导反射率,以惊人的能效完成光信号调制。

让我们具体看技术演进:传统架构中每个 GPU 需要 6 个光模块,以百万 GPU 集群计算就意味着 600 万个模块、180 兆瓦能耗和 6 亿美元成本。而采用我们的 CPO 方案后,不仅能耗降低 60%,系统密度更是提升 10 倍。这项突破性技术融合了台积电 COUPE 封装工艺和 3D 混合键合技术,标志着硅光子技术正式进入超大规模计算时代。

这不仅是技术奇迹的展现——我们成功将 InfiniBand 交换机中的硅元件性能发挥到极致。今年下半年即将量产的硅光子交换机,明年将推出的 Spectrum X 平台,都是过去五年技术攻坚的结晶。我们为此申请了数百项专利,并通过开放授权与合作伙伴共建生态。

通过硅光子与共封装技术的融合创新,我们实现了革命性突破:光纤直连交换机、彻底取消光模块、512 端口的超高密度设计。这种架构突破为十万级乃至百万 GPU 集群的构建铺平了道路。

让我用具体数据说明其能效优势:建设这样一个超级数据中心,我们可节省高达 60 兆瓦的电力消耗。要知道,6 兆瓦就足以支撑 10 个 Rubin Ultra 计算集群的运转,这意味着节省的电力可额外支持 100 个顶级算力单元的部署!

我们的技术路线遵循明确节奏:一年一个架构创新,两年一次产品线焕新。通过将硅基技术、网络架构和系统设计的风险分段管控,持续推动行业技术边界扩展。特别要向 Vera Rubin 博士致敬——今天她的孙辈也在现场,我们下一代平台将以物理巨擘费曼(Feynman)命名,延续科学精神的传承。

关于英伟达的企业计算路线图,我想重点谈谈如何将 AI 技术赋能全球企业。要理解这个战略,我们需要先触及计算架构的本质变革——在 Splat 渲染技术展现惊人潜力的同时,AI 和机器学习已彻底重构了整个计算堆栈:从底层处理器到操作系统,从应用开发模式到系统编排方式,每个环节都发生了根本性转变。

举个典型场景:未来的数据访问将颠覆传统检索模式。你不会再精确查询特定数据片段,而是像使用 Perplexity 那样直接提问——只需输入问题,系统就能基于语义理解给出精准答案。这种交互范式将重塑企业 IT 架构,AI Agent 将成为数字劳动力的核心组成部分。全球现有 10 亿知识工作者,未来可能会有 100 亿数字工作者与我们协同工作。我坚信到今年年底,英伟达所有软件工程师都将获得 AI 辅助,这种趋势将快速覆盖全球 3000 万开发者群体。

为此我们重新定义了计算机的形态——新一代 DGX 工作站具备 20 petaflops 算力,集成 72 核 CPU、HBM 高速内存和芯片直连架构,同时保留 PCIe 扩展能力以支持 GeForce 显卡。DGX Spark 和 DGX Station 系列产品将通过惠普、戴尔、联想、华硕等合作伙伴推向市场,为全球数据科学家提供终极工具。

我们构建了完整的企业级产品矩阵,涵盖从工作站到超级计算机的全场景算力。同时革新计算架构三大支柱:Spectrum-X 网络将 AI 算力输送至企业级场景,革命性的语义存储系统持续将原始数据转化为知识图谱——你不再需要检索数据,而是直接与知识库对话,通过自然语言交互获取洞见。这,就是未来计算的终极形态。

我希望有个视频展示,但 Aaron 甚至在云端部署了一个智能存储系统原型。这个与 Box 合作开发的超级存储系统,就是未来每家企业都将拥有的企业级存储解决方案。我们正与整个存储行业合作——Dell、HPE、日立、IBM、NetApp、联想、Pure Storage、VAST 和 WD 等顶尖存储厂商,共同构建首个 GPU 加速的企业存储架构。

Michael 担心我幻灯片不够用,特意准备了这个备份。这张幻灯片精彩展示了 Dell 将提供的完整 NVIDIA 企业 IT 基础设施体系:从底层硬件到上层 AI 软件堆栈的全套解决方案。这标志着我们正在掀起企业级 IT 基础设施的革命。

今天我们还发布了一个重磅开源模型。此前展示的 R1 推理模型相比 Llama 3 这类非推理模型已显智能优势,但现在我们将其升级为企业级解决方案——完全开源的 NIMs 系统。它能在任何环境运行:无论是 DGX Spark 集群、DGX 工作站、OEM 服务器还是公有云,并能无缝集成到各类 AI Agent 框架中。

让我们快速浏览这些战略合作伙伴:观众席中的埃森哲团队正在构建 AI 工厂框架;全球最大电信软件公司 Amdocs;AT&T 的 John Stankey 团队开发的企业 AI Agent 系统;贝莱德的 Larry 团队;以及 Cadence 的 Annie 团队——未来我们的芯片设计团队将由人类工程师与数字 EDA 专家共同组成。

Cadence 正在构建他们的 AI 框架。如各位所见,每个环节都整合了 NVIDIA 模型、NVIDIA NIMS 和 vLLM 库,让你可以在本地环境、云端或任何云平台运行。Capital One 作为顶尖的金融服务机构,其技术架构中处处可见 NVIDIA 的身影。例如 Jason 团队、Janet 团队,NASDAQ 的 Adena 团队,都在他们的 AI 框架中深度集成 NVIDIA 技术。SAP 的 Christian 团队、ServiceNow 的 Bill McDermott 团队亦是如此。这样的布局是不是很合理?

虽然第一张 PPT 就讲了三十分钟,不过接下来的每张内容也同样值得深入探讨。现在让我们换个话题,聊聊机器人技术如何?

机器人革命已经拉开序幕。它们的核心优势在于与物理世界的交互能力,能执行数字系统难以完成的任务。当前全球正面临严峻的人力短缺——预计到本世纪中叶,劳动力缺口将超过 5000 万。假设我们愿意为人类员工支付 5 万美元年薪,或许也需要以同等成本让机器人上岗。这必将催生一个万亿级的产业蓝海。

所有移动的物体都将实现自主化。各类机器人系统将成为基础设施的核心组成部分,与全球数千万家工厂、数十亿个摄像头及仓储系统共同构建智能网络。正如我之前所说,每辆汽车本质上已是机器人,而我们现在正在打造通用型机器人平台。接下来我将为你揭示我们的实现路径。

Nvidia 研发的三层计算架构形成了机器人 AI 的完整闭环:通过模拟环境训练、算法调试、系统验证再到现实部署,构成持续优化的技术循环。训练机器人需要海量数据支撑,虽然互联网级数据提供了常识推理能力,但机器人特有的行动控制数据获取成本极高。

基于 Nvidia Omniverse 和 Cosmos 构建的开发框架,工程师能够生成大规模多样化的合成数据用于机器人策略训练。具体流程是:首先在 Omniverse 平台整合真实世界的传感器数据、操作示范数据,根据具体应用场景、机器人类型和工作目标进行适配;随后通过 Cosmos 系统对原始数据进行智能扩展,将有限采集数据转化为具备真实物理特性的海量训练样本。

开发者运用 Isaac 实验室对机器人策略进行后训练,利用扩展后的数据集,让机器人通过模仿学习或结合试错机制与强化学习的 AI 反馈来掌握新技能。由于实验室训练环境与真实场景存在差异,新策略必须经过实际部署验证。

开发者采用 Omniverse 平台进行硬件在环(HIL)和软件在环(SIL)测试,通过在数字孪生环境中模拟策略执行,整合真实世界环境动态、领域随机参数、物理反馈机制和高保真传感器模拟。真实场景中的机器人操作需要构建多机协同系统,借助 Omniverse Blueprint 和 MEGA 工具,开发者可对后训练策略组合进行规模化验证。

以 Foxconn 为例,其在虚拟化的 Nvidia Blackwell 生产设施中测试异构机器人系统。当机器人控制中枢执行任务时,会通过传感器模拟实时感知操作效果,进而制定后续行动方案。MEGA 赋能开发者对海量机器人策略进行验证,使机器人在空间推理、导航定位、运动控制和柔性操作等维度形成系统化协作能力。

GROOT N1 机器人模型与 Newton 物理引擎双开源

模拟世界正在孕育非凡突破。今天,我们正式推出英伟达 Isaac GRoot N1。这是一个通用人形机器人基础模型,其根基建立在合成数据生成与模拟学习技术之上。GRoot N1 采用双系统架构设计,灵感源自人类认知处理机制——慢思考系统负责环境感知、指令理解与推理规划,快思考系统则将这些规划转化为精准连贯的机器人动作。

凭借强大的泛化能力,GROOT N1 可轻松操控常见物体,并协作完成多步骤任务流程。通过完整的合成数据生成与机器人学习管线,人形机器人开发者可在多样化场景中对 GROOT N1 进行任务适配训练。

当前全球各行业开发者正依托英伟达三大计算平台,构建下一代具身智能系统。物理 AI 与机器人技术正经历爆发式发展,请务必关注这个领域,它极有可能成长为最具规模的产业赛道之一。

从根本上说,我们面临的依然是三个相互关联的系统级挑战。这个三位一体的技术框架包括:第一,数据工程问题——如何构建 AI 训练所需的数据基础设施;第二,模型架构的革新方向;第三,规模化瓶颈的突破——如何通过数据和算力的协同扩展持续提升 AI 智能水平。这些基础性问题在机器人技术领域同样存在。

在机器人技术实践中,我们打造了 Omniverse 物理 AI 操作系统。这个平台今天迎来了两项重大技术升级,首先是 Cosmos 物理世界生成系统。通过将 Omniverse 与 Cosmos 深度整合,我们构建了可控的无限数据生成系统——Cosmos 能够创建近乎无限的虚拟训练环境,而 Omniverse 则提供精准的物理环境调控能力。

(展示示意图)这个糖果工厂场景演示了 Omniverse 的环境控制精度,而 Cosmos 正在批量生成此类虚拟训练场。第二个突破是物理验证奖励机制的实现。正如语言模型通过强化学习获得突破,机器人技术需要基于物理定律的验证引擎。这要求我们构建前所未有的高精度物理模拟系统。

传统物理引擎的设计目标各异——有的专注重型机械模拟,有的服务虚拟世界构建,还有的专攻游戏开发。但我们正在打造的革命性物理引擎,是专门为高精度刚体与柔性体模拟而生的平台。它不仅能支持触觉反馈训练、精细运动控制及作动器协调,更重要的是实现了 GPU 加速——这让虚拟世界能以超线性时间缩放运行,突破实时限制,为 AI 模型提供极速训练环境。

该引擎深度兼容全球机器人学界的主流开发框架。基于此,今天我们非常荣幸宣布一项里程碑式的合作:DeepMind、迪士尼研究院与 Nvidia 三强联手,共同推出代号「Newton」的联合项目。现在让我们正式揭晓...

你们说这棒不棒?嘿,Blue,最近怎么样?喜欢你的新物理引擎吗?中意吗?我知道的,触觉反馈、刚体、软体、模拟、超实时性能。你能相信刚才看到的完全是实时模拟的吗?这就是我们未来训练机器人的方式。悄悄告诉你,Blue 肚子里可是装了两台 NVIDIA 计算机。瞧你这机灵劲儿,没错,你可聪明了。

好了 Blue,咱们收工回家吧,主题演讲该结束了,到午饭时间了,准备好了吗?咱们圆满收尾。

还有个重磅消息要宣布。之前说过我们在机器人技术上的重大突破,今天正式宣布 GROOT N1 开源!

GTC 总结

感谢所有莅临现场的朋友,最后咱们再回顾下重点。感谢所有来到 GTC 的朋友,今天咱们聊了不少干货。

首先,Blackwell 芯片已实现全面量产,其市场增长势头与客户需求均呈现爆发态势。这背后有深层次原因:AI 技术正迎来关键拐点,基于智能体系统的训练和推理需求使 AI 计算量呈现指数级增长。

其次,Blackwell NVLink 72 结合 Dynamo 架构,相较前代 Hopper 平台实现 30 倍性能飞跃。随着我们持续构建 AI 生态系统,模型推理将在未来十年成为最重要的核心任务之一。

再者,我们已制定了清晰的年度技术路线图,助力各位规划 AI 基础设施布局。当前重点聚焦三大领域:云端智能平台、企业级解决方案以及机器人系统,全方位构建下一代 AI 基础架构。

avatar

新程序已上线 管理员

刚刚发布了:1篇 新内容
查阅文章

三月七日,沙湖道中遇雨。雨具先去,同行皆狼狈,余独不觉。已而遂晴,故作此词。莫听穿林打叶声,何妨吟啸且徐行。竹杖芒鞋轻胜马,谁怕?一蓑烟雨任平生。料峭春风吹酒醒,微冷,山头斜照却相迎。回首向来萧瑟处,归去,也无风雨也无晴。

发布评论

验证码
评论列表 (有 4 条评论)
222 2019-07-18 1# 回复
测试

QQ交谈

在线咨询:QQ交谈

工作时间:每天9:00 - 18:00
若无特殊,节假日休息

电话联系

400-800-000

工作时间:每天9:00 - 18:00
若无特殊,节假日休息

我的微信