黄仁勋GTC大会演讲全文:AI从生成式,进入代理AI和物理AI阶段

三言财经
03-19 14:15 来自湖北

当地时间3月18日,英伟达CEO黄仁勋在英伟达AI盛会GTC 2025上发表重磅演讲。

内容提要: 黄仁勋在2025年GTC大会的主题演讲

AI发展阶段: AI经历了感知AI、生成式AI,现在进入代理AI和物理AI阶段。

AI的三个核心问题: 如何解决数据问题,如何在没有人类参与的情况下解决训练问题,以及如何创建或找到一种算法,使得提供的资源越多,AI就越智能(规模定律)。

AI计算需求激增: 具身智能AI和推理的出现,对计算量的需求比去年预期的要多100倍。推理需要逐步分解问题,进行一致性检查,导致token数量大大增加,也需要更快的计算速度。

AI工厂: 数据中心正在从基于检索的计算向基于生成的计算转变,需要构建AI工厂来生成token,并重组为各种信息。

加速计算和 CUDAX 库: 不仅AI需要加速,物理学、生物学等领域也需要加速框架。CUDAX库是各科学领域的加速框架。

CUDA生态系统: CUDA的广泛安装基础和庞大的开发者社区是加速计算的基础。

云端AI和边缘计算: AI起源于云端,但将无处不在。NVIDIA正在构建完整的堆栈,将AI放入边缘,改造无线电网络。

自动驾驶: 自动驾驶汽车的时代已经到来,NVIDIA构建的技术被广泛使用,并与通用汽车(GM)合作构建未来的自动驾驶汽车。NVIDIA Halos 关注汽车安全。

数据中心转型: Blackwell正在全面生产,并在计算机架构上做出了根本性的转变,从横向扩展到纵向扩展。通过解耦 NVLink 和液冷技术,实现单机架百亿亿次计算能力。

推理是关键: 推理是计算的终极挑战,需要大量的flops、带宽和内存。Dynamo 是AI工厂的操作系统,可以完成所有复杂的操作。

Blackwell的性能优势: Blackwell相比Hopper在同等功耗下,性能提升25倍,节能效果显著。

AI工厂蓝图: NVIDIA Omniverse Blueprint for AI Factory Digital Twins 允许在物理建造开始之前设计和优化AI工厂。

NVIDIA路线图:

Blackwell Ultra将在今年下半年推出,性能进一步提升。

Rubin 平台将于明年推出,采用全新 CPU、GPU 和网络智能网卡。Rubin Ultra预计2027下半年推出。

新一代平台命名为Feynman。

异构扩展与硅光子学: 未来将扩展到数十万个GPU,横向扩展连接是关键。NVIDIA 推出世界首个共封装光器件 (CPO),实现 1.6 Tbps 的传输速率,降低能耗。

企业级计算: NVIDIA 正在彻底改变企业IT,未来的企业存储系统将实现 GPU 加速。NVIDIA DGX Station 将为全球数据科学家和研究人员制造。

开源NIMS模型: 推出完全开源的企业级模型,可下载并在任何地方运行。

机器人技术和物理AI: 机器人时代来临,物理AI将体现在各行业机器人中。Newton物理引擎由DeepMind、迪士尼研究院和NVIDIA合作开发。Groot N1人形机器人的通用基础模型开源。

演讲全文

黄仁勋: 多么令人惊叹的一年,我们有很多令人难以置信的事情要谈。我只是想让您知道,我在这里没有退路。没有剧本,没有提词器,而且我有很多内容要讲。所以让我们开始吧。

首先,我想感谢所有的赞助商和所有参与本次会议的杰出人士。几乎每个行业都有代表在这里。医疗保健、交通运输、零售,当然还有计算机行业。看到大家真的太好了,感谢你们赞助这次活动。

图片

GTC始于GeForce。一切都始于GeForce,今天,我这里有一块G-Force 5090。令人难以置信的是,25年后,在我们开始研发GeForce的25年后,G-Force在世界各地都已售罄。这是5090,Blackwell世代。与4090相比,您可以看到它的体积小30%,散热性能好30%,表现出令人难以置信的性能。甚至很难比较。

图片

图片

这种进步的原因在于人工智能。GeForce将CUDA带到了世界,从而实现了AI,而AI现在又反过来彻底改变了计算机图形。您正在观看的是实时计算机图形,100%路径追踪。对于渲染的每个像素,人工智能都会预测其他15个像素。

图片

仔细想想。对于我们用数学方法渲染的每个像素,人工智能都会推断出其他15个像素。并且它必须以非常高的精度来实现,才能使图像看起来正确,并且在时间上是准确的。这意味着从一帧到另一帧,无论是向前还是向后,因为它是计算机图形,它必须在时间上保持稳定。太不可思议了。人工智能取得了非凡的进步。至今只有10年时间。实际上我们谈论AI的时间已经不止这么久了。但是AI真正进入世界意识大约是在十年前。

图片

它始于感知AI,计算机视觉,语音识别,然后是生成式AI。在过去的五年中,我们主要专注于生成式AI,教AI如何从一种模态转换为另一种模态。文本到图像,图像到文本,文本到视频,氨基酸到蛋白质,属性到化学物质 - 我们可以使用AI生成内容的各种不同方式。生成式AI从根本上改变了计算的完成方式。从检索计算模型,我们现在有了一个生成计算模型。过去我们所做的一切几乎都是预先创建内容,存储多个版本,并在使用时提取我们认为合适的版本。

现在,AI理解上下文,理解我们正在询问的内容,理解我们请求的含义,并生成它所知道的内容。如果需要,它将检索信息,增强其理解,并为我们生成答案。它现在生成答案,而不是检索数据。这从根本上改变了计算的完成方式。计算的每一层都发生了转变。在过去的几年中,尤其是过去的几年中,发生了一项重大突破。人工智能的一项根本进步。

图片

我们称之为代理AI。代理AI基本上意味着你有一个具有代理能力的AI。它可以感知和理解环境的上下文。它可以推理——非常重要的是,它可以推理如何回答或解决问题。它可以计划并采取行动。它可以使用工具,因为它现在理解多模态信息。它可以访问网站并查看网站的格式、文字和视频,甚至可以播放视频,从网站学习,理解它,然后返回使用这些信息,利用新获得的知识来执行任务。

图片

当然,在代理AI的基础之上,存在着一些非常新的东西:推理。下一波浪潮已经发生,今天我们将对此进行大量讨论。 机器人技术,它由物理AI——理解物理世界的AI驱动。它理解摩擦和惯性,因果关系和物体永久性等概念。当某些东西不可见时,并不意味着它已经消失;它仍然存在,只是看不见。这种理解物理世界,三维世界的能力,将使我们能够进入一个我们称之为物理AI的新AI时代,它将推动机器人技术的发展。

这些阶段中的每一个,每一波浪潮,都为我们所有人开辟了新的市场机会。它为GTC带来了更多新的合作伙伴。因此,GTC现在非常拥挤。要容纳更多人参加GTC,唯一的办法就是我们要发展圣何塞。我们正在努力。

我们有很多土地可以使用。我们必须发展圣何塞。这样我们才能让GTC有活力。我站在这里,真希望你们所有人都能看到我所看到的。我们正身处体育场之中。去年是我们恢复现场活动的第一年。那就像一场摇滚音乐会。GTC被形容为AI的伍德斯托克音乐节。今年它被形容为AI的超级碗。

图片

唯一的区别是,在这个超级碗中,每个人都是赢家。每个人都是赢家。因此,每年都有更多的人来,因为AI能够为更多的行业和更多的公司解决更有趣的问题。今年,我们将大量讨论代理AI和物理AI。

在其核心,是什么驱动了AI的每个浪潮和每个阶段,涉及到三个基本问题。首先,如何解决数据问题?为什么这很重要,是因为AI是一种数据驱动的计算机科学方法。它需要数据来学习。它需要数字体验来获取知识和获得见解。那么,如何解决数据问题?

第二个问题是,如何在没有人类参与的情况下解决训练问题?为什么人类的参与从根本上具有挑战性,是因为我们只有这么多时间。我们希望AI以超人的速度、实时地以及人类无法比拟的规模进行学习。因此,第二个问题是,如何训练模型?

第三个问题涉及扩展。 如何创建或找到一种算法,使得你提供的资源越多——无论资源是什么——AI就越智能?这被称为规模定律。去年……这就是几乎整个世界都犯错的地方。AI 的计算需求和扩展定律比预想的更有韧性,实际上是超加速的。由于具身智能 AI 和推理的出现,我们现在需要的计算量,比去年这个时候认为的至少要多 100 倍。

让我们来分析一下为什么会这样。首先,让我们从 AI 的能力入手,倒推一下。正如我提到的,具身智能 AI 的基础是推理。我们现在拥有可以推理的 AI,其根本在于逐步分解问题。

也许它会用几种不同的方法来解决问题,并选择最佳答案。也许它会用多种方法解决同一个问题,通过检查来确保一致性。或者,也许在得出答案后,它会将其代回方程式,比如二次方程式,以确认它确实是正确的答案,而不是一次性脱口而出。

还记得两年前,当我们开始使用 ChatGPT 时,它本身就是一个奇迹,但很多复杂的问题,甚至是简单的问题,它都无法正确回答。这在当时是可以理解的。它只会尝试一次,依赖于从预训练数据或其他经验中学习到的东西,然后像一个“萨满”一样脱口而出。

现在,我们有了能够逐步推理的 AI,它们使用一种名为“思维链”的技术,包括“最佳结果”技术、一致性检查和各种路径规划策略。我们现在拥有能够分解问题并逐步推理的 AI。因此,您可以想象一下我们生成的 tokens 数量,虽然 AI 的基本技术仍然相同——生成下一个 token 并预测下一个 token。现在的不同之处在于,下一个 token 构成了第一步,然后之后的下一个 token 继续推理过程。

生成第一步,第一步又作为输入重新输入到 AI 中,然后它生成第二步、第三步和第四步。因此,它不再只是生成一个接一个的 token 或单词,而是生成一系列代表推理步骤的单词。因此产生的 token 数量大大增加,我稍后会向您展示,很容易达到 100 倍以上

那么,100 倍以上意味着什么?嗯,它可能生成 100 倍以上的 token,正如我之前解释的那样。或者,模型更加复杂,生成 10 倍以上的 token,为了保持模型的响应速度和交互性,以免我们因等待其思考而失去耐心,我们现在必须以 10 倍的速度进行计算。因此,10 倍的 token 和 10 倍的速度意味着我们必须进行的计算量很容易达到 100 倍。

因此,您将在本次演示的其余部分看到:我们进行推理所需的计算量大大高于过去。那么,问题就变成了,我们如何教 AI 如何执行我刚才描述的内容?如何执行这个思维链?

一种方法是,我们必须教 AI 如何推理。正如我之前提到的,在训练中,我们必须解决两个根本问题:数据从何而来,以及我们如何避免受到人为输入的限制?我们可以执行的数据和人为演示的数量是有限的。这是过去几年的重大突破:强化学习和可验证的结果

基本上,它涉及在 AI 逐步尝试攻击或参与解决问题时,强化 AI 的学习。我们人类历史上已经解决了许多问题,并且我们知道答案。

我们知道二次方程式的公式,如何解它。我们知道如何解勾股定理,直角三角形的规则。我们知道许多许多数学、几何、逻辑和科学的规则。我们可以给它一些谜题游戏。

约束条件、约束类型的问题,比如数独,诸如此类的问题,等等。我们有数百个这样的问题空间,我们可以在其中生成数百万个不同的例子,并给 AI 数百次逐步解决问题的机会,当我们使用强化学习来奖励它做得越来越好时。

因此,通过数百个不同的主题、数百万个不同的例子和数百次不同的尝试,每次尝试都会生成数万个 token。当你把所有这些放在一起时,我们谈论的是数万亿的 token,以便训练该模型。

图片

现在,通过强化学习,我们有能力生成大量的 token。合成数据生成,基本上是使用一种机器人方法来教 AI。这两件事的结合给整个行业带来了巨大的计算挑战。

您可以看到该行业正在做出回应。我即将向您展示的是 Hopper 的发货量。

在四大 CSP 中,四大 CSP,那些拥有公共云的公司,亚马逊、Azure、GCP 和 OCI。四大 CSP,不包括 AI 公司,不包括所有初创公司,不包括企业,不包括一大堆东西。只有这四个,只是为了让您了解 Hopper 的峰值年份和 Blackwell 的第一年之间的比较。好的,Hopper 的峰值年份和 Blackwell 的第一年。所以你可以看到,事实上,AI 正在经历一个拐点。

它变得更有用,因为它更聪明,它可以推理。它被更多地使用。你可以看出它被更多地使用了,因为每当你现在去使用 ChatGPT 时,似乎你必须等待越来越长的时间,这是一件好事。这说明很多人都在有效地使用它。训练这些模型和推理这些模型所需的计算量已经大大增加。仅仅一年时间,随着 Blackwell 刚刚开始发货,你就可以看到 AI 基础设施令人难以置信的增长。

嗯,这反映在整个计算领域。我们现在看到分析师对全球数据中心(包括 CSP 和企业)到本十年末(到 2030 年)资本支出增长的紫色预测。我之前说过,我预计数据中心的建设将达到一万亿美元,而且我相当肯定我们很快就会达到这个目标。

目前正在同时发生两个动态。第一个动态是,绝大多数增长可能会加速。我们早就知道,通用计算已经走到了尽头,我们需要一种新的计算方法。世界正在经历一个平台转变,从运行在通用计算机上的手工编码软件转变为运行在加速器和 GPU 上的机器学习软件。这种计算方式现在已经超过了临界点,我们正在看到世界数据中心建设中出现的拐点。

第二个动态是,人们越来越认识到,软件的未来需要资本投资。这是一个非常重要的想法。过去我们编写软件并将其运行在计算机上,而未来计算机将为软件生成 token。因此,计算机已经成为 token 的生成器,而不仅仅是文件的检索器。我们正在从基于检索的计算过渡到基于生成的计算,从旧的数据中心建设方式过渡到一种新的基础设施建设方式,我称之为 AI 工厂。

它们是 AI 工厂,因为它们只有一项工作,那就是生成这些令人难以置信的 token,然后我们将这些 token 重组为音乐、文字、视频、研究、化学物质或蛋白质。我们将它重组为各种不同类型的信息。因此,世界正在经历的转变不仅在于将要建设的数据中心的数量,还在于它们的建设方式。

图片

嗯,数据中心的一切都将加速,但并非所有都是 AI。我想说几句关于这个。你知道,这张幻灯片,这张幻灯片,这张幻灯片真的是我最喜欢的。原因是,对于所有这些年来参加 GTC 的你们来说,你们一直在听我说这些库的事情。事实上,这正是 GTC 的意义所在,就是这张幻灯片。很久以前,20 年前,这是我们唯一的幻灯片——一个又一个库。

图片

你不能仅仅加速软件。正如我们需要一个 AI 框架来创建 AI,并且我们加速了 AI 框架一样,你需要物理学和生物学、多物理学以及各种不同的量子物理学的框架。你需要我们称之为 CUDAX 库的各种库和框架——用于每个科学领域的加速框架。第一个非常棒:cuPYNumeric。NumPy 是下载次数最多的 Python 库,是世界上使用最多的 Python 库,去年下载了 4 亿次。cuLitho 是一个计算光刻库,cuPYNumeric 是 NumPy 的零更改即插即用加速。因此,如果你们中有任何人在使用 NumPy,请尝试一下 cuPYNumeric;你会喜欢的。

图片

在过去的四年里,我们完成了光刻工艺和计算光刻的整个流程,后者是晶圆厂里的第二个工厂。一个工厂制造晶圆,另一个工厂制造信息,用以生产这些晶圆。未来,每个行业、每个拥有工厂的公司都将拥有两个工厂:一个用于制造产品,另一个用于数学计算,也就是用于人工智能(AI)。例如,会有汽车工厂和汽车AI工厂,智能音箱工厂和智能音箱AI工厂。cuLitho是我们的计算光刻库。台积电(TSMC)、三星(Samsung)和阿斯麦(ASML)是我们的合作伙伴,还有新思科技(Synopsys)和明导国际(Mentor),他们都提供了极大的支持。我相信现在正处于一个临界点。五年后,每一块掩膜、每一次光刻都将在英伟达(NVIDIA)的平台上进行处理。

ARIAL 是我们的 5G 库,可以将 GPU 变成 5G 无线电。为什么不行呢?信号处理是我们的强项。一旦完成这一步,我们就可以在其上叠加 AI,从而创造出我们称之为 AI RAN 的下一代无线电网络,将 AI 深度嵌入其中。我们常常受到信息论的约束,也就是我们能够获得的频谱信息量,但是如果加入 AI,情况就会改变。cuOPT是一个用于数值或数学优化的库。几乎每个行业都会在规划座位和航班、库存和客户、工人和工厂、司机和乘客时用到它,这些场景都存在多个约束和大量变量。你会为了时间、利润、服务质量或资源使用率等各种因素进行优化。英伟达也将它用于我们的供应链管理。

图片

cuOPT是一个非常出色的库,它可以将通常需要数小时才能完成的流程缩短到几秒钟。它的重要性在于,我们现在可以探索更大的空间。我们宣布将开源 cuOPT,目前几乎每个人都在使用 Garubi、IBM Cplex 或 FICO。我们正在与这三家公司合作,整个行业都对此感到兴奋。我们即将极大地加速整个行业的发展。

此外,我们还有用于基因测序和基因分析的工具。MONAI是世界领先的医学影像库。Earth2是一个多物理场工具,用于预测非常高分辨率的局部天气。通过 cuQuantum 和 CUDA-Q,我们很高兴在 GTC 上宣布我们的第一个量子日。我们正在与生态系统中的几乎每个人合作,帮助他们研究量子架构、量子算法,或者构建一个经典的加速量子异构架构。

图片

在这个领域有很多令人兴奋的工作正在进行,包括Coup 等变性和Coup张量,用于量子化学中的张量缩并。这个技术栈世界闻名。很多人认为只有一个名为 CUDA 的软件;然而,在 CUDA 之上,还有一大堆集成到生态系统和基础设施各个部分的库,使 AI 成为可能。今天我还要宣布一个新的库:cuDSS,它是稀疏求解器,对于 CAE 来说非常重要。这是去年发生的最大进展之一。通过与 Cadence、Synopsys、Ansys、Dassault 以及所有系统公司的合作,我们现在已经可以加速几乎每一个重要的 EDA 和 CAE 库。

英伟达一直都在使用通用计算机,以极慢的速度运行软件,来为其他人设计加速计算机。原因是直到最近,我们才拥有针对 CUDA 优化的软件体系。现在,随着我们转向加速计算,我们的整个行业都将得到极大的提升。

图片

我们推出了 cuDF,这是一个用于结构化数据的数据帧,现在可以为 Spark 提供直接加速,也可以为 Pandas 提供直接加速。这一进步非常了不起,标志着我们在能力方面向前迈出了重要一步。

此外,我们还有 WARP,这是一个用于物理的库,它运行一个用于 CUDA 物理的 Python 库。关于这项开发,我们有一个重大消息要宣布,我先暂时保留一下。

这仅仅是使加速计算成为可能的众多库的一部分。不仅仅是 CUDA。我们为 CUDA 感到非常自豪。但如果不是因为 CUDA,以及我们拥有如此庞大的安装基础,这些库对使用它们的开发者来说毫无用处。

图片

所有使用这些库的开发者,你们之所以使用它们,是因为它们会给你们带来难以置信的速度提升和规模扩展。而且,CUDA 的安装基础现在遍布各地。它存在于每个云端、每个数据中心。世界上的每家计算机公司都可以提供它。它确实无处不在。

因此,通过使用这些库中的一个,你们的软件,你们出色的软件就可以触达所有人。所以,我们现在已经到达了加速计算的临界点。CUDA 使这一切成为可能。

这一切的实现离不开大家,GTC 就是关于生态系统的,是你们所有人促成了这一切,所以我们为大家制作了一个小短片。谢谢。

献给创造者、先驱者、未来的建设者,CUDA 为你们而生。自 2006 年以来,超过 200 个国家的 600 万开发者使用 CUDA 并改变了计算。

图片

凭借超过 900 个 CUDAX 库和 AI 模型,你们正在加速科学发展,重塑行业,并赋予机器观察、学习和推理的能力。

现在,NVIDIA Blackwell 比第一代 CUDA GPU 快 50,000 倍。速度和规模上的巨大提升正在缩小模拟和实时数字工具之间的差距。

黄仁勋: 对于你们来说,这仍然只是一个开始。我们迫不及待地想看到你们接下来要做什么。我热爱我们所做的事情。我更热爱你们用它所做的事情。

在我从事这项工作的 33 年里,最让我感动的事情之一是一位科学家对我说:“黄仁勋,因为你的工作,我可以在我的有生之年完成我毕生的工作。” 如果这都不能打动你,那你一定是个行尸走肉。

图片

所以这一切都是为了你们。谢谢大家。好了,接下来我们要讨论AI。AI 起源于云端。它在云端起步是有充分理由的,因为 AI 需要基础设施。它是机器学习。如果科学表明是机器学习,那么就需要一台机器来进行科学研究。因此,机器学习需要基础设施,而云数据中心拥有基础设施。他们还拥有卓越的计算机科学、卓越的研究,这为 AI 在云端和云服务提供商(CSP)中起飞创造了完美的条件。

图片

图片

但这并不是 AI 的全部。AI 将无处不在。我们将以多种不同的方式来讨论AI。当然,云服务提供商喜欢我们领先的技术。他们喜欢我们拥有完整的技术栈。正如我之前解释的那样,加速计算不仅仅是芯片。甚至不仅仅是芯片和库的组合。编程模型就是芯片、编程模型,以及构建在其上的一大堆软件。整个技术栈非常复杂。每一层、每一个库,本质上都像 SQL。大家都知道,SQL 被称为内存计算。这是 IBM 带来的计算的重大革命。SQL 只是一个库;想象一下。我刚刚向大家展示了一大堆库。在 AI 领域,还有更多。

图片

所以,这个堆栈很复杂。他们也喜欢云服务提供商(CSP)重视英伟达CUDA开发者是其客户这一事实。因为归根结底,他们是在为全世界构建基础设施。因此,丰富的开发者生态系统真的很有价值,也深受赞赏。现在,我们将人工智能带给世界其他地方,而世界其他地方有着不同的系统配置、不同的操作环境、不同的特定领域库,以及不同的使用方式。因此,人工智能在转化为企业IT,在转化为制造业,在转化为机器人或自动驾驶汽车。

图片

甚至还有一些公司开始做GPU云,大概有20家公司是在英伟达时代开始的。他们只做一件事:托管GPU。他们称自己为GPU云。我们的一个很棒的合作伙伴CoreWeave,正在进行上市,我们为他感到非常自豪。

GPU云有它们自己的需求。然而,我非常兴奋的一个领域是边缘计算。今天我们宣布,思科、英伟达、T-Mobile(世界上最大的电信公司)和Cerberus ODC都参与了这项计划。

我们将在美国为无线电网络构建一个完整的堆栈。这将是第二个堆栈。因此,我们今天宣布的这个堆栈将把人工智能放入边缘。记住,每年全球在无线电网络和为通信提供支持的所有数据中心的资本投资高达1000亿美元。在我看来,未来毫无疑问将是注入人工智能的加速计算。

人工智能将在适应无线电信号、大规模MIMO、不断变化的环境和交通状况方面做得好得多。当然会。当然我们会使用强化学习来做到这一点。MIMO本质上就是一个巨大的无线电机器人,我们当然会提供这些能力。人工智能可以彻底改变通信。

图片

你知道,我打电话回家时,不需要说太多话,因为我妻子知道我在哪里工作,以及情况如何。对话从昨天延续下来。她记得我喜欢什么,不喜欢什么,通常只需要几句话就能传达很多信息。原因是上下文和人类先验知识,先前的知识。将这些能力结合起来可以彻底改变通信。

看看它在视频处理和3D图形方面的作用,我之前已经描述过了。所以,当然,我们也会为边缘计算做同样的事情。我非常兴奋地宣布我们今天发布的公告:T-Mobile、思科、英伟达、Cerebrus ODC将构建一个完整的堆栈。

图片

嗯,人工智能将进入每个行业。这只是其中之一。人工智能最早进入的行业之一是自动驾驶汽车。当我看到AlexNet的那一刻,我们已经在计算机视觉领域工作了很长时间,看到AlexNet的那一刻是如此鼓舞人心,如此令人兴奋,它促使我们决定全力以赴地构建自动驾驶汽车。

因此,我们已经在自动驾驶汽车领域工作了十多年。我们构建的技术几乎被每一家自动驾驶汽车公司使用。它可能在数据中心。例如,特斯拉在数据中心使用了大量的英伟达GPU。它可能在数据中心或汽车中。Waymo和Wave在数据中心和汽车中都使用了英伟达计算机。

它可能只在汽车中。这种情况很少见,但有时它只在汽车中,或者他们也使用我们所有的软件。我们与汽车行业的合作方式取决于汽车行业希望我们如何合作。我们构建所有三种计算机:训练计算机、模拟计算机和机器人计算机,即自动驾驶汽车计算机,以及位于其上的所有软件堆栈、模型和算法,就像我们对所有其他我演示过的行业所做的那样。

图片

所以今天,我非常兴奋地宣布,通用汽车(GM)已选择英伟达合作,共同构建他们未来的自动驾驶汽车 fleet。自动驾驶汽车的时代已经到来。我们期待与通用汽车在所有三个领域进行人工智能构建。

图片

用于制造业的人工智能,以便他们能够彻底改变他们的制造方式。用于企业的人工智能,以便他们能够彻底改变他们的工作方式、设计汽车和模拟汽车,以及用于汽车内部的人工智能。

因此,为通用汽车提供人工智能基础设施,与通用汽车合作,并与通用汽车一起构建他们的人工智能。我对此感到非常兴奋。我深感自豪的一个领域,而且很少受到关注,是安全,汽车安全。在我们的公司里,它被称为Halos。安全需要从芯片到系统,系统软件,算法的技术。

图片

方法论,从多样性到确保多样性,监控和透明度,可解释性,所有这些不同的理念都必须深刻地融入到你开发系统和软件的每一个部分。我相信我们是世界上第一家对每一行代码进行安全评估的公司——700万行代码的安全评估。

我们的芯片、我们的系统、我们的系统软件和我们的算法都经过第三方的安全评估,他们会检查每一行代码,以确保其设计旨在确保多样性、透明性和可解释性。我们还提交了1000多项专利。

在这次GTC期间,我真的鼓励您花时间参加Halos研讨会,以便您可以看到所有不同的元素如何结合在一起,以确保未来的汽车既安全又自动。这是我非常自豪的一件事,尽管它很少受到应有的关注,所以我认为这次我会花额外的时间来谈论它。

好的,NVIDIA Halos。

你们都见过汽车自己行驶。Waymo RoboTaxis令人难以置信。但是我们制作了一个视频,与您分享我们用来解决数据、训练和多样性问题的一些技术,以便我们可以使用人工智能的魔力来创造人工智能。让我们来看看。

NVIDIA正在使用Omniverse和Cosmos加速自动驾驶汽车(AV)的人工智能开发。Cosmos的预测和推理能力支持AI优先的AV系统,该系统可以通过新的开发方法进行端到端训练。模型提炼、闭环训练和合成数据生成。首先,模型提炼。Cosmos的驾驶知识作为策略模型,从速度较慢的智能教师转移到汽车中推理的更小、更快的学生。

图片

图片

图片

教师的策略模型展示了最佳轨迹,然后学生模型通过迭代进行学习,直到它的表现几乎达到与教师相同的水平。提炼过程引导了一个策略模型,但是复杂的场景需要进一步的调整。闭环训练可以对策略模型进行微调。

图片

日志数据被转换为3D场景,用于使用Omniverse神经重建在基于物理的模拟中进行闭环驾驶。创建这些场景的变体以测试模型的轨迹生成能力。然后,Cosmos行为评估器可以对生成的驾驶行为进行评分,以衡量模型的性能。新生成的场景及其评估为闭环训练创建了一个大型数据集,帮助AV更稳健地导航复杂场景。

图片

最后,3D合成数据生成增强了自动驾驶汽车对各种环境的适应性。Omniverse从日志数据中融合地图和图像,构建了详细的4D驾驶环境,并生成了真实世界的数字孪生,包括分割,通过对每个像素进行分类来指导Cosmos。然后,Cosmos通过生成准确而多样化的场景来扩展训练数据,从而缩小了模拟到现实的差距。

图片

图片

Omniverse和Cosmos使自动驾驶汽车能够学习、适应和智能驾驶,从而推动更安全的出行。

图片

黄仁勋: 英伟达是做这件事的完美公司。天啊,这就是我们的使命。利用人工智能来重塑人工智能。我们向您展示的技术,与您现在使用的技术非常相似,它将您带入一个我们称之为英伟达的数字孪生世界。好了,让我们来谈谈数据中心。

Blackwell正在全面生产,这就是它的样子。这是一个令人难以置信的东西……对我们来说,这是一个美丽的景象。你们同意吗?

这怎么可能不美呢?怎么会不美呢?这是一个大事件,因为我们在计算机架构上做出了根本性的转变。我只想让大家知道,事实上,大约三年前我就向大家展示过这个版本。它被称为Grace Hopper,该系统被称为Ranger。Ranger系统大概是屏幕宽度的一半,它是世界上第一个NVLink 32。三年前,我们展示了Ranger的工作原理,它太大了,但想法是完全正确的。

我们试图解决的是纵向扩展问题。分布式计算是关于使用大量不同的计算机协同工作来解决一个非常大的问题。但在横向扩展之前,纵向扩展是不可替代的。两者都很重要,但在横向扩展之前,你应该先纵向扩展。但是,纵向扩展非常困难,没有简单的答案。你不能像Hadoop那样进行纵向扩展或横向扩展,即采用大量商品计算机,将它们连接到一个大型网络中,并使用Hadoop进行存储内计算。我们知道,Hadoop是一个革命性的想法。它使超大规模数据中心能够使用现成的计算机解决巨型规模的问题。

图片

然而,我们试图解决的问题非常复杂,以这种方式进行横向扩展会耗费太多的电力和能源,这是不可能实现的,深度学习也不会发生。因此,我们必须首先进行纵向扩展。这就是我们纵向扩展的方式。我不打算举起它,它重70磅。这是上一代系统架构,称为HGX。它彻底改变了我们所知的计算,彻底改变了人工智能。这是八个GPU,每个都像这样。

图片

图片

好的,这是一个Blackwell封装中的两个Blackwell GPU。一个Blackwell封装中有两个Blackwell GPU。下面有八个这样的。然后,它连接到我们称之为NVLink8的东西。再连接到一个像这样的CPU托架,所以是双CPU。它位于顶部。我们通过PCI Express连接它,然后将许多这些与InfiniBand连接起来,从而变成一台AI超级计算机。

图片

这就是过去的方式。这就是我们开始的方式。这是我们在横向扩展之前进行的最大规模的纵向扩展。但我们想要进一步纵向扩展。我告诉过你,Ranger将这个系统再纵向扩展了四倍。我们有NVLink32,但系统太大了。我们必须做一些非常了不起的事情:重新设计NVLink的工作方式以及纵向扩展的工作方式。我们做的第一件事是,我们说,NVLink交换机嵌入在这个系统的主板上。

图片

我们需要分离NVLink系统,将其取出。这就是NVLink系统。这是世界上性能最高的交换机。它使每个GPU都能够在完全带宽下同时与每个GPU通信。

好的,这就是NVLink交换机。我们将其分离,将其取出,并将其放置在机箱的中心。在九个不同的机架中,有18个这样的交换机,也就是九个不同的交换机托盘,我们称之为交换机托盘。然后交换机被分离。现在计算部分位于这里。这相当于这两个东西的计算能力。

图片

令人惊奇的是,它完全是液体冷却的。通过液体冷却,我们可以将所有这些计算节点压缩到一个机架中。这是整个行业的一大转变。在座的各位,我知道你们有多少人在这里;我要感谢你们使这种从集成NVLink到分解NVLink,从风冷到液冷的根本转变成为可能。

图片

从每台计算机大约60,000个组件,到每个机架600,000个组件,120千瓦全液体冷却,因此,我们在一个机架中拥有一台百亿亿次浮点运算的计算机。是不是很不可思议?

好的,这是计算节点。这是计算节点。现在,这个可以放入其中一个。现在……3000磅。

图片

5000根电缆,大约两英里长。这是一个令人难以置信的电子设备阵列。600,000个零件。我认为这相当于20辆汽车——20辆汽车的零件——它们都集成到一台超级计算机中。我们的目标是实现这种纵向扩展。这就是它现在的样子。

图片

我们基本上想制造这个芯片;然而,没有光罩,也没有工艺技术可以实现这一点。它拥有130万亿个晶体管,其中20万亿个用于计算。因此,这不是短期内可以合理制造的东西。解决这个问题的方法是将其分解,就像我所描述的那样,分解成Grace Blackwell NVLink72机架。通过这种方法,我们实现了最终的纵向扩展。

图片

这代表了世界上有史以来最极端的纵向扩展。这里可以实现的计算量以及内存带宽,达到了惊人的每秒570太字节。这台机器中的一切都以万亿为单位运行。我们已经达到了exa-flops,也就是每秒一百万万亿次浮点运算。

我们想要进行这项壮举的原因是为了解决一个极端问题。这个极端问题常常被误解为很简单;然而,事实上,它是极端计算中的终极挑战,它被称为推理。原因很简单。

推理就像一个工厂在生成token。而工厂意味着收入和利润的产生,或者说,收入和利润的缺失。这个工厂必须以极高的效率和性能来建造,因为这个工厂的一切都直接影响你的服务质量、你的收入和你的盈利能力。

我来解释一下如何解读这张图表,因为之后我会多次提到它。基本上,它有两个轴。X轴是每秒的token数。当你聊天时,当你向ChatGPT输入提示词时,输出的就是token。这些token会被重新组合成词语。需要注意的是,并不是一个token对应一个词。

例如,T-H-E 可以代表 "the"、"them"、"theory"、"theatrics" 等等。所以 T-H-E 就是一个token的例子。它们将这些token重新组合成词语。我们已经确定,如果想让你的AI更智能,就需要生成大量的token。这些token包括推理token、一致性检查token,以及生成各种想法,以便AI可以在其中选择最佳方案。

在这个过程中,AI可能会自我怀疑,反问自己:“这是你能做的最好的工作吗?”它会进行这种自我对话,就像我们自言自语一样。因此,你生成的token越多,你的AI就越智能。

如果你回答一个问题的时间太长,顾客就不会再来了。这和网络搜索是一样的。在返回一个智能答案之前,所花费的时间是有限制的。所以,你面临着这两个维度的对抗。你试图生成大量的token,但你又试图尽可能快地完成它。因此,你的token速率非常重要。你希望单个用户的每秒token数尽可能快。

图片

然而,在计算机科学和工厂中,延迟响应时间和吞吐量之间存在着根本的矛盾。原因很简单。如果你身处大规模、高容量的业务中,你会进行批处理,也就是将大量的客户需求进行批处理,然后制造一个特定的版本供大家稍后使用。但是,从他们批处理和制造产品到你消费它,这之间可能需要很长时间。这个概念对于计算机科学,特别是生成token的AI工厂来说,也是一样的。

你面临着这两个根本的矛盾。一方面,你希望客户的服务质量尽可能好,提供超级快速的智能AI。另一方面,你试图让你的数据中心为尽可能多的人生成token,以便最大限度地提高你的收入。完美的答案位于右上角。理想情况下,曲线的形状应该是一个正方形,即你可以在工厂的极限范围内为每个人生成非常快速的token,但没有工厂能够实现这一点。

它可能是一条曲线,你的目标是最大化曲线下的面积,即X和Y的乘积。你向外推送得越远,就越意味着你正在建造一个更好的工厂。事实证明,就整个工厂的每秒token数和每秒响应时间的token数而言,其中一个需要大量的计算(flops),而另一个维度需要大量的带宽和flops。这造成了一个非常难以解决的问题。

好的答案是,你应该拥有大量的flops、大量的带宽和大量的内存——基本上,拥有一切。这是最好的起点,这也是这台计算机如此出色的原因。你从你能获得的最多flops、最多内存、最多带宽,以及你能实现的最佳架构和最高能源效率开始。此外,你还需要一个编程模型,允许你在所有这些之上运行软件,这极具挑战性,以确保你可以有效地实现它。

图片

现在,让我们来看一个演示,以便让你们对我在说什么有一个切身的感受。请播放它。

画外音: 传统的LLM捕捉基础知识,而推理模型则利用思维token来帮助解决复杂问题。在这里,一个提示要求围绕婚礼餐桌安排座位,同时遵守传统、上镜角度和不和的家庭成员等约束条件。

图片

传统的LLM使用不到500个token快速给出答案,但在安排客人座位时犯了错误,而推理模型使用超过8000个token进行思考,最终得出了正确的答案。它甚至用意大利面来维持和平。

黄仁勋: 好的,大家都知道,如果你们要为300人的婚宴找到完美的,或者说最佳的座位安排,那只有AI或者岳母才能解决这个问题。

你们在这里看到的是,我们给它提出了一个需要推理的问题,你们看到R1启动并进行推理,尝试所有这些不同的场景,然后它会返回并测试自己的答案,它会反问自己是否做对了。

最新的生成式语言模型采用的是一次性方法(one-shot)。这种一次性方法使用了439个token。它很快,也很有效,但它是错误的。所以这是439个被浪费的token。另一方面,为了让你推理这个问题,这实际上是一个非常简单的问题,你只需要给它几个更难的变量,它就会变得非常难以推理,并且它需要8000个,几乎是9000个token。而且它需要更多的计算,因为模型更复杂。这就是一个维度。

在我向你们展示一些结果之前,让我解释一些其他的事情。所以,如果你们看一下Blackwell,看一下Blackwell系统,它现在是扩展后的NVLink 72。我们首先要做的是获取这个模型。这个模型并不小。就R1而言,人们认为R1很小,但它有6800亿个参数。

下一代模型可能有数万亿个参数。而你解决这个问题的方法是,你将这数万亿个参数和这个模型分配到整个GPU系统上。你可以使用张量并行;你可以采用模型的一层并在多个GPU上运行它。你可以采用管道的一个切片,并将其称为管道并行,并将其放置在多个GPU上。你可以将不同的专家放置在不同的GPU上;我们称之为专家并行。

管道并行、张量并行和专家并行的组合,其组合的数量是疯狂的。根据模型、工作负载和具体情况,你配置计算机的方式必须改变,以便你可以从中获得最大的吞吐量。有时你也会针对非常低的延迟进行优化;有时你试图针对吞吐量进行优化,因此你必须进行一些飞行中批处理(in-flight batching)。有很多不同的批处理和聚合工作技术。

因此,这些AI工厂的软件,操作系统,非常复杂。其中的一个发现,拥有像NVLink72这样同构的架构,确实是一件非常棒的事情。因为每个GPU都可以做我刚才描述的所有事情。

我们观察到这些推理模型正在进行几个阶段的计算。其中一个阶段的计算是思考。当你在思考时,你不会产生大量的token。你正在产生你可能自己消费的token。你在思考。也许你在阅读。你正在消化信息。该信息可以是一个PDF文件。该信息可以是一个网站。你可以字面意思上地观看视频,以超线性的速度吸收所有这些信息。你获取所有这些信息,然后制定答案,制定一个计划好的答案。因此,对信息和上下文的处理是非常消耗浮点运算的。

另一方面,在下一个阶段,它被称为解码。第一部分我们称之为预填充(pre-fill),而解码的下一阶段需要浮点运算,但它需要大量的带宽。这很容易计算。如果你的模型有几万亿个参数,那么它每秒需要几TB。请注意,我刚才提到的是每秒576TB。仅仅从HBM内存中提取模型并生成一个token就需要每秒几TB的带宽。

它生成一个token的原因是,记住,这些大型语言模型是在预测下一个token。这就是他们所说的下一个token。它不是预测每个token。它是在预测下一个token。现在,我们有各种各样的新技术,推测性解码,以及各种各样的新技术来更快地完成这项工作。但在最终的分析中,你预测的是下一个token。

所以,你提取并导入整个模型和上下文。我们称之为KV缓存。然后,我们生成一个token。接着,我们将这个token放回“大脑”中,并生成下一个token。每次这样做,我们都会输入数万亿的参数,然后生成一个token。输入数万亿参数,生成另一个token。输入数万亿参数,生成又一个token。

请注意那个演示,我们生成了8600个token。也就是说,数万亿字节的信息被输入到我们的GPU中,然后一次生成一个token。这从根本上解释了为什么你需要NVLink。NVLink使我们能够将所有这些GPU变成一个巨大的GPU。

最终的扩展。第二点是,现在一切都基于NVLink,我可以将预填充与解码分离,并决定使用更多GPU进行预填充,减少用于解码的GPU。

因为我在进行大量的思考,这就是agentic。我在阅读大量的信息,我在进行深入的研究。注意到我在做深入的研究了吗?之前我在听Michael的演讲,Michael也在谈论他所做的研究,我也做同样的事情。

我们会进行非常深入的AI研究项目,我喜欢这样做,因为我已经为此付过钱了。

我喜欢让我们的GPU工作,没有什么比这更让我高兴的了。所以我写好提示词,然后它就开始进行研究。它访问了大约94个不同的网站,阅读了所有这些信息,同时我也在阅读这些信息,然后它形成答案并撰写报告。这太不可思议了。

在整个过程中,预填充非常繁忙,但实际上并没有生成很多token。另一方面,当您与聊天机器人聊天时,并且数百万人都在做同样的事情时,token生成量非常大,解码量也非常大。根据工作负载的不同,我们可能会决定将更多GPU用于解码,或将更多GPU用于预填充。

这种动态操作非常复杂。我刚刚描述了流水线并行、张量并行、专家并行、飞行中批处理、分离式推理和工作负载管理。此外,我必须获取这个名为KV缓存的东西,将其路由到正确的GPU,并通过所有内存层次结构对其进行管理。这个软件非常复杂。

所以,今天我们宣布推出NVIDIA Dynamo。

NVIDIA Dynamo可以完成所有这些工作。它本质上是AI工厂的操作系统。过去,我们运行数据中心的方式是,我们的操作系统类似于VMware。我们会编排,而且我们现在仍然在这样做,我们是VMware的重度用户,编排运行在我们企业IT之上的一大堆不同的企业应用程序。但在未来,应用程序不再是企业IT,而是agents。操作系统不再是像VMware这样的东西,而是像Dynamo这样的东西。这个操作系统不是运行在数据中心之上,而是运行在AI工厂之上。

图片

我们称它为Dynamo是有原因的。如你所知,Dynamo是开启上一次工业革命,即能源工业革命的第一个仪器。水进入,电力输出。非常棒。水进入,你点燃它,它变成蒸汽,然后输出的是这种无形但极其有价值的东西。又过了80年才过渡到交流电,但Dynamo是这一切的起点。

图片

所以,我们决定将这个操作系统,这个非常复杂的软件,命名为NVIDIA Dynamo。它是开源的,我们非常高兴我们的许多合作伙伴都在与我们合作。我最喜欢的合作伙伴之一,我非常喜欢他们,因为他们所做的革命性工作,就是Perplexity。Erevin是一个很棒的人,Perplexity是我们在工作中很好的合作伙伴。

总之,非常好。

好的,所以现在我们必须等到我们扩展所有这些基础设施,但与此同时,我们已经完成了一系列非常深入的模拟。我们用超级计算机来模拟我们的超级计算机,这是有道理的。我现在要向你展示它的好处。

图片

在我刚才所说的一切中,请记住工厂图。x轴是工厂每秒token的吞吐量,y轴是用户体验每秒token的吞吐量。你想要非常智能的AI,并且你想要生产一大堆这样的AI。这就是Hopper。

好的,这就是Hopper,它可以为每个用户生成大约每秒100个token。这是通过使用八个通过InfiniBand连接的GPU实现的。我将其标准化为每兆瓦每秒token。这是一个1兆瓦的数据中心,不是一个非常大的AI工厂,但无论如何,它是1兆瓦。

以这种速度,它可以为每个用户每秒生成100个token,并且可以在这个级别上,无论发生什么,为这个1兆瓦的数据中心每秒生成10万个token。或者,如果它被超级批量处理,并且客户愿意等待很长时间,它可以为该AI工厂每秒生成大约250万个token。

图片

图片

明白了吗?好的,点点头。

好吧。因为这里是,你知道的,每个GTC都有入场券,你们知道吗?就像,你会被数学折磨一样。只有在NVIDIA你才会被数学折磨。

好吧,Hopper,你可以得到250万。那么,这250万意味着什么?你如何理解它?250万。记住,ChatGPT每百万token的价格大约是10美元,对吧?每百万token 10美元。让我们假设一下,我认为每百万token 10美元的价格可能在这个位置之下。好吧,我可能会说它是在这里之下。但让我假设它是在这个位置之上。因为250万,10美元,所以每秒2500万美元。明白了吗?这就是你思考它的方式。

另一方面,如果它远低于这个位置,那么问题是,所以是10万。10万,只需除以10。每家工厂每秒25万美元。然后,一年有3100万,3000万秒。

这转化为该1兆瓦数据中心的收入。这就是你的目标。一方面,你希望你的token速率尽可能快,这样你就可以制造出真正智能的AI。如果你有智能AI,人们会为此支付更多的钱。另一方面,AI越智能,你批量生产的能力就越低。

非常明智的权衡。这就是我们试图改变的曲线。现在,我正在向你展示的是世界上最快的计算机,Hopper。这是一台彻底改变一切的计算机。那么,我们如何才能做得更好呢?

我们做的第一件事是推出配备NVLink 8的Blackwell。同样的Blackwell,同样的计算。而且那个配备NVLink8的计算节点使用FP8。所以Blackwell更快。更快、更大、更多的晶体管、更多的一切。但我们喜欢做更多的事情。

图片

我们引入了一种新的精度。它不像4位浮点数那么简单。但是使用4位浮点数,我们可以量化模型并使用更少的能量来实现相同的结果。因此,当你使用更少的能量做同样的事情时,你可以做更多的事情。记住,一个重要的观点是,未来的每个数据中心都将受到电力限制。你的收入受到电力限制。你可以根据你拥有的电力来计算你的收入。

这与许多其他行业没有什么不同。因此,我们现在是一个电力受限的行业。我们的收入将与此相关。基于此,你要确保你拥有尽可能节能的计算架构。

接下来,我们使用NVLink72进行扩展。明白了吗?看看NVLink72 FP4和我们紧密集成的架构之间的区别。现在,我们向其中添加Dynamo,它可以进一步扩展它。你们跟得上我的思路吗?所以Dynamo也有助于Hopper,但Dynamo对Blackwell的帮助非常大。好的。

只有在GTC你才能为此获得掌声。现在请注意我放置的两个闪亮部分,那差不多就是你的最大Q值所在。那可能是你运行工厂运营的地方。你试图在最大吞吐量和最大AI质量之间找到平衡。最智能的AI,以及最多的AI。这两个,XY截距,才是你真正优化的目标。

这就是如果你观察那两个方块之下的情况。Blackwell远胜于Hopper。请记住,这比较的不是芯片数量,而是功耗。这是摩尔定律的终极体现,过去摩尔定律一直关注的就是这个。现在,我们实现了在同等功耗下性能提升25倍,这不是芯片数量的比较,也不是晶体管数量的比较,而是功耗的比较,这才是最终的限制因素。

数据中心能够提供的能源是有限的。因此,在同等功耗下,Blackwell的性能提升了25倍。现在展示的是那个彩虹图,非常棒,这才是有趣的部分。看看这些不同的配置,在帕累托前沿(the Pareto frontier)之下的每一个点,我们称之为帕累托前沿,在帕累托前沿之下有数百万种可以配置数据中心的方式。

我们可以并行处理,拆分工作,以各种不同的方式进行分片。而我们找到了最优解,即帕累托前沿。由于颜色不同,每个点代表不同的配置。这张图清晰地表明,你需要一个尽可能同质且可编程的架构。工作负载在整个前沿变化非常大。

图片

在顶部,我们看到专家并行,批次大小为3000,取消了分散处理(disaggregation),并且关闭了Dynamo。在中间,专家并行度为64,其中26%用于上下文,开启了Dynamo。另外64%未被使用。此外,一侧是批次大小为64,专家并行度为64,另一侧的专家并行度为4。在底部,我们有张量并行度为16,专家并行度为4,批次大小为2,仅有1%的上下文。计算机的配置在整个频谱上都在变化。

此测试用例的输入序列长度被认为是相对标准的,便于进行基准测试。输入包含1000个token,输出为2000个token。之前,我们展示了一个输出非常简单的示例,为9000或8000个token。因此,最初的示例并不具有代表性。当前的这个模型更具代表性,目标是为下一代工作负载构建这些下一代计算机。

图片

这是一个推理模型的示例,展示了性能差异。Blackwell的性能是Hopper的40倍,绝对领先。

非常惊人。之前我说过,有人问我为什么这么说。我说过,当Blackwell开始批量出货时,Hopper将会无人问津。

图片

这就是我的意思。这很合理。如果有人还在考虑购买Hopper,别担心,没关系。但我可是首席营收摧毁者。

我的销售人员会说,“哦不,别这么说”。在某些情况下,Hopper还是可以的。这是我对Hopper能说的最好评价了。在某些情况下,你还是能用,不多,但是...

图片

如果我必须做选择,这就是我的观点。当技术发展如此迅速,并且由于工作负载非常繁重,你需要构建这些东西(AI工厂),我们真的希望你在正确的版本上投资。

为了让大家有个概念,这就是一个100兆瓦的工厂的样子。这是一个100兆瓦的工厂,基于Hopper,需要45000个芯片,1400个机架,每秒产生3亿个token。

图片

明白了吗?这就是使用Blackwell的样子。需要86个(芯片),我知道,这似乎不太合理。我们并不是想卖你更少的(芯片),我们的销售人员会说,“Justin,你这是在卖他们更少的东西”。这更好。所以,买得越多,省得越多。

图片

甚至更好。现在买得越多,赚得越多。请记住,一切都在人工智能工厂的背景下。

虽然我们谈论的是芯片,但你总是从scale up开始,我们谈论芯片,但你总是从规模化开始。完整的规模化,你能扩展到什么程度?

现在我想向你展示一个人工智能工厂是什么样的。但是人工智能工厂非常复杂。我刚才给你看了一个机架的例子,它有60万个零件,重3000磅。

现在,你必须把它和其他很多东西连接起来。因此,我们开始构建每个数据中心的数字孪生。在构建数据中心之前,你必须构建一个数字孪生。让我们来看一下,这非常漂亮。

世界正在竞相建设最先进的大规模人工智能工厂。启动一个人工智能Gigafactory是一项非凡的工程壮举,需要来自供应商、建筑师、承包商和工程师的数万名工人来建造、运输和组装近50亿个组件和超过20万英里的光纤,几乎是从地球到月球的距离。NVIDIA Omniverse Blueprint for AI Factory Digital Twins 使我们能够在物理建造开始之前设计和优化这些人工智能工厂。

图片

图片

图片

在这里,NVIDIA 工程师使用蓝图来规划一个 1 吉瓦的人工智能工厂,集成了最新的 NVIDIA DGX SuperPods 的 3D 和布局数据、Vertiv 和 Schneider Electric 的高级电源和冷却系统,以及 NVIDIA AIR 的优化拓扑,NVIDIA AIR 是一个用于模拟网络逻辑、布局和协议的框架。这项工作传统上是在孤岛中完成的。Omniverse Blueprint 使我们的工程团队能够并行和协作工作,从而使我们能够探索各种配置,以最大限度地提高 TCO(总拥有成本)和电源使用效率。

NVIDIA 使用 Cadence Reality Digital Twin,由 CUDA 和 Omniverse 库加速,以模拟空气和液体冷却系统,以及 Schneider Electric 的 ETAP,一个用于模拟电源模块效率和可靠性的应用程序。实时模拟使我们能够在几秒钟内迭代和运行大规模的假设场景,而不是几个小时。我们使用数字孪生来向大量团队和供应商传达指令,减少执行错误并加快启动时间。

图片

图片

在规划改造或升级时,我们可以轻松地测试和模拟成本和停机时间,从而确保面向未来的 AI 工厂。

这是有史以来第一次有人在建造数据中心时说,哦,这太漂亮了。好吧。我得快点,因为我要告诉你们的东西太多了。所以,如果我讲得有点快,不是因为我不在乎你,而是因为我有很多信息要讲。

好的。首先,我们的路线图。我们现在正在全面生产 Blackwell。世界各地的计算机公司都在大规模地启动这些令人难以置信的机器,我非常高兴和感激你们所有人都努力过渡到这个新架构。现在,在今年下半年,我们将轻松过渡到升级版。

图片

我们有 Blackwell Ultra NVLink72。它的浮点运算能力提高了 1.5 倍;它有一个新的注意力指令。它的内存也增加了 1.5 倍,所有这些内存都对 KVCache 等有用。它的网络带宽增加了两倍。现在我们有了相同的架构,我们将优雅地过渡到它,这就是 Blackwell Ultra。

好吗?这将在今年下半年推出。现在,这就是为什么这是任何公司中唯一一个大家都说“是的,下一个”的产品发布。

事实上,这正是我希望得到的回应。原因如下。我们正在建造人工智能工厂和人工智能基础设施。这将需要多年的规划。这不像买一台笔记本电脑,这不是可自由支配的支出。这是我们必须计划的支出。所以我们必须计划拥有土地和电力。

图片

我们需要准备好我们的资本支出,并且需要工程团队。我们需要提前两三年进行规划,这就是为什么我提前两三年向大家展示我们的路线图的原因。这样,我们就不会在五月份突然给大家带来意外的改变。你们知道,大家好。再过一个月,我们将启用这个令人难以置信的新系统。稍后我会给大家展示一个例子。

所以我们计划了未来好几年。下一次点击,也就是一年之后,是以一位天文学家的名字命名的。她的孙子孙女们就在这里。她的名字是维拉·鲁宾;她发现了暗物质。好的,没错。

Rubin非常了不起,因为它的CPU是全新的。性能是Grace的两倍。更多的内存,更高的带宽,但却只有区区50瓦的CPU。这真是令人难以置信。

并且Rubin采用了全新的GPU,CX-9,以及一个全新的网络智能网卡。此外,还引入了NVLink 6,这也是一个全新的方面。还有全新的内存,HBM4。基本上,除了机箱之外,一切都是全新的。

通过这种方式,我们可以在一个方向上承担很多风险,而不会危及与基础设施相关的其他许多方面。至于维拉·鲁宾,NVLink 144预计将于明年下半年推出。

现在,我犯了一个错误,需要你们做出这个转变——我需要强调的是,我们将只做这一次。

Blackwell实际上是两个GPU集成在一个Blackwell芯片中。我们把这一个芯片称为一个GPU,这是错误的。原因在于,它扰乱了所有的NVLink命名和相关术语。

今后,在不回头修改Blackwell的术语的情况下,当我说NVLink 144时,它仅仅意味着它连接到144个GPU。每个GPU都是一个GPU芯片,可以组装在某个封装中。它的组装方式可能会不时发生变化。

每个GPU芯片确实是一个GPU。每个NVLink都连接到GPU。因此,我们将其称为NVLink 144。这为今年下半年奠定了基础,为我们明年将要推出的Rubin Ultra铺平了道路。

这个东西会让你觉得“哈?”好吧,这是维拉·鲁宾,Rubin Ultra,2027年下半年推出。它是NVLink576,

实现极端规模的扩展。每个机架是600千瓦,包含250万个部件。

图片

好吗?显然,有很多GPU。并且一切都是X倍以上。所以是14倍以上的flops,15 exaflops。而不是像我之前提到的一个exaflop,现在是15 exaflops,扩展后的exaflops。好吗?它是300,多少,4.6 petabytes,所以每秒4600 terabytes的扩展带宽。我说的不是聚合带宽,我说的是扩展带宽,当然还有很多全新的NVLink交换机和CX9。

请注意,16个站点,四个GPU在一个封装中,极其庞大的NVLink。为了让大家更清楚地了解,它看起来是这样的。这会很有趣。现在,你们实际上正在逐步扩大Grace Blackwell的规模。我不想让它看起来像一台笔记本电脑,但是就是这样。好的,这就是Grace Blackwell的样子。这就是Ruben的样子。ISO尺寸。

图片

所以这是另一种说法,在你横向扩展之前,你必须纵向扩展。明白了吗?在你扩展之前,先纵向扩展。然后在之后,你就可以利用我稍后将要展示的惊人技术进行横向扩展。好的。首先进行纵向扩展。现在,这让你们感受到了我们前进的速度。

这是纵向扩展的flops量。这是纵向扩展的flops。Hopper是1倍。Blackwell是68倍。Ruben是900倍。纵向扩展的flops。然后,如果我把它变成你们的总拥有成本,也就是顶部的功耗,每瓦的功耗,下面是曲线下的面积,我之前跟你们说过的,曲线下面的正方形,基本上是flops乘以带宽。

所以,衡量你们的AI工厂是否取得进展的一种非常简单的方法就是用瓦数除以这些数字。你们可以看到,Rubin将大幅降低成本。这就是英伟达的快速路线图。

一年一次,像时钟一样。一年一次。好的,我们如何进行纵向扩展?我们推出了,我们正在准备横向扩展。那是纵向扩展,它是NVLink。我们的横向扩展网络是InfiniBand和Spectrum X。

图片

大多数人对我们进入以太网领域感到非常惊讶。我们决定采用以太网的原因是,如果我们能够帮助以太网变得像InfiniBand一样,并拥有InfiniBand的特性,那么对于所有人来说,网络本身将会更容易使用和管理。

图片

因此,我们决定投资Spectrum。我们称之为Spectrum X,我们为它带来了拥塞控制和极低延迟的特性,以及大量的软件,这些软件是我们计算结构的一部分。因此,我们使Spectrum X具有令人难以置信的高性能。

我们扩展了有史以来最大的单个GPU集群,它通过Spectrum X变成了一个巨大的集群。这就是Colossus。还有许多其他关于其功能的例子,毫无疑问,Spectrum X对我们来说是一个巨大的成功。

我非常兴奋的一个领域是,最大的企业网络公司正在采用Spectrum X,并将其集成到他们的产品线中。这将帮助全球企业成为AI公司。

我们目前的数量是10万个CX-8和CX-7。现在CX-8即将推出,CX-9也即将推出。在Ruben的时代,我们希望将GPU的数量扩展到数十万个。

现在,将GPU扩展到数十万个的挑战在于横向扩展的连接。纵向扩展的连接是铜线。我们应该尽可能多地使用铜线,也就是一两米的距离。这种设置提供了非常好的连接性,非常高的可靠性,非常好的能源效率和非常低的成本。因此,我们在纵向扩展上尽可能多地使用铜线。

但是,在横向扩展上,数据中心现在有体育场那么大,我们需要用于更长距离运行的东西。这就是硅光子学的用武之地。硅光子学的挑战在于收发器消耗大量能量。要从电信号转换为光信号,数据必须经过CERTES,一个收发器,以及几个CERTES。每个都增加了流程的复杂性和能源消耗。

我是不是一个人在自说自话?有人吗?我的网络团队呢?可以把这个拿上来吗?好的,好的,把它拿上来,这样我就可以向人们展示我在说什么了。

好的,首先,我们宣布英伟达的首个共封装光器件(CPO)选项,一个硅光子系统。它是世界上首个1.6 terabit每秒的CPO。它基于一种叫做微环谐振器调制器(Micro Ring Resonator Modulator,MRM)的技术。它完全基于我们在台积电(TSMC)长期合作的令人难以置信的工艺技术制造。我们与一个由技术供应商组成的庞大生态系统合作,发明了我即将向你们展示的东西。这真的是一项疯狂的技术。疯狂、疯狂的技术。

图片

现在,我们决定投资MRM的原因是为了让我们能够利用MRM令人难以置信的密度和功率做好准备。与马赫-曾德尔干涉仪(Mach-Zehnder)相比,它提供了更好的密度和功率,后者用于在数据中心之间进行电信。即使在我们目前使用的收发器中,我们也采用马赫-曾德尔干涉仪,因为直到现在,密度要求都不是很高。

所以,如果你看看这些收发器,这是一个收发器的例子。

图片

他们非常擅长纠缠。

黄仁勋: 好了,现在要开始运用你的推理能力了。这并不像你想的那么容易。这些都是些狡猾的小玩意。好的,这个,这个就在这里,这是30瓦的,为了让大家记住,这是30瓦的,如果你大量购买,它的价格是1000美元。

这是一个插头。这一侧是电,另一侧是光。所以光通过黄色部分进入。你把它插到交换机上。它是电的。在这一侧,有收发器、激光器,它是一种叫做Mach-Zehnder的技术。

太不可思议了。所以我们用它从GPU连接到交换机。

再到下一个交换机,然后是下一个,再下一个,最终到达GPU。例如,如果我们有10万个GPU,我们就会有10万个这样的插头,然后还有另外的10万个,将交换机连接到交换机。

另一侧,我将把它归因于另一个网卡。如果我们有25万个GPU,我们将添加另一层交换机。所以每个GPU,25万个GPU,将有六个收发器。

图片

每个GPU将有六个这样的插头,这六个插头将为每个GPU增加180瓦的功耗。

每个GPU 180瓦,每个GPU 6000美元。所以问题是,我们现在如何扩展到数百万个GPU?因为如果我们有一百万个GPU乘以六,

那将是600万个收发器乘以30瓦,也就是1.8亿瓦的收发器功耗。他们没有做任何计算,只是移动信号。所以问题是,我们如何才能负担得起,正如我之前提到的,能源是我们最重要的商品。一切最终都与能源有关。这将通过消耗1.8亿瓦的电力来限制我们的收入,我们客户的收入。所以这就是我们所做的令人惊叹的事情。我们发明了世界上第一个。

图片

MR,微镜,这就是它的样子。有一个小波导。你看到那个波导通向一个环。那个环共振并控制波导在它周围传播时的反射率,限制和调节能量,即通过的光量。它通过吸收或传递来关闭它。

图片

好的。它将光,这种直接连续的激光束,转换成1和0。这就是奇迹。这项技术,光子IC,然后与电子IC堆叠,电子IC又与一大堆微透镜堆叠,微透镜又与一种叫做光纤阵列的东西堆叠。

这些组件都使用台积电的CoWoS技术制造,并使用3D Co-Aus技术封装。这个过程涉及与一大堆技术供应商合作,其中许多我刚刚向大家展示过,它将它变成这台令人难以置信的机器。

让我们看看视频。

图片

图片

图片

图片

黄仁勋: 这简直是一项技术奇迹。它们变成了这些交换机。我们的InfiniBand交换机,其硅芯片工作得非常好。今年下半年,我们将推出硅光子交换机。明年下半年,我们将推出Spectrum X。由于MRM的选择以及我们在过去五年中所承担的令人难以置信的技术风险,我们已经申请了数百项专利,并将它们授权给我们的合作伙伴,以便我们都可以构建它们。

现在,我们能够将硅光子学与共封装选项集成,从而无需收发器,并允许光纤直接输入到我们的交换机中,其基数为512。这种512端口的配置根本不可能以其他方式实现。这种能力现在使我们能够扩展到数十万个甚至数百万个GPU。好处是令人难以置信的;例如,在数据中心中,我们可以节省数千万瓦的电力。

为了说明这一点,假设我们可以节省10兆瓦;这相当于大约10个Rubin Ultra机架。如果我们节省60兆瓦,那就很多了——大约100个Rubin Ultra机架的电力,我们现在可以将其部署到Rubin中。这是我们的路线图:我们每年推出一种新的架构;每两年推出一条新的产品线。我们的目标是以可控的方式管理硅芯片风险、网络风险或系统机箱风险,以便我们能够在追求这些突破性技术的同时推动行业向前发展。

最后,我想向Vera Rubin致敬,并对来到这里的孙辈们表示感谢。这是我们纪念她所做的令人难以置信的工作的机会。我们的下一代将以费曼的名字命名。

好的,NVIDIA的路线图。让我来和你们谈谈企业计算。这非常重要。为了让我们将人工智能带到世界的企业中,首先我们必须去NVIDIA的不同部门。

好的,为了让我们将人工智能带到企业中,请稍作回顾,提醒自己这一点。记住,人工智能和机器学习已经重塑了整个计算堆栈。处理器是不同的,操作系统是不同的,顶部的应用程序是不同的。应用程序不同的方式,编排它们的方式是不同的,以及运行它们的方式是不同的。

图片

让我给你举一个例子。你访问数据的方式将与过去根本不同。将来,我们将不再检索你想要的数据并读取它以尝试理解它,而是像使用Perplexity一样来做。我不以那种方式进行检索,而是直接询问Perplexity我想要什么。我会问它一个问题,它会告诉我答案。这就是将来企业IT的工作方式。

图片

我们将拥有AI代理,它们是我们数字员工的一部分。世界上有10亿知识工作者,并且可能将有100亿数字工作者与我们并肩工作。未来100%的软件工程师,全球有3000万,都将由AI辅助。我对此深信不疑。到今年年底,100%的NVIDIA软件工程师将由AI辅助。

所以AI代理将无处不在。它们如何运行,企业运行什么,以及我们如何运行它,将从根本上发生变化。因此,我们需要一条新的计算机产品线。

这就是PC应该的样子。20 petaflops。令人难以置信。72个CPU核心,芯片到芯片的接口,HBM内存,并且,以防万一,还有一些用于GeForce的PCI Express插槽。

图片

好的,这叫做DGX Station。DGX Spark和DGX Station将由所有OEM厂商提供:HP、Dell、Lenovo和Asus。它将为全球的数据科学家和研究人员制造。这是人工智能时代的计算机。这就是计算机应该的样子。这就是计算机将来会运行的东西。我们现在为企业提供了一个完整的产品线,从小型到工作站型,服务器型到超级计算机型,这些都将由我们的合作伙伴提供。

图片

我们还将彻底改变计算堆栈的其余部分。记住,计算有三大支柱:计算、网络和存储。这就是你看到的计算。然后是网络,正如我之前提到的,Spectrum X将进入世界企业,成为一个AI网络。第三个支柱是存储。存储需要被完全改造,从基于检索的存储系统过渡到基于语义的检索系统。

图片

这意味着存储系统必须在后台持续嵌入信息,将原始数据转化为知识。将来,当你访问它时,你不是检索它,而是与它进行交流。你可以向它提问,给它难题。我希望我们有Aaron在Box公司工作的视频,他与我们合作,在云端部署了一个超级智能的存储系统。未来,每个企业都会拥有类似的东西。这就是未来的企业存储。

我们正在与整个存储行业合作,包括DDN、Dell、HP、Hitachi、IBM、NetApp、Nutanix、PureStorage和Vast等优秀的合作伙伴,以及Weka。你的存储系统将首次实现GPU加速,从而在企业存储解决方案中创造前所未有的能力。

图片

有人觉得我的幻灯片不够多。Michael也这么认为。所以他说:“Jensen,以防你的幻灯片不够,我可以把这个放进去吗?”这是Michael的幻灯片,他发给我的,说:“以防你没有幻灯片。”结果我幻灯片太多了。但这张幻灯片非常棒,我来告诉你为什么。在一张幻灯片中,他解释了Dell将提供一整套NVIDIA企业IT、AI基础设施系统,以及运行在其上的所有软件。

图片

好的,你们可以看到,我们正在彻底改变世界企业。今天,我们还宣布了一个每个人都可以运行的强大模型。我之前向你们展示了R1,一个推理模型。我还展示了与Llama 3的对比,一个非推理模型。显然,R1更智能。但我们可以做得更好。我们可以让任何公司都能使用企业级模型。它现在完全开源,是我们称为NIMS系统的一部分。你可以下载并在任何地方运行它,比如DGX Spark、DGX Station,或者OEM厂商制造的任何服务器。你甚至可以在云端运行它,并将其集成到任何Agentic AI框架中。

图片

此外,我们正在与世界各地的公司合作,我将快速浏览这些公司,请大家仔细观看。我有一些优秀的合作伙伴在现场,我想表彰他们。埃森哲的Julie Sweet和她的团队正在构建他们的AI工厂和AI框架。全球最大的电信软件公司Amdocs也参与其中。由John Stanky和他的团队领导的AT&T,正在开发AT&T AI系统,一个Agentic系统。

Larry Fink和贝莱德团队正在构建他们自己的系统。Anirud,未来我们不仅会聘用ASIC设计师,还会从Anirud、Cadence聘用大量数字ASIC设计师,帮助我们设计芯片。Cadence正在构建他们的AI框架。正如你所看到的,在每一个例子中,都有NVIDIA模型、NVIDIA NIMS和NVIDIA库集成在其中,允许你在本地、云端或任何云端运行它。

图片

最后,Capital One,一家在技术使用方面最先进的金融服务公司之一,在各处都集成了NVIDIA技术。德勤的Jason和他的团队、由Janet领导的EY、以及由Adina和她的团队领导的纳斯达克,都在将NVIDIA技术集成到他们的AI框架中。SAP的Christian和他的团队,以及ServiceNow的Bill McDermott和他的团队,也加入了进来。

不错吧?好了,接下来,让我们去别的地方,聊聊机器人技术,好吗?

让我们谈谈机器人。机器人时代已经来临。机器人能够与物理世界互动,做一些数字信息无法做到的事情。我们很清楚,世界严重缺乏人工和劳动力。到本十年末,世界至少将短缺5000万工人。

图片

我们非常乐意支付他们每人5万美元来上班。但是,我们可能也要支付机器人每年5万美元来上班。这将是一个非常庞大的产业。有各种各样的机器人系统,你的基础设施也将是机器人化的。

图片

图片

数十亿的摄像头、仓库和工厂将成为这个新时代的一部分。我们在全球拥有大约1000万到2000万家工厂。正如我之前提到的,每一辆汽车都已经是一台机器人,现在我们正在建造通用机器人。让我向你展示我们是如何做到这一点的。

一切会移动的物体都将是自主的。物理AI将体现在各个行业中的各种机器人中。由NVIDIA构建的三台计算机实现了一个机器人AI仿真、训练、测试和现实世界经验的持续循环。

图片

训练机器人需要大量的数据。互联网规模的数据提供常识和推理。然而,机器人需要行动和控制数据,而获取这些数据成本很高。通过基于NVIDIA Omniverse和Cosmos构建的Blueprints,开发人员可以生成大量的多样化合成数据,用于训练机器人策略。

图片

图片

首先,在Omniverse中,开发人员根据其不同的领域、机器人和任务聚合真实世界的传感器或演示数据。然后,他们使用Omniverse来调节Cosmos,将原始捕获的数据倍增为大量的逼真、多样化的数据。

图片

开发人员使用Isaac Lab通过增强的数据集对机器人策略进行后训练。这使得机器人可以通过模仿学习或通过试验和错误(借助强化学习AI反馈)来学习新的技能,从而克隆行为。

图片

图片

在实验室练习与现实世界不同。新的策略需要进行实地测试。开发人员使用Omniverse进行软件和硬件在环测试,在具有真实世界环境动态的数字孪生中模拟策略,并进行域随机化、物理反馈和高保真传感器模拟。现实世界的运行需要多个机器人协同工作。

图片

图片

MEGA和Omniverse Blueprint让开发人员可以大规模测试经过后训练的策略集群。在这里,富士康在虚拟的NVIDIA Blackwell生产设施中测试异构机器人。当机器人大脑执行他们的任务时,他们通过传感器模拟感知他们的行为结果,然后计划他们的下一步行动。Mega允许开发人员测试许多机器人策略,使机器人能够作为一个系统工作,无论是用于空间推理、导航、移动性还是灵巧性。惊人的事物诞生于模拟之中。

图片

图片

图片

今天,我们推出NVIDIA Isaac Groot N1。GROOT-N1是人形机器人的通用基础模型。它建立在合成数据生成、学习和仿真的基础上。GROOT-N1采用双系统架构,用于快速和慢速思考,其灵感来自人类认知处理的原理。慢速思考系统让机器人感知和推理其环境和指令,并计划要采取的正确行动。快速思考系统将计划转化为精确和连续的机器人动作。

图片

图片

图片

GrootN1的泛化能力使得机器人能够轻松地操纵常见物体,并协作执行多步骤序列。凭借合成数据生成和机器人学习的完整流程,人形机器人开发者可以在各种环境中的多个具体化身和任务上对GrootN1进行预训练。

图片

在世界各地,各个行业,开发者都在使用NVIDIA的三款计算机来构建下一代具身AI。物理AI和机器人技术发展迅猛,以至于每个人都在关注这个领域;这很可能成为最大的产业。核心问题是,我们面临着同样的挑战。正如我之前提到的,我们专注于三个问题。它们是相当系统性的。

图片

图片

图片

第一,如何解决数据问题?在哪里创建训练AI所需的数据?第二,模型架构是什么?第三,缩放定律是什么?我们如何缩放数据、计算力或者两者兼而有之,从而使AI变得越来越智能?缩放问题至关重要,这两个问题也存在于机器人技术中。

图片

在机器人技术领域,我们创建了一个名为Omniverse的系统。它是我们物理AI的操作系统。你们听我说过Omniverse很久了。我们在其中添加了两项技术。今天我要向你们展示两件事。其中一项旨在让我们能够利用生成能力来扩展AI。生成模型理解物理世界,我们称之为Cosmos。使用Omniverse来调节Cosmos,并使用Cosmos来生成无限数量的环境,这使我们能够创建具有基础性、受我们控制,同时又在系统上无限的数据。

图片

你们可以看到,在Omniverse中,我们使用糖果色来举例说明我们如何在场景中完美地控制机器人,而Cosmos可以创建所有这些虚拟环境。我们讨论的第二件事是当今语言模型的一项令人难以置信的扩展能力,即强化学习和可验证的回报。问题是,什么是机器人技术中可验证的回报?我们非常清楚,那就是物理定律——可验证的物理回报。

图片

图片

图片

为了实现这一点,我们需要一个令人难以置信的物理引擎。大多数物理引擎都是出于各种原因而设计的;它们可能被设计用于大型机械或虚拟世界,比如视频游戏。然而,我们需要一个专门为非常精细的刚性和软体而设计的物理引擎,以有效地训练触觉反馈、精细运动技能和执行器控制。我们需要它进行GPU加速,以便这些虚拟世界能够以超线性时间、以超实时的方式运行,从而使我们能够以极快的速度训练这些AI模型。

此外,我们需要将这个物理引擎和谐地集成到机器人专家在世界各地使用的框架Mujoco中。因此,今天我们要宣布一些非常特别的事情。这是三家公司的合作:DeepMind、迪士尼研究院和NVIDIA,我们称之为Newton。

让我们来看看Newton。

图片

图片

图片

黄仁勋: 告诉我这不令人惊叹。嘿,Blue。你好吗?你觉得你的新物理引擎怎么样?你喜欢,是吗?是的,我敢打赌。我知道。触觉反馈。刚体。软体模拟。超实时。你能想象刚才你看到的是完整的实时模拟吗?这就是我们未来训练机器人的方式。请注意,Blue 里面有两台计算机,两台 NVIDIA 计算机。

图片

图片

看看你有多聪明。是的,你很聪明。

黄仁勋: 好的。嘿,Blue,听着。我们把它带回家怎么样?让我们结束这次主题演讲。现在是午餐时间。准备好了吗?让我们完成它。我们还有另一项公告。

好的。我们还有另一个惊人的消息。我告诉过你们我们的机器人技术正在取得巨大进展。今天我们宣布 Groot N1 开源。

图片

黄仁勋: 我要感谢大家来参加GTC。让我们总结一下。我们谈到了几件事。

首先,Blackwell 正在全面投产。产能提升令人难以置信,客户需求也超出预期。这是有充分理由的,因为 AI 迎来了一个转折点。由于推理 AI 的进步以及推理 AI 系统和代理系统的训练,AI 所需的计算量大大增加。

其次,Blackwell NVLink 72 与 Dynamo 相比,AI 工厂的性能提高了 40 倍。随着我们扩展 AI,推理将成为未来十年最重要的工作负载之一。

第三,我们每年都有路线图,以便您规划您的 AI 基础设施。然后我们正在构建三个 AI 基础设施。用于云的 AI 基础设施、用于企业的 AI 基础设施和用于机器人的 AI 基础设施。

点击展开全文
热点新闻