英伟达(NVIDIA)在2024年的GPU技术大会(GTC)上宣布了一系列创新产品和技术,标志着公司在人工智能(AI)领域的进一步扩张和深化。这次大会的核心是Blackwell架构的推出,这是一款专为新工业革命设计的计算架构,旨在将AI扩展到万亿参数级别。
Blackwell B200目前性能最强大的 AI 芯片
这是 GB200,包含两个 B200 GPU 和一个基于 Arm 架构的 CPU。
新一代 AI GPU 被命名为 Blackwell。该 GPU 平台以数学家 David Harold Blackwell 的名字命名,继承了英伟达两年前推出的 Hopper 架构,第一款 Blackwell 芯片称为 GB200,将于今年晚些时候出货,目前尚未透露价格。
据老黄介绍,B200 拥有 2080 亿个晶体管(而 H100/H200 上有 800 亿个晶体管),采用台积电 4NP 工艺制程,可以支持多达 10 万亿个参数的 AI 模型,而 OpenAI 的 GPT-3 由 1750 亿个参数组成。它还通过单个 GPU 提供 20 petaflops 的 AI 性能——单个 H100 最多可提供 4 petaflops 的 AI 计算。
与 H100 相比,它「将成本和能耗降低高达 25 倍」。
训练一个 1.8 万亿参数的模型以前需要 8000 个 GPU 和 15 兆瓦的电力。如今,黄仁勋表示,2000 个 Blackwell GPU 在仅消耗 4 兆瓦电力的情况下就能完成这一任务。在一个拥有 1750 亿参数的 GPT-3 基准测试中,英伟达表示,GB200 的性能大约是 H100 的七倍,而且英伟达声称它提供了 4 倍的训练速度。
还有专门为 AI 训练推出的 GB200 NVL72 机群,它将 36 个 CPU 和 72 个 GPU 插入一个单一的液冷机架中,总共有 720 petaflops 的 AI 训练性能或 1440 petaflops(也称为 1.4 exaflops)的推理能力。内部有近两英里长的电缆,有 5000 根独立电缆,包含 72 个 Blackwell GPU 和 36 个 Grace CPU,通过第五代 NVLink 互连。
英伟达表示,该系统可以部署一个拥有 27 万亿参数的模型,而 GPT-4 大约是一个拥有 1.7 万亿参数的模型。据称,亚马逊、谷歌、微软和甲骨文都已计划在其云服务产品中提供 NVL72 机架。
全面升级软件服务
市场正在升温,硬件和软件方面的竞争都在加剧。在本次 GTC 中,英伟达不仅通过新的硬件创新来应对竞争,还展示了其 AI 软件战略如何帮助确定其在该领域的领导地位,以及未来几年将如何发展。
黄仁勋还着力推销其 AI 软件订阅服务包,这显然是在配合该公司向“以软件卖硬件”的新战略,也是在与过往的“以硬件卖软件”的战略彻底告别。
英伟达可以访问所有领域的大量模型,但他们认为对于企业来说它们仍然太难使用。他们推出了 Nvidia 推理微服务(NIM),将模型和依赖项整合到一个简洁的包中,根据用户的堆栈进行优化,并与易于使用的 API 连接。
经过打包和优化的预训练模型,可在 NVIDIA 的安装基础上运行,包含运行它所需的所有软件。CUDA 库、API 等,基本上是容器化的 AI 软件包,针对 NV GPU 进行了优化,并带有一个简单的 API 来访问它们。
老黄指出:“这就是我们未来编写软件的方式”——通过组装一堆人工智能。
老黄我们介绍了英伟达如何使用 英伟达推理微服务(NIM)创建一个内部聊天机器人,旨在解决构建芯片时遇到的常见问题。“我们需要一个模拟引擎,以数字方式为机器人呈现世界,”他说,这就是 Omniverse。这些“微服务”将允许开发人员使用专有和自定义模型快速创建和部署“副驾驶”或人工智能助手。
免责声明:
1、本号不对发布的任何信息的可用性、准确性、时效性、有效性或完整性作出声明或保证,并在此声明不承担信息可能产生的任何责任、任何后果。
2、 本号非商业、非营利性,转载的内容并不代表赞同其观点和对其真实性负责,也无意构成任何其他引导。本号不对转载或发布的任何信息存在的不准确或错误,负任何直接或间接责任。
3、本号部分资料、素材、文字、图片等来源于互联网,所有转载都已经注明来源出处。如果您发现有侵犯您的知识产权以及个人合法权益的作品,请与我们取得联系,我们会及时修改或删除。
热门跟贴