周三下午,Computex 的舞台上,黄仁勋一次发布三款产品:全模态世界模型 Cosmos 3、550B 参数开源大模型 Nemotron 3 Ultra,以及个人 AI 超算芯片 RTX Spark。如果把这三件事叠在一起,就能看清英伟达正把「物理 AI」路线全面押注在开源生态上。而外界对此的评价,裂成了截然不同的两派。
拥护的一方拿出的是实打实的榜单数字。Cosmos 3 发布当晚就席卷了 8 个以上的开放模型排行榜,尤其在人工分析(Artificial Analysis)的文本生成图像与图像生成视频两大专项中,同时拿下开放权重模型第一名。技术架构上,它把语言、图像、视频、音频和动作统一进一个“Transformer 混合”设计——由一个自回归推理器配上扩散生成器。基础版 Nano 是 16B 参数(8B 推理塔+8B 生成塔),增强版 Super 拉升到 64B(32B+32B),并在 Super 上微调出文本生成图像和图像生成视频版本,性能直逼闭源模型 Nano Banana 2。与此同时,550B-A55B 的 Nemotron 3 Ultra 也被多个社区的帖子称为“迄今为止最强的美国开源模型”。加上代码、数据集、微调配方全部开放,Cosmos 3 还拉上 Runway 等伙伴成立 Cosmos 联盟,试图为世界模型搭建一套完整的开源公共设施。
质疑的一方紧盯的则是此前那个若隐若现的“修辞”。在 Cosmos 3 具体的技术细节公开之前,英伟达反复提及的“机器人基础模型”、“物理世界推理”被一些行业观察者归结为前景动人的故事。这次 Cosmos 3 的核心论文和发布材料里,团队也毫不避讳地补了一句——“超越机器人修辞”(Beyond robotics rhetoric),随后才逐条铺陈多模态统一、结构化 JSON 提示驱动生成器、开放式物理 AI 全家桶等实质进展。显然,他们听见了那些关于“概念炒作”的讨论,并选择用开放权重和全栈能力来回应。
夹在掌声与审视之间的,还有那颗 1 petaflop 的 RTX Spark 超级芯片。它瞄准的形态是搭载 Windows 的轻薄笔记本,首发就拉上了微软、OpenClaw 和 Hermes Agent 作为合作伙伴,直指个人 AI 代理、创作者流程加速和移动端游戏场景。比起以往数据中心里的核弹级显卡,这款产品的野心在于把更高能效的推理能力塞到用户的指尖,而这一切同样跑在开放协作的轨道上。
所以,回看这场“开源周”的三连击,英伟达释放的信号远比产品本身更锋利:开源不只是为了争榜,更是要把物理 AI 的路线锁定在社区共建的生态里,让 Cosmos、Nemotron 和 RTX Spark 组成从模型到底层硬件的开放栈。至于这套策略能不能真正把“世界模型”从修辞变成产业水电,还需要观察开源社区接下来的投入密度,以及首批开发者究竟能拿它来做出什么。
热门跟贴