同样一块GPU,实验室跑分漂亮,上线就崩——这种事在AI行业太常见了。但CoreWeave这次做的事有点不一样:他们没有等硬件摆进数据中心再慢慢调,而是在云端直接完成了英伟达Vera Rubin NVL72的首个启动和验证。
本周,CoreWeave宣布这项工作时,用了“行业首次”的表述。英伟达超大规模与高性能计算副总裁Ian Buck的评价更直接:“Vera Rubin是英伟达迄今为止构建的最强AI平台。CoreWeave一直站在大规模部署每一代英伟达架构的最前沿,他们对Vera Rubin从冷却到编排的整套端到端方案,正是那些最富雄心的AI团队用来冲击下一个前沿的方式。”
这个时间点很微妙。AI模型正在朝万亿参数规模膨胀,上下文窗口拉到数百万个令牌,而推理性能成了让智能体AI落地的最大瓶颈之一。不是说模型不够聪明,而是跑起来太贵、太慢、太不稳定。Vera Rubin NVL72的设计目标恰好对准了这几个痛点:大规模推理、持久推理会话、需要超越单纯GPU密度的生产级AI负载。
但硬件本身只是故事的一半。CoreWeave的公告里藏着更值得琢磨的部分——液冷散热、机架控制、网络架构、安全多租户运营,以及戴尔PowerEdge XE9812服务器作为支撑平台。这些系统级工作,才是把实验室里的芯片变成能扛住7×24小时生产负载的集群的关键。
CoreWeave产品与工程执行副总裁Chen Goldberg捅破了这层窗户纸:“智能体时代需要一种根本不同的基础设施方法,得跟上那些持续推理、不可预测地扩展、全天候运转的工作负载。区分实验室环境和生产环境的基础设施,区别在于底层的工程深度。”他提到的两项正在申请专利的技术Valvey和Racky,就是CoreWeave用来做整套编排工作的核心组件,目标是让Vera Rubin按设计的方式运行——不是只在实验室里,而是在生产规模上。
这对企业技术决策者来说,意味着关注点的转移。以前大家只问“下一代AI硬件什么时候到”,现在要问的是“这些硬件怎么才能真正可用、可靠、有效率地跑起来”。当智能体AI工作负载持续推理、跨更长的会话运行,基础设施的讨论正在转向每令牌成本、推理效率、集群可观测性、电力、散热和编排这些更底层的指标。
theCUBE计划通过分析师主导的讨论和从CoreWeave数据中心内部观察Vera Rubin的实际部署,深入拆解这种转变。对话预期会把硬件突破与AI云平台、大规模模型部署、下一代数据中心架构的操作性需求串联起来——当企业从AI实验阶段走出来,这才是真正决定谁能跑通商业化闭环的东西。
热门跟贴