1千万亿次浮点运算、128 GB统一内存——这些原本属于AI开发工作站的配置,现在被Nvidia塞进了一台Windows笔记本的规格表里。在GTC台北大会上,RTX Spark首次亮相,它和此前已知的DGX Spark采用同一颗GB10 Grace Blackwell超级芯片,但目标用户从Linux开发者转向普通消费者,直接杀入Windows on Arm的战场。

最顶配的版本搭配一颗拥有6144个CUDA核心的Blackwell RTX GPU、第五代张量核心,以及通过NVLink-C2C连接的20核Arm架构Grace CPU。Nvidia透露,联发科参与了CPU的设计。内存池是统一共享的,最高可选128 GB,CPU和GPU不再各自为政。1 petaflop的峰值算力是在FP4精度且启用稀疏性下的理论值,Nvidia称,实际工作负载中GPU性能接近GeForce RTX 5070笔记本GPU。要注意的是,这个“1千万亿次”和苹果、高通常用的INT8或FP16标尺完全不同,不能直接比较。

打开网易新闻 查看精彩图片

正方视角很明确:Nvidia认为软硬件结合终于成熟,可以让AI Agent在个人设备上真正跑起来。Windows阵营长期缺少一个能扛住本地大模型推理的芯片组合,苹果的M4 Max虽然也提供128 GB统一内存和546 GB/s的带宽,但神经网络引擎停留在38 TOPS(INT8);高通的骁龙X2 Elite冲到80 TOPS,却主攻Copilot+体验,并非为百亿参数模型设计。而Nvidia拿出的是CUDA全家桶——TensorRT、RTX全栈原生运行,开发者生态上的惯性是一道高墙。

反方声音会指向安全与落地节奏。Nvidia自己也在补课:它强调,过去缺少合适的安全工具,使得AI Agent很少真正运行在用户的日用设备上。这次伴随RTX Spark发布的OpenShell Runtime正是试图定义Agent能做什么、不能做什么,配合Windows层面新增的身份管理、Agent隔离和策略执行,意图给本地推理加一层围栏。这些工具能不能让用户和开发者买账,还需要等2026年秋季华硕、戴尔、惠普、联想以及微软Surface等OEM设备真正上市时才能验证。更重要的是,FP4稀疏性峰值离持续算力的距离,可能比规格表上的数字来得更远。

我的判断是,RTX Spark带来的不是一场速胜。它先在基准线上补齐了Windows设备运行大模型的硬件缺口,但真正拉开差距的,是Nvidia能否把AI Agent在本地运行这件事从“能跑”变成“好用”。安全箱、隐私控制加上统一的CUDA栈,是一套组合拳;不过当苹果和高通也在快速迭代自研核心时,这个窗口期不会太长。