128GB统一内存，Nvidia把AI工作站搬进Windows本|gpu|nvidia|windows|内存|固态硬盘|工作站|英伟达|高通

1千万亿次浮点运算、128 GB统一内存——这些原本属于AI开发工作站的配置，现在被Nvidia塞进了一台Windows笔记本的规格表里。在GTC台北大会上，RTX Spark首次亮相，它和此前已知的DGX Spark采用同一颗GB10 Grace Blackwell超级芯片，但目标用户从Linux开发者转向普通消费者，直接杀入Windows on Arm的战场。

最顶配的版本搭配一颗拥有6144个CUDA核心的Blackwell RTX GPU、第五代张量核心，以及通过NVLink-C2C连接的20核Arm架构Grace CPU。Nvidia透露，联发科参与了CPU的设计。内存池是统一共享的，最高可选128 GB，CPU和GPU不再各自为政。1 petaflop的峰值算力是在FP4精度且启用稀疏性下的理论值，Nvidia称，实际工作负载中GPU性能接近GeForce RTX 5070笔记本GPU。要注意的是，这个“1千万亿次”和苹果、高通常用的INT8或FP16标尺完全不同，不能直接比较。

正方视角很明确：Nvidia认为软硬件结合终于成熟，可以让AI Agent在个人设备上真正跑起来。Windows阵营长期缺少一个能扛住本地大模型推理的芯片组合，苹果的M4 Max虽然也提供128 GB统一内存和546 GB/s的带宽，但神经网络引擎停留在38 TOPS（INT8）；高通的骁龙X2 Elite冲到80 TOPS，却主攻Copilot+体验，并非为百亿参数模型设计。而Nvidia拿出的是CUDA全家桶——TensorRT、RTX全栈原生运行，开发者生态上的惯性是一道高墙。

反方声音会指向安全与落地节奏。Nvidia自己也在补课：它强调，过去缺少合适的安全工具，使得AI Agent很少真正运行在用户的日用设备上。这次伴随RTX Spark发布的OpenShell Runtime正是试图定义Agent能做什么、不能做什么，配合Windows层面新增的身份管理、Agent隔离和策略执行，意图给本地推理加一层围栏。这些工具能不能让用户和开发者买账，还需要等2026年秋季华硕、戴尔、惠普、联想以及微软Surface等OEM设备真正上市时才能验证。更重要的是，FP4稀疏性峰值离持续算力的距离，可能比规格表上的数字来得更远。

我的判断是，RTX Spark带来的不是一场速胜。它先在基准线上补齐了Windows设备运行大模型的硬件缺口，但真正拉开差距的，是Nvidia能否把AI Agent在本地运行这件事从“能跑”变成“好用”。安全箱、隐私控制加上统一的CUDA栈，是一套组合拳；不过当苹果和高通也在快速迭代自研核心时，这个窗口期不会太长。