2025年5月,我桌上摆着一台迷你PC,Ryzen 7 8845HS处理器,NPU算力16 TOPS——刚好踩线微软Copilot+的门槛。我试着跑一个140亿参数的本地模型。结果:CPU每秒2.1个token,核显被共享内存带宽卡死,NPU完全派不上用场——它只认微软私有的QNN接口,主流开源推理框架一概不支持。
这不是硬件的锅,是结构性的死结。
Windows的AI困局有三层。第一层是内存架构的割裂。M系列Mac的杀手锏是统一内存:CPU、GPU、神经网络引擎共享同一池高带宽低延迟的RAM。64GB内存的MacBook能跑700亿参数模型(Q4量化约40GB),因为GPU能以400GB/s以上的速度访问全部内存。Windows PC没有这玩意儿:系统内存16-64GB,带宽50-80GB/s;显存8-24GB,带宽400-800GB/s;NPU内存与系统共享,但带宽受限且接口封闭。GPU是最强的推理引擎,却被显存容量锁死。140亿参数Q4模型需要约8GB,12GB显存勉强够;700亿参数需要约40GB,只有RTX 6000 Ada(6800美元)或服务器显卡才撑得住。系统内存容量够,带宽却只有十分之一。NPU算力好看,生态为零。每台Windows AI PC都是"容量给你、带宽给你、算力给你——但你没法同时用"的机器。苹果却能三者全开。
第二层是OEM的利益错位。微软不造硬件,戴尔、联想、惠普、华硕才造。它们拼的是价格:最便宜的SSD、最慢的内存、最小的电池。NPU是勾选框组件,不是系统级优化。没人愿意投统一内存,因为这需要定制SoC和主板——意味着在其他维度上无法差异化。高通的骁龙X Elite本该破局:LPDDR5X统一内存,最高64GB,带宽135GB/s。但Windows on ARM自带麻烦:x86模拟开销、驱动兼容性,还有OEM一贯的省成本操作——比如联想给28W处理器配45W充电器。
第三层是NPU生态的先天夭折。每家NPU都要不同的SDK:英特尔用OpenVINO,AMD用Ryzen AI/DirectML,高通用QNN/ONNX Runtime,微软自己也搞DirectML(还得硬件支持)。主流开源LLM运行时——llama.cpp、MLX、ExLlamaV2——没有一个支持这些NPU做文本生成。规格表上的16-45 TOPS是营销数字。实际能用的场景,只有微软私有管道支撑的Copilot+功能:实时字幕、Windows工作室效果。想跑Llama 3.2?没门。
热门跟贴