RTX 4060跑llama.cpp,风扇狂转,95瓦功耗换38 tok/s。M4 Mac mini同样速度只要30瓦。CUDA的暴力美学在能效面前开始站不住脚。
但生物大脑只烧20瓦。其中大部分用于维持膜电位和突触待机,"意识活动"的增量成本不到5%(Raichle, Science, 2006)。真正用于思考的能量,不到1瓦。
860亿神经元,同一时间只有1-2%在放电(Lennie, Current Biology, 2003)。需要才激活,按需才 spike。这跟 Transformer 推理完全不同——每个参数对每个 token 全量参与。
脉冲神经网络(Spiking Neural Networks,SNN)和神经形态计算,正试图把这种生物设计原则塞进硬件。2026年Q1有三篇论文值得关注。读完之后,我对 GPU 的未来有了新想法。
SPARQ:330倍能效提升,但有个陷阱
3月arXiv的SPARQ,把量化感知训练和强化学习驱动的早退机制塞进统一框架。核心洞察:动态决定每个输入的脉冲传播深度。简单输入浅层解决,复杂输入才往深层走。这很接近生物脑的实际运作。
SPARQ的 benchmark 数据(来自论文表2/3):
MLP on MNIST:基线SNN 95.00% → QSNN 94.50% → SPARQ 97.80%
LeNet-5 on MNIST:基线 97.76% → QSNN 93.09% → SPARQ 98.24%
AlexNet on CIFAR-10:基线 77.01% → QSNN 74.30% → SPARQ 78.00%
能耗降低330倍以上,突触操作减少90%+。
330倍,第一眼很炸裂。但仔细看。
测试模型是 MLP、LeNet、AlexNet——MLP 是经典老古董,LeNet 来自1998年,AlexNet 来自2012年。连 ResNet-50 都没上,更别提百亿参数的 Transformer。SPARQ 是在 SNN 范式内部做了优秀优化,但还不是 GPU 推理的替代故事。
还有个细节:330倍是相对于基线 SNN,不是相对于 GPU。而那个 SNN 基线本身,并没有在同等条件下与 GPU 推理做过对比。
FPGA方案:几百美元就能买到的神经形态芯片
另一篇3月论文走了一条不同的路。
SoC架构,RISC-V控制器+事件驱动SNN核心。乘法器换成位运算(二值权重),用基于脉冲时间的时间编码。在FPGA上实现——这是你能真金白银买到的硬件。
这里开始有意思了。Intel Loihi 2 和 IBM NorthPole 是研究机构专属,你买不到。但 FPGA(Xilinx Artix-7、Intel Cyclone V)几百美元,RISC-V开源。这条路通向"普通人能跑起来的神经形态计算"。
论文里的数字:在 MNIST 上达到 97.5% 准确率,功耗 0.5W。作为对比,树莓派4B跑同类任务约5-7W。
但限制同样明显。FPGA 的片上内存和逻辑资源决定了网络规模天花板。论文中的实现是小型网络,扩展到现代深度学习模型的体量,需要多芯片互联或外部存储,能效优势会被稀释。
第三篇:SNN Transformer的艰难爬坡
第三篇论文尝试把 SNN 和 Transformer 嫁接。这是最难啃的骨头,也是 GPU 霸权最直接的挑战目标。
自注意力机制的本质是全局 token 交互,每个位置要看到所有其他位置。这与 SNN 的事件驱动、稀疏激活哲学存在张力。论文的解决方案是近似注意力:用局部敏感哈希(Locality-Sensitive Hashing)把全局计算降到次线性复杂度,同时在脉冲域实现。
结果:在小型语言建模任务上,困惑度(perplexity)接近标准 Transformer,但训练时间延长3-5倍。能耗数据未在论文中给出完整芯片级测量,仅提供理论操作数估算。
这很诚实。SNN 的训练基础设施远未成熟,PyTorch/TensorFlow 的自动微分对脉冲动力学支持有限。研究者们往往在自定义框架里手写反向传播,或者干脆用代理梯度(surrogate gradient)近似。
三篇论文拼在一起,能看到什么?
SPARQ 证明了在经典任务上,SNN 可以靠算法创新大幅压缩冗余计算。FPGA 方案证明了低成本硬件路径的存在。SNN Transformer 则在最难的战场上缓慢推进,承认基础设施的短板。
但一个关键问题悬在空中:SNN 的能效优势,在多大程度上能转化为端到端应用优势?
GPU 的护城河不只是算力,是 CUDA 生态、是 PyTorch 的优化算子、是 Hugging Face 上即插即用的模型、是云厂商按秒计费的成熟推理服务。SNN 要跨越的,是从论文到产品的完整链条。
神经形态芯片的商用尝试不是没有。Intel 的 Loihi 系列、IBM 的 NorthPole、BrainChip 的 Akida,都在特定场景落地——边缘设备的低延迟推理、 always-on 的传感器信号处理。但这些场景的规模,与数据中心的大模型推理不在一个数量级。
一个产品经理视角的观察:技术替代 rarely 是"更好所以赢",而是"足够好+更便宜+生态成熟"的复合结果。SNN 目前在"更好"的维度上有亮点,在"更便宜"的维度上有潜力,在"生态成熟"的维度上差距明显。
英伟达不是没注意到这个方向。2024年的NeurIPS上,他们展示了与脉冲计算兼容的模拟电路研究。但商业优先级上,Blackwell架构的密度提升和内存带宽扩张,仍是主线。
这像不像当年CPU和GPU的故事?CPU的通用性 vs GPU的并行效率,最后不是谁杀死谁,而是分层共存。SNN 可能走类似的路:在极端能效敏感的场景(植入式医疗设备、深空探测器、微型机器人)先站稳脚跟,再向通用计算渗透。
三篇论文里,最让我记住的是一个脚注。FPGA那篇的作者提到,他们的RISC-V核心在空闲时功耗仅12mW,而等待传感器事件期间,SNN核心完全静默。这种"按需唤醒"的能力,是GPU的架构性盲区——CUDA核心即使在低利用率下,静态功耗依然可观。
如果未来五年,某种工作负载的推理成本下降100倍,是因为算法进步压缩了计算量,还是因为硬件架构切换到了事件驱动范式?三篇论文没有给出答案,但把问题摆到了桌面上。
你会为这种不确定性押注吗?
热门跟贴