1.6万亿参数模型推理成本砍到27%，这家公司刚拿了260亿估值|token|上下文|参数模型|开源模型|推理成本|路由

有个变量正在让独立AI实验室的估值逻辑重写。Cognition刚完成260亿美元估值的D轮融资，融了10亿，而8个月前C轮时它还只值100亿。直接涨了2.5倍。

这背后的叙事只有一个——编程是个无上限的可触达市场。ARR数据也撑住了这个判断：预期年底年化营收破10亿美元。如果你去画Cognition的增长曲线，会发现它和“2025年到底发生了什么”那组疯狂图表长得几乎一模一样。这不是巧合。

企业级SaaS的ARR永远是使用量的滞后指标。Cognition现在拿下的客户logo也很有意思，都是企业圈子和创业生态里最难啃、最挑剔的那批客户，包括上周刚报道过的Exa和Modal。这类客户愿意付费，本身就说明产品已经跨过了从玩具到工具的那条线。

关于推理效率这条线，这几天推特上讨论密度很高。核心结论是：推理优化现在拼的是架构，不是算子。EAGLE 3.1这次迭代的重点是推测解码的稳健性，通过稳定隐藏状态反馈和降低深层次解码步骤里的注意力漂移，专门针对长上下文的接受长度和实际服务可靠性做了强化。这个团队特别提到了和vLLM、TorchSpec的合作。

内核和系统层也有进展。Perplexity开源了一个重建的Unigram分词器，CPU占用砍了五六倍，514个token跑进63微秒，零堆内存分配。Qwen3.5在TokenSpeed上据报达到了580 token/s，专跑智能体工作负载，背后是阿里巴巴、LightSeek、NVIDIA、Mooncake和FlashAttention-4贡献者的联合优化。支持层也在跟上，MaxSim v2加了反向传播，H200上比原生PyTorch快10.33倍，A100上快11.94倍。

更有意思的是降价逻辑。中国几个实验室最近的API降价是可持续的，因为它们反映的是每个token服务成本的实打实下降，不是短期补贴。一位观察者拆解了DeepSeek V4-Pro的架构：混合注意力机制配合压缩稀疏注意力和重度压缩注意力，把百万token的KV缓存压缩到V3.2的大约10%，单token推理浮点运算降到27%，同时在1.6万亿总参数里只路由490亿活跃参数。

小米MiMo走的是另一条路，用滑动窗口注意力加快分层级缓存管理来降低缓存流量。核心贡献者直接确认了深层输入缓存命中价格下降的来源：缓存token容量提升5倍，缓存成本约降80%，架构上的全注意力与滑动窗口注意力稀疏比做到了1:7。整体的图景已经很清楚了——长上下文推理的经济账，现在被注意力设计、缓存层级和路由机制联合推动，不再只是堆更便宜的硬件。