有个变量正在让独立AI实验室的估值逻辑重写。Cognition刚完成260亿美元估值的D轮融资,融了10亿,而8个月前C轮时它还只值100亿。直接涨了2.5倍。

这背后的叙事只有一个——编程是个无上限的可触达市场。ARR数据也撑住了这个判断:预期年底年化营收破10亿美元。如果你去画Cognition的增长曲线,会发现它和“2025年到底发生了什么”那组疯狂图表长得几乎一模一样。这不是巧合。

打开网易新闻 查看精彩图片

企业级SaaS的ARR永远是使用量的滞后指标。Cognition现在拿下的客户logo也很有意思,都是企业圈子和创业生态里最难啃、最挑剔的那批客户,包括上周刚报道过的Exa和Modal。这类客户愿意付费,本身就说明产品已经跨过了从玩具到工具的那条线。

关于推理效率这条线,这几天推特上讨论密度很高。核心结论是:推理优化现在拼的是架构,不是算子。EAGLE 3.1这次迭代的重点是推测解码的稳健性,通过稳定隐藏状态反馈和降低深层次解码步骤里的注意力漂移,专门针对长上下文的接受长度和实际服务可靠性做了强化。这个团队特别提到了和vLLM、TorchSpec的合作。

内核和系统层也有进展。Perplexity开源了一个重建的Unigram分词器,CPU占用砍了五六倍,514个token跑进63微秒,零堆内存分配。Qwen3.5在TokenSpeed上据报达到了580 token/s,专跑智能体工作负载,背后是阿里巴巴、LightSeek、NVIDIA、Mooncake和FlashAttention-4贡献者的联合优化。支持层也在跟上,MaxSim v2加了反向传播,H200上比原生PyTorch快10.33倍,A100上快11.94倍。

更有意思的是降价逻辑。中国几个实验室最近的API降价是可持续的,因为它们反映的是每个token服务成本的实打实下降,不是短期补贴。一位观察者拆解了DeepSeek V4-Pro的架构:混合注意力机制配合压缩稀疏注意力和重度压缩注意力,把百万token的KV缓存压缩到V3.2的大约10%,单token推理浮点运算降到27%,同时在1.6万亿总参数里只路由490亿活跃参数。

小米MiMo走的是另一条路,用滑动窗口注意力加快分层级缓存管理来降低缓存流量。核心贡献者直接确认了深层输入缓存命中价格下降的来源:缓存token容量提升5倍,缓存成本约降80%,架构上的全注意力与滑动窗口注意力稀疏比做到了1:7。整体的图景已经很清楚了——长上下文推理的经济账,现在被注意力设计、缓存层级和路由机制联合推动,不再只是堆更便宜的硬件。