六个月前你说一个26B参数的模型能在数学竞赛里逼近自家31B大哥,我会觉得你喝多了。现在我把Gemma 4、Qwen 3.5、Mistral Small、LLaMA 3.3、Phi-4、Nemotron Nano和DeepSeek R1蒸馏版全跑了一遍,笑不出来了。

这些"小个子"最狠的一招叫稀疏激活——每次只叫醒3.8B参数干活,其余继续睡。翻译成人话:请客吃饭只付三个人的钱,菜却够十个人吃。传统认知里参数即正义,现在这套算法被开源社区拆了。

我测完AIME 2026那道题集时反复确认了三遍数据。不是模型变聪明了,是工程师终于学会怎么让模型"偷懒"——而且偷得理直气壮。大厂还在堆卡烧电,这边已经用笔记本显卡跑出商用级效果。

有个细节很有意思:这些模型里好几个是谷歌、阿里、Meta主动放出来的。换句话说,造神的人开始拆自己的庙了。一位参与Gemma项目的工程师私下吐槽,「我们现在内部开会,小模型组的PPT比大模型组厚两倍」。

用户端的变化更直接。我认识的两个独立开发者上周把Claude订阅停了,理由是"Phi-4在本地跑推理,成本降到原来的4%"。不是他们不爱用好东西,是钱包比情怀诚实。

OpenAI和Anthropic至今没对这轮开源潮表态。但市场已经投票——Hugging Face上38B以下模型的周下载量,三个月翻了一倍。小模型不是未来的备胎,是正在发生的正餐。