没人想要700亿参数的大模型了？|上下文|开源模型|手机|语音助手

周三凌晨，一位产品经理在公司内部论坛扔了一贴：“给车载语音助手调了三个月的70B模型，一跑就烫手，空调指令还经常听错。我们到底需要一个大诗人还是听话筒？”帖子下迅速盖起高楼，几位创业者也倒出类似苦水。过去提到AI，所有人都盯着参数规模——百亿、千亿，仿佛不用科学记数法都不好意思开口。但这套叙事正在悄悄崩解，只是谈论它的人还不够多。

更大就是更好——这是流行了好几年的唯一旋律。更大的模型，更长的上下文，更高的基准分数，更大的头条。你要是不训练一个参数量得靠科学记数法的东西，就好像根本没上桌。从大厂到新锐团队，全在同一个排行榜上狂奔，默认模型越大越聪明，数据越多越保险。

但反过来看，多数产品其实根本用不上那份“聪明”。你给汽车仪表盘做语音助手，需要的是一个能写量子力学十四行诗的模型吗？不需要。你只需要它能可靠听懂“空调调低”，并且不把电池一口气榨干。这种需求错配一直在那儿赤裸裸地晾着，只是被冲榜的热情遮住了。最近工具链终于追上了这个明摆着的道理：训练一个小家伙，把它训精，只盯着一件事做。机会这才真正打开。

戳破窗户纸的不是什么花哨的新架构，而是一个朴实的发现。好几家实验室已经证实：用几十亿个精挑细选的高质量token喂出来的模型，完全可以跟那些用随便从网上扒拉数据训练、参数大好几倍的模型正面过招。这有点像两个学生，一个把好教材吃透，另一个把整个互联网草草翻一遍，后者的卷面反而未必更强。每个工程师迟早都要被这个教训上一课——往问题里堆资源，不如先把问题本身弄明白。

小而专的模型正在几块地方悄悄接管。手机上的本地助手首当其冲。现在的手机已经自带能跑几十亿参数模型的AI芯片，不需联网就能直接推理。这意味着在地铁隧道里、航班上，或者任何信号糟糕的角落，语音助手照样能工作。过去大家默认智能活在云端，手机只是扇窗，可现在手机本体就在安安静静做着真正的推理，你甚至不会特意注意到。再比如一切受强监管的领域。医院、律所、任何处理敏感数据的地方，把数据扔给第三方API本身就是个大麻烦。如果能用自己掌控的硬件在本地跑一个小模型，麻烦就绕开了：数据从未离开建筑，合规的头痛也一并消失。设想一家诊所在自有服务器上运行专精模型，患者数据哪里都没去，监管问起来也用不着多余的解释。

当模型不再需要处处当“全才”，只需在信号盲区里听得懂一句话，或在隐私铁幕内跑得转一份病历，它的价值反而更扎实。那股一味堆大参数的热闹正在退潮，产品本身的需求，终于重新浮到了对话框的最上面。