当DeepSeek把1.6万亿参数的模型权重甩到HuggingFace上,48小时内收割3000多个点赞和17.4万次下载——这到底是开源社区的狂欢,还是给所有人出了一道选择题?

一图看懂:Scaling Up的军备竞赛

打开网易新闻 查看精彩图片

DeepSeek V4-Pro Base的纸面数据很唬人:1.6万亿总参数,每次推理激活8620亿。V4-Flash更"轻量",也有1580亿(Base版2920亿)。两者都是混合专家架构(MoE,Mixture of Experts)。

MoE是关键设计。不是所有参数同时干活——路由机制会挑合适的专家网络来处理每个输入。这样推理成本可控,知识容量却保留下来。配合分布式推理、混合精度、优化后的服务栈,万亿参数模型正在变得"能用得起"。

这条路有扎实的理论基础。2020年Kaplan等人的Scaling Laws论文早就说过:模型性能随参数量、数据规模、算力可预测地提升。从GPT-3的1750亿到DeepSeek V3再到V4的1.6万亿,每一代都在推理、代码、数学上刷新天花板。

效果不假。开放式推理、多语言生成、复杂代码合成——大模型在这些通用任务上确实碾压小模型。

但账单怎么算?

跑V4-Pro需要多GPU集群。就算走API调用,每次请求都计费。高频场景——实时交互、持续运行的智能体工作流、批量处理——成本会迅速累积。

个体开发者或小团队,经济账往往算不过来。

还有结构性约束:大模型的知识是"压缩"的,特定领域的精细度可能不如专门训练的模型;推理延迟在网络边缘场景是硬伤;数据隐私要求数据不出本地时,云端大模型直接出局。

这些不是Scaling Up的缺陷,是边界条件——指明了什么情况下需要换条路。

另一张图:Scaling Out的分布式解法

如果Scaling Up是把一个模型做到最大,Scaling Out就是把多个更小、更专的模型部署到真正需要它们的地方,然后协作。

技术趋势正在汇合:

模型压缩已经成熟。混合精度量化(如w4a16)、视觉令牌剪枝、知识蒸馏,能把数十亿参数模型压到消费级硬件上跑。苹果M4芯片上,40亿参数量化模型能做到每秒476个令牌的预填充、76个令牌的解码,峰值内存只占4.3GB。

专业化带来效率。万亿参数的通用模型把能力摊在所有任务上,专精模型则把全部参数砸向一个领域。原文提到的GUI自动化场景,40亿参数模型就能...

【原文此处截断,后续内容缺失】

两条路线不是非此即彼。DeepSeek开源V4的同时,也在释放信号:基础设施层已经ready,接下来看应用层怎么选。

大厂可以all in大模型,把算力成本摊到海量用户上。但边缘场景、实时交互、隐私敏感型应用,可能更依赖"小模型+本地部署+多模型协作"的架构。

真正的产品决策或许是:你的用户愿意等多久?数据能不能出设备?调用频率能不能支撑API计费?

开源权重之后

V4-Pro上线Together、Novita、Fireworks等平台的速度,说明推理服务的市场化竞争已经白热化。开源模型权重+商业化推理API的组合,正在变成标准打法。

这对开发者的意义很直接:你可以下载权重自己折腾,也可以按需调用——选择权在手中,但选择的前提是对成本结构有清醒认知。

1.6万亿参数的开源是里程碑,但它同时把问题摆上了桌面:当"更大"变得可行,"更合适"是不是被忽略了?

如果Scaling Out的架构成熟,未来的AI产品会不会像乐高——一堆专精小模型按需组合,而不是一个万能大模型包办一切?你的下一个项目,会押哪边?