1.6万亿参数开源了，但AI该往哪边走？

像素与芯片

2026-04-28 19:07 ·北京

当DeepSeek把1.6万亿参数的模型权重甩到HuggingFace上，48小时内收割3000多个点赞和17.4万次下载——这到底是开源社区的狂欢，还是给所有人出了一道选择题？

一图看懂：Scaling Up的军备竞赛

DeepSeek V4-Pro Base的纸面数据很唬人：1.6万亿总参数，每次推理激活8620亿。V4-Flash更"轻量"，也有1580亿（Base版2920亿）。两者都是混合专家架构（MoE，Mixture of Experts）。

MoE是关键设计。不是所有参数同时干活——路由机制会挑合适的专家网络来处理每个输入。这样推理成本可控，知识容量却保留下来。配合分布式推理、混合精度、优化后的服务栈，万亿参数模型正在变得"能用得起"。

这条路有扎实的理论基础。2020年Kaplan等人的Scaling Laws论文早就说过：模型性能随参数量、数据规模、算力可预测地提升。从GPT-3的1750亿到DeepSeek V3再到V4的1.6万亿，每一代都在推理、代码、数学上刷新天花板。

效果不假。开放式推理、多语言生成、复杂代码合成——大模型在这些通用任务上确实碾压小模型。

但账单怎么算？

跑V4-Pro需要多GPU集群。就算走API调用，每次请求都计费。高频场景——实时交互、持续运行的智能体工作流、批量处理——成本会迅速累积。

个体开发者或小团队，经济账往往算不过来。

还有结构性约束：大模型的知识是"压缩"的，特定领域的精细度可能不如专门训练的模型；推理延迟在网络边缘场景是硬伤；数据隐私要求数据不出本地时，云端大模型直接出局。

这些不是Scaling Up的缺陷，是边界条件——指明了什么情况下需要换条路。

另一张图：Scaling Out的分布式解法

如果Scaling Up是把一个模型做到最大，Scaling Out就是把多个更小、更专的模型部署到真正需要它们的地方，然后协作。

技术趋势正在汇合：

模型压缩已经成熟。混合精度量化（如w4a16）、视觉令牌剪枝、知识蒸馏，能把数十亿参数模型压到消费级硬件上跑。苹果M4芯片上，40亿参数量化模型能做到每秒476个令牌的预填充、76个令牌的解码，峰值内存只占4.3GB。

专业化带来效率。万亿参数的通用模型把能力摊在所有任务上，专精模型则把全部参数砸向一个领域。原文提到的GUI自动化场景，40亿参数模型就能...

【原文此处截断，后续内容缺失】

两条路线不是非此即彼。DeepSeek开源V4的同时，也在释放信号：基础设施层已经ready，接下来看应用层怎么选。

大厂可以all in大模型，把算力成本摊到海量用户上。但边缘场景、实时交互、隐私敏感型应用，可能更依赖"小模型+本地部署+多模型协作"的架构。

真正的产品决策或许是：你的用户愿意等多久？数据能不能出设备？调用频率能不能支撑API计费？

开源权重之后

V4-Pro上线Together、Novita、Fireworks等平台的速度，说明推理服务的市场化竞争已经白热化。开源模型权重+商业化推理API的组合，正在变成标准打法。

这对开发者的意义很直接：你可以下载权重自己折腾，也可以按需调用——选择权在手中，但选择的前提是对成本结构有清醒认知。

1.6万亿参数的开源是里程碑，但它同时把问题摆上了桌面：当"更大"变得可行，"更合适"是不是被忽略了？

如果Scaling Out的架构成熟，未来的AI产品会不会像乐高——一堆专精小模型按需组合，而不是一个万能大模型包办一切？你的下一个项目，会押哪边？

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴