前有DeepSeek R1以6710亿参数惊艳业界,紧随其后的是R2泄露信息中约685B(6850亿)的配置,而同期传出的V4模型总参数更是逼近1.6万亿。国内超过50家央国企密集发布工业大模型产品,从钢铁冶炼到能源电力,从装备制造到交通物流,“百模大战”已然打响。

然而,一个直击灵魂的问题被许多人选择性忽略:工业场景,真的需要万亿参数吗?

打开网易新闻 查看精彩图片

一组数据值得深思:研究机构测试表明,当参数规模超过5000亿后,每提升10%的参数量,仅能带来2.3%的性能提升,而算力消耗却增长47%。更令人尴尬的是,在混合专家(MoE)架构下,某开源模型1.2万亿参数中,有37%的专家在90%的推理任务中处于闲置状态——这些“僵尸专家”除了让显卡风扇转得更快,几乎没有贡献任何智能。

“参数规模无用论”的三重逻辑

“参数规模无用论”的三重逻辑

1.数据质量,才是模型的“灵魂”

无论参数多大,喂进去的是垃圾数据,学出来的必然是混沌。工业领域尤其如此:一个设备振动数据采样频率不准、一个工艺参数标注错误,都会让再大的模型在产线上“胡说八道”。

这正是国家启动“模数共振”行动的深层原因。近日,工信部与国家数据局联合推出该行动,面向钢铁、汽车、航空航天等20个重点行业,构建“行业通识—场景专识—评测基准”三级数据集与模型体系。七大国家级数据标注基地已形成工业、医疗等领域高质量数据集524个,服务大模型163个。

没有好数据,再大的参数也只是华丽的空壳。

2.场景适配,比通用能力更务实

通用大模型在专业领域常常“水土不服”。医疗领域的电子病历解析,通用模型准确率82%,经过场景适配的专用模型可攀升至97%,推理token消耗降低65%。

工业逻辑如出一辙。钢铁轧制的温度、压力、速度三者的耦合关系,精密机械加工的微米级公差控制,这些“工业机理知识”不是靠堆参数就能学到的。河钢发布的威赛博大模型2.0,并没有盲目追求参数规模,而是创新构建“大模型+小模型”协同架构,实现全过程一键炼钢,转炉终点命中率提升至90%以上,排程时间缩短30%。

打开网易新闻 查看精彩图片

这就是“场景专识”的力量。工业AI真正需要的,不是在“人类高考”中拿高分,而是在自己的产线上把良品率再提升0.5个百分点。

3.算力效率,决定了能否落地

工业现场不是实验室。产线上的毫秒级响应、边缘设备有限的功耗预算、国产化算力的适配要求,每一项都在拷问模型的实际效率。

DeepSeek R2给出了一个漂亮的答案。基于华为昇腾910B芯片集群训练,在FP16精度下计算性能达512 PetaFLOPS,芯片利用率高达82%,整体性能约为英伟达A100集群的91%。这意味着什么?意味着在国产算力环境下,R2用更少的资源跑出了接近国际顶尖水平的真实效率。

反观不少工业大模型,动辄需要几十张A100才能推理,推理延迟超过500毫秒——这类模型在产线质检、设备预测维护等实时场景中根本无法部署。“每瓦特算力产出的决策价值”,才是工业AI的真正衡量标尺。

评测标准化,为“参数焦虑”开一剂良方

评测标准化,为“参数焦虑”开一剂良方

模数共振”行动的另一重深意,在于建立统一、权威、可复现的工业大模型评测标准。焕新上线的“方升”大模型基准测试能力,将考核维度从单一的参数量,转向:良品率提升度、响应延迟、误报率、国产芯片适配度、推理能耗比……

这套评测体系的指挥棒效应立竿见影。企业开始思考:“我的场景需要多大模型?MoE架构下应该激活多少专家?要不要走‘基座+SFT+蒸馏’的优化路径?”而不是简单粗暴地发布一个万亿参数模型刷存在感。

务实,才是工业智造的唯一正道

务实,才是工业智造的唯一正道

工业数智转型,从来不是一场参数竞赛。数据显示,当前全球仅有不足15%的工业AI场景真正需要千亿级以上参数模型。绝大多数场景下,一个百亿级、经过场景微调的小模型,加上高质量工业数据和高效的边缘推理,已经能带来令人满意的ROI。

与其迷信参数规模的光环,不如用“模数共振”的评测标尺,衡量模型在每一条产线上创造的单位价值。