“模型权重很快到来,敬请关注!”在LongCat-2.0的Hugging Face仓库页面上,这行蓝色提示格外显眼。仓库顶部展示的是1.6万亿参数、480亿激活参数、五万卡国产ASIC集群等硬指标,许可证一栏也早早标好MIT。但一路滑到页面底部,所有核心文件的状态仍是“即将推出”——模型本体、训练数据、配置细节,全部缺席。

这种“先发框架、后补权重”的操作,被业内戏称为AI领域的期房预售。不过,抛开交付节奏不谈,美团这次确实做了一件硬事:用五万张国产专用AI加速芯片,不依赖NVIDIA的NCCL通信协议,完全依靠国产集群自带的分布式通信方案,把一台1.6万亿参数的MoE模型从头训练到尾。正式公布的指标显示,平均激活参数约480亿,原生支持100万token的超长上下文,整合了稀疏注意力、多专家动态融合等一系列优化方法。按照官方说法,这是国产算力生态首次完成该量级的端到端训练验证。

打开网易新闻 查看精彩图片

训练成果在部分基准测试上已经反映出竞争力。LongCat-2.0在SWE-bench Pro中取得59.5分,略高于GPT-5.5的58.6分。尽管分数差距在一个百分点以内,但考虑到整个训练链完全跑在国产芯片与自研通信协议上,这一结果足以让“模芯协同”这个喊了三年的口号第一次有了具象化的参照物。

然而,真正能衡量国产算力竞争力的三个关键数字,官方全都按下不表。第一,芯片与集群的具体厂商未被披露;第二,训练总成本没有公布;第三,实际训练耗时,也就是业内常说的wall-clock时间,同样空白。这几项数据直接关系到全国产路线的真实成色、算力经济性以及与NVIDIA生态的效率差距。没有它们,外部团队既无法对标,也难以复用美团已经踩过的坑。

开源承诺的兑现程度,同样集中在“看得见”和“用不了”之间。LongCat-2.0标注为MIT许可证,但截至目前,官方只放出了推理框架和Infra层的代码,模型权重未上线,训练数据构成更是只字不提。已知模型训练使用了超过35万亿tokens的数据,但数据来源、配比与清洗规则全无说明。这种“开源权重不开源数据”的模式,相当于只给成品,不给配方:开发者可以调用模型,却无法复现训练过程,更不用说进行二次预训练或针对性微调。

把LongCat与同期强调开放路线的DeepSeek V4放在一起看,差异会更加清晰。DeepSeek V4公布了权重、代码及训练数据配比,社区复现的可能性更高,但它并未强调从零开始在国产算力上完成全栈训练。LongCat恰好相反,训练侧做到全栈国产,但权重与数据紧锁。一个赌全栈可控,一个赌全量开源,阶段性的交付都不算完整。

美团对训练数据保持沉默,并非不可理解。一个为本地生活场景从头打造的模型,训练数据中大概率混合了外卖订单、商家信息、用户评价、地理位置等核心业务资产,这些不可能公开。但数据构成与清洗规则的缺失,直接导致外界无法验证测试集是否存在泄露风险。SWE-bench Pro的59.5分含金量,现阶段只能靠企业单方面担保。

调用量构成了另一个观察窗口。在OpenRouter这一第三方模型调用平台上,LongCat-2.0以Owl Alpha的匿名身份低调运行了数月,API定价仅0.30美元每百万token,远低于GPT-5.5的2.50美元,而且大量调用完全免费。凭借低价策略,月调用量迅速冲至全球前三。但行业内对这种冲榜方式早就见怪不怪——新模型上线初期靠低价和免费额度换声量,等口碑积累后再逐步提价,几乎是通用玩法。一旦进入收费阶段,前三的位置还能否维持,才是真正的考题。

在性能对标上,LongCat瞄准的是Claude Opus 4.6,但Anthropic已经迭代到4.8版本,留给美团的时间窗口相当有限。更重要的是,它本身是一个垂直模型,为本地生活、Agentic Coding类任务做过专项优化,通用问答和多模态能力明显弱于同期竞品。但近来铺天盖地的通稿几乎都刻意弱化了这一垂直定位,将它包装成对标GPT的通用大模型突破。实际上,从训练目标到数据底座,LongCat-2.0的服务对象始终是美团自家的商家智能助手、外卖调度、到店运营等场景。定位本身并没有问题,可一旦裹进“国产算力突围”的宏大叙事,就容易让外界误以为这是一场通用智能的胜利。

七月以来,国产模型密集发布的势头更为明显。Kimi K3以2.5万亿参数走通用多模态路线,直接对标OpenAI和Anthropic;百度文心5.0达到2.4万亿参数,主打原生全模态;DeepSeek V4维持万亿级参数,依靠开源和极低API成本去充当模型水电煤;美团LongCat则以1.6万亿参数扎根本地生活垂直赛道。参数一个比一个高,路线却彻底分化。资本市场持续推动参数竞赛,但企业端的真实需求,往往是能把客服成本砍掉一半的轻量化方案。给一位奶茶店老板推销1.6万亿参数的大模型,对方只会反问:“能帮我自动回复差评吗?”当然能,可一个小模型就足以做到,完全不必搬出万亿规模。

再看投入强度,行业普遍估算,一个五万卡集群三年内的折旧、电力与运维费用,总计接近百亿级别。美团有外卖、到店和本地生活的稳定现金流,能够摊平这笔预研成本,纯AI创业公司则没有这样的缓冲池,很难模仿。阿里通义、京东言犀走的是通用模型微调加业务落地的路线,轻、快、成本可控;美团选择的却是全栈自研、从零开始训练,重、慢、但壁垒更高。两种路径没有绝对的对错,只是中小厂基本学不了美团。

LongCat-2.0的工程价值不可否认。它证明了一条此前只存在于方案上的全国产训练链路是跑得通的,这一点对行业信心的提振有其分量。但一家企业的里程碑,铺不成全行业的高速公路;一次演示级的成功,也不等于公共基础设施的成熟。真正意义上的交付,至少需要芯片与集群配置可核验、模型权重可下载、训练数据的构成与清洗规则可追溯。在此之前,它更像一次精心筹备的工程展示。

国产AI从不缺“突破”“超车”“第一”的通稿,缺的是敢晒真实成本、敢公开核心供应链、敢让所有人复现的坦诚。对