五万卡国产算力跑通，美团大模型为何还是“期房”？|大模型|模态|知名企业|算力|美团

“模型权重很快到来，敬请关注！”在LongCat-2.0的Hugging Face仓库页面上，这行蓝色提示格外显眼。仓库顶部展示的是1.6万亿参数、480亿激活参数、五万卡国产ASIC集群等硬指标，许可证一栏也早早标好MIT。但一路滑到页面底部，所有核心文件的状态仍是“即将推出”——模型本体、训练数据、配置细节，全部缺席。

这种“先发框架、后补权重”的操作，被业内戏称为AI领域的期房预售。不过，抛开交付节奏不谈，美团这次确实做了一件硬事：用五万张国产专用AI加速芯片，不依赖NVIDIA的NCCL通信协议，完全依靠国产集群自带的分布式通信方案，把一台1.6万亿参数的MoE模型从头训练到尾。正式公布的指标显示，平均激活参数约480亿，原生支持100万token的超长上下文，整合了稀疏注意力、多专家动态融合等一系列优化方法。按照官方说法，这是国产算力生态首次完成该量级的端到端训练验证。

训练成果在部分基准测试上已经反映出竞争力。LongCat-2.0在SWE-bench Pro中取得59.5分，略高于GPT-5.5的58.6分。尽管分数差距在一个百分点以内，但考虑到整个训练链完全跑在国产芯片与自研通信协议上，这一结果足以让“模芯协同”这个喊了三年的口号第一次有了具象化的参照物。

然而，真正能衡量国产算力竞争力的三个关键数字，官方全都按下不表。第一，芯片与集群的具体厂商未被披露；第二，训练总成本没有公布；第三，实际训练耗时，也就是业内常说的wall-clock时间，同样空白。这几项数据直接关系到全国产路线的真实成色、算力经济性以及与NVIDIA生态的效率差距。没有它们，外部团队既无法对标，也难以复用美团已经踩过的坑。

开源承诺的兑现程度，同样集中在“看得见”和“用不了”之间。LongCat-2.0标注为MIT许可证，但截至目前，官方只放出了推理框架和Infra层的代码，模型权重未上线，训练数据构成更是只字不提。已知模型训练使用了超过35万亿tokens的数据，但数据来源、配比与清洗规则全无说明。这种“开源权重不开源数据”的模式，相当于只给成品，不给配方：开发者可以调用模型，却无法复现训练过程，更不用说进行二次预训练或针对性微调。

把LongCat与同期强调开放路线的DeepSeek V4放在一起看，差异会更加清晰。DeepSeek V4公布了权重、代码及训练数据配比，社区复现的可能性更高，但它并未强调从零开始在国产算力上完成全栈训练。LongCat恰好相反，训练侧做到全栈国产，但权重与数据紧锁。一个赌全栈可控，一个赌全量开源，阶段性的交付都不算完整。

美团对训练数据保持沉默，并非不可理解。一个为本地生活场景从头打造的模型，训练数据中大概率混合了外卖订单、商家信息、用户评价、地理位置等核心业务资产，这些不可能公开。但数据构成与清洗规则的缺失，直接导致外界无法验证测试集是否存在泄露风险。SWE-bench Pro的59.5分含金量，现阶段只能靠企业单方面担保。

调用量构成了另一个观察窗口。在OpenRouter这一第三方模型调用平台上，LongCat-2.0以Owl Alpha的匿名身份低调运行了数月，API定价仅0.30美元每百万token，远低于GPT-5.5的2.50美元，而且大量调用完全免费。凭借低价策略，月调用量迅速冲至全球前三。但行业内对这种冲榜方式早就见怪不怪——新模型上线初期靠低价和免费额度换声量，等口碑积累后再逐步提价，几乎是通用玩法。一旦进入收费阶段，前三的位置还能否维持，才是真正的考题。

在性能对标上，LongCat瞄准的是Claude Opus 4.6，但Anthropic已经迭代到4.8版本，留给美团的时间窗口相当有限。更重要的是，它本身是一个垂直模型，为本地生活、Agentic Coding类任务做过专项优化，通用问答和多模态能力明显弱于同期竞品。但近来铺天盖地的通稿几乎都刻意弱化了这一垂直定位，将它包装成对标GPT的通用大模型突破。实际上，从训练目标到数据底座，LongCat-2.0的服务对象始终是美团自家的商家智能助手、外卖调度、到店运营等场景。定位本身并没有问题，可一旦裹进“国产算力突围”的宏大叙事，就容易让外界误以为这是一场通用智能的胜利。

七月以来，国产模型密集发布的势头更为明显。Kimi K3以2.5万亿参数走通用多模态路线，直接对标OpenAI和Anthropic；百度文心5.0达到2.4万亿参数，主打原生全模态；DeepSeek V4维持万亿级参数，依靠开源和极低API成本去充当模型水电煤；美团LongCat则以1.6万亿参数扎根本地生活垂直赛道。参数一个比一个高，路线却彻底分化。资本市场持续推动参数竞赛，但企业端的真实需求，往往是能把客服成本砍掉一半的轻量化方案。给一位奶茶店老板推销1.6万亿参数的大模型，对方只会反问：“能帮我自动回复差评吗？”当然能，可一个小模型就足以做到，完全不必搬出万亿规模。

再看投入强度，行业普遍估算，一个五万卡集群三年内的折旧、电力与运维费用，总计接近百亿级别。美团有外卖、到店和本地生活的稳定现金流，能够摊平这笔预研成本，纯AI创业公司则没有这样的缓冲池，很难模仿。阿里通义、京东言犀走的是通用模型微调加业务落地的路线，轻、快、成本可控；美团选择的却是全栈自研、从零开始训练，重、慢、但壁垒更高。两种路径没有绝对的对错，只是中小厂基本学不了美团。

LongCat-2.0的工程价值不可否认。它证明了一条此前只存在于方案上的全国产训练链路是跑得通的，这一点对行业信心的提振有其分量。但一家企业的里程碑，铺不成全行业的高速公路；一次演示级的成功，也不等于公共基础设施的成熟。真正意义上的交付，至少需要芯片与集群配置可核验、模型权重可下载、训练数据的构成与清洗规则可追溯。在此之前，它更像一次精心筹备的工程展示。

国产AI从不缺“突破”“超车”“第一”的通稿，缺的是敢晒真实成本、敢公开核心供应链、敢让所有人复现的坦诚。对