2026年6月30日,美团正式发布新一代万亿参数大模型LongCat-2.0(龙猫2.0),并宣布全面开源。这不仅是美团AI战略的一次集中亮相,更是国产大模型发展史上一个标志性时刻——业界首个在五万卡国产算力集群上完成全流程训练与推理的万亿参数模型,就此诞生。

一、五万卡国产集群:从“不可能”到“全球首个”

万亿参数大模型与国产算力的组合,在一年前仍被行业视为“不可能完成的任务”。彼时主流判断认为,国产算力卡在单卡性能、软件生态、集群稳定性等方面与英伟达体系存在代际差距,难以承载前沿大模型的训练需求。

LongCat-2.0的出现正在改写这一认知。

据悉,美团龙猫团队自2023年起便聚焦国产算力适配,从千卡规模起步,与国产算力厂商共同推进“模芯协同”研发。从早期的小规模验证到超大规模稳定训练,团队逐步攻克了万卡级容错恢复、NPU确定性计算、算力利用率提升等核心难题。

在五万卡国产算力集群上,LongCat-2.0实现了:

  • 稳定性突破:通过HCCL异常处理、弹性扩缩卡和自动故障恢复,月均日故障率降低70%以上;

  • 正确性保障:自研确定性算子、Bitwise一致性验证和参数检测,保障训练结果可靠;

  • 效率跃升:流水线调度、显存优化和算子级控核,训练MFU提升1.5倍;

  • 规模验证:稳态日吞吐超过1T tokens/day,全程未出现不可逆的loss尖刺与回滚。

LongCat-2.0的实践表明,国产算力卡的计算正确性和精度已足够满足需求,甚至局部略优,已经可以支撑前沿模型的全流程训练。

二、1.6T参数、1M上下文:硬核技术指标

LongCat-2.0采用MoE(混合专家)架构,总参数规模达到1.6万亿,平均激活约480亿参数,动态范围33B~56B。模型从零开始预训练,预训练数据规模超过30T tokens,覆盖中文、英文、多语言和代码等多类数据。

更值得关注的是其原生支持1M超长上下文,可一次处理百万字级输入。这一能力使LongCat-2.0在长文档理解、复杂代码库分析等场景中具备显著优势。

三、架构创新:LSA + 零计算专家 + MOPD

LongCat-2.0的架构设计自始至终围绕一个核心目标——让模型在真实的Agentic Coding任务中更高效、更稳定地完成代码理解、生成与执行。为此,团队引入了多项原创设计:

1. LSA稀疏注意力机制

LongCat Sparse Attention(LSA)将长文本计算量从平方级降至线性级。在处理100万Token的超长上下文时,模型不再“逐字逐句地看”,而是智能筛选关键信息,保持信息定位与理解能力。LSA通过引入流感知索引、跨层索引和分层索引,使长文本推理中的索引读取更加连续,并允许相邻层之间复用部分索引结果。

2. 零计算专家机制(业界首创)

代码任务中不同token的复杂度差异巨大——定义变量名和推导递归算法对算力的需求完全不同。LongCat-2.0通过零计算专家实现Token级动态计算预算:简单token不消耗算力,复杂token自动获得更多计算资源。这一机制为业界首创。

3. MOPD多专家融合架构

LongCat-2.0通过MOPD架构融合Agent、Reasoning、Interaction三组专家能力:

  • Agent Experts:专攻工具调用与自主纠错;

  • Reasoning Experts:深耕数学与STEM推理;

  • Interaction Experts:优化指令遵循与交互体验。

推理时由门控网络根据任务类型动态调度最擅长的专家,而非简单合并参数。

此外,模型还引入ScMoE跨层快捷连接架构和Ngram Embedding增强等多项原创设计。

四、评测屠榜:SWE-bench超越GPT-5.5和Claude Opus 4.6

硬核架构带来了硬核成绩。综合评测结果显示,LongCat-2.0在代码和通用Agent场景表现优异:

评测基准 LongCat-2.0 对比模型

SWE-bench Pro 59.5 Gemini 3.1 Pro(54.2)、GPT-5.5(58.6)、Claude Opus 4.6(57.3)

SWE-bench Multilingual 77.3 与Claude Opus 4.6(77.8)同一水位

Terminal-Bench 2.1 70.8 真实终端操作场景下稳定执行与纠错能力

在SWE-bench Pro上,LongCat-2.0领先于Gemini 3.1 Pro、GPT-5.5和Claude Opus 4.6;在SWE-bench Multilingual上与Claude Opus 4.6基本持平;Terminal-Bench 2.1的70.8分则证明了其在真实运维与开发终端任务中的稳定执行与纠错能力。

五、匿名冲榜:月调用量跻身OpenRouter全球前三

LongCat-2.0并非横空出世。

今年4月底,其预览版以匿名身份 “Owl Alpha” 接入全球最大的大模型API路由平台OpenRouter。截至6月底,总调用量已悄然跻身全球前三。

在具体Agent场景中:

  • Hermes:月调用量位列全球第一;

  • Claude Code:月调用量位列全球第二,仅次于Claude Opus 4.8;

  • OpenClaw:月调用量位列全球第三。

社区反馈显示,在工具调用、复杂指令执行等Agent核心能力方面,LongCat-2.0-Preview接近Claude Opus 4.6,在国产大模型中位列顶尖梯队。它已成为最受全球开发者欢迎的免费模型之一。

六、成本优势与开源承诺

由于算力优化和技术突破等综合因素,LongCat-2.0的训练和推理成本消耗低于全球其他万亿参数级别的大模型。

更令开发者社区振奋的是,LongCat官方宣布将于近期在多平台同步开源Infra框架、推理引擎、模型参数等核心技术,以回馈全球开发者社区。

七、行业意义:“国模+国芯”全栈协同迈出实质性一步

LongCat-2.0的落地,其意义远超一款模型的发布。

首先,它验证了国产算力大规模训练的可行性。 从“能不能用”到“好不好用”,国产算力正在跨越第一道门槛。美团用三年时间证明了国产算力卡已具备支撑前沿级万亿参数模型稳定训推的工程能力。

其次,它为行业提供了“国模+国芯”的全栈协同范本。 近半年以来,国产算力支撑大模型训练的案例正在密集涌现。正如行业人士所言:“在国产芯片上训练出大MoE模型还是很厉害的”。

第三,它印证了王兴的AI战略判断。 美团CEO王兴曾在多个场合表示,美团的AI策略是“进攻,不是防守”。自2023年初以来,美团在AI上进行了持续的大规模投入,“除有云计算业务的企业外,美团在AI上的投入规模,大概率是国内企业里最大的”。

从2023年的默默适配,到2026年6月30日的正式亮相;从五万卡国产集群的极限训练,到OpenRouter全球前三的调用量——LongCat-2.0不仅是一款产品的发布,更是一次关于“中国AI能否走出独立技术路径”的有力回答。

当技术路线的争议逐步平息,行业竞争的核心终究要回归最朴素的逻辑:谁的模型在真实场景中跑得更快、更稳、成本更低。从这个角度看,LongCat-2.0已经给出了它的答案。