公司情报专家《财经涂鸦》获悉,6月30日,美团正式发布新一代万亿参数大模型 LongCat-2.0,并宣布将对外开源。
作为业界首个在五万卡国产算力集群上完成全流程训练与推理的万亿参数模型(总参数1.6 T,平均激活约48 B,动态范围 33B~56B),LongCat-2.0从零开始预训练,原生支持1M超长上下文,验证了美团已具备在国产算力集群上进行大规模模型训练的能力。
正式版发布前,LongCat-2.0预览版本已通过OpenRouter平台和longcat.ai面向全球开发者开放调用。
截至目前,该模型已跻身OpenRouter全球大模型调用量前三,月调用量在Hermes、Claude Code和OpenClaw分列全球第一、第二和第三位,成为最受全球Agent开发者欢迎的模型之一。
据悉,LongCat团队对国产算力的探索始于2023年。截至目前,模型预训练数据规模超过30T tokens,覆盖中文、英文、多语言和代码等多类数据;面对万卡级训练中的硬件故障、通信异常、显存压力与数值波动,LongCat 团队从稳定性、正确性和效率三方面攻克国产算力训练难题,最终实现稳态日吞吐超过1T tokens/day。
与此同时,LongCat-2.0的架构设计自始至终围绕一个核心目标:让模型在真实的 Agentic Coding 任务中,更高效、更稳定地完成代码理解、生成与执行。
例如,1M超长上下文,让Agent“看见“整个项目。传统模型在处理超过100K上下文后就开始“遗忘”前面的内容。LongCat-2.0采用LongCat Sparse Attention(LSA)稀疏注意力机制,使得模型在100万Token的超长上下文中,依然保持精准的信息定位与理解能力。
同时,LongCat-2.0通过零计算专家实现token级动态激活(33B~56B),简单token不消耗算力,复杂token自动获得更多计算资源。
此外,LongCat-2.0通过MOPD架构融合了Agent、Reasoning、Interaction三组专家能力,在编程、推理、交互等维度均表现突出。其中, Agent Experts专攻工具调用与自主纠错,Reasoning Experts深耕数学与STEM推理,Interaction Experts优化指令遵循与交互体验。
综合评测结果显示,LongCat-2.0在Code和General Agent场景表现优异。
编程能力方面,LongCat-2.0 展现出扎实的综合实力:在考察深层工程能力的SWE-bench Pro中获得59.5,领先Gemini 3.1 Pro(54.2)、 GPT-5.5(58.6)和 Claude Opus 4.6(57.3);在SWE-bench Multilingual中取得77.3的成绩,与Claude Opus 4.6(77.8)保持在同一水位;此外,在真实终端指令交互评测Terminal-Bench 2.1中取得70.8,体现了其在真实运维与开发终端任务中的稳定执行与纠错能力。
真实办公场景的复杂任务处理方面,LongCat-2.0表现均衡:在搜索智能体评测集RWSearch中获得78.8,在生产力场景评测集FORTE中获得73.2 ,在BrowseComp中获得79.9,均达到或接近前沿闭源模型水平,证明了其在多步骤任务规划、复杂工具调用及长程检索执行上的高可靠性,能够较好的契合企业级Agent的落地需求。
热门跟贴