编辑|Sia
同一天,两件大事儿在 AI 圈正面碰撞。
一边是 DeepSeek。2026 年 4 月 24 日,正式发布新一代模型DeepSeek-V4 系列预览版,并同步开源——总参数规模迈入万亿级,支持百万字超长上下文。
另一边,美团闷声干了件大事——用全国产算力集群,训练出了万亿参数大模型 LongCat-2.0 系列预览版( LongCat-2.0-Preview )。
据知情人士透露,该预览版与同日发布的 DeepSeek V4 Pro 在总参数规模、激活参数量上基本处于同一量级,同样支持 1M 上下文。
但关键不是第一梯队成员的「参数对齐」,而是路径分野——一个前沿万亿模型,训推全流程「英伟达含量为 0」——这在业内尚属首次。即便是 DeepSeek V4,也只是选择国产算力做「首发推理」,并不意味着全流程完全摆脱英伟达。
过去两年,国产大模型领域最核心、也最令人焦虑的问题,终于迎来了明确答案:
万亿参数级模型,究竟能不能依靠国产芯片稳定、高效地跑起来?
答案是:能。
只是很多人没想到,在「国产算力支撑万亿级模型研发」这条高难度赛道上,率先跑出关键突破的,会是美团。
某种程度上,这也呼应了王兴过去的发言,「过去一年,保障充足的 GPU 资源供应,是美团的首要任务」、「我们将争取把美团 App 率先升级成 AI-powered App。」显然,这是战略预判的结果。
目前,LongCat-2.0-Preview 仍处于受邀内测阶段,每天 1000 万 token 额度。
我们不禁好奇,他们到底是怎么做到的呢?
抽丝剥茧 Flash ,原来早就有迹可循
第一时间,我们联想到去年 9 月开源的 LongCat-Flash 大模型。
同样采用 MoE 架构,总参数规模达到 5600 亿,动态激活参数在 186 亿至 313 亿之间,在性能与计算效率之间做出了相当漂亮的平衡,推理速度和运营成本指标也颇为亮眼。
彼时,业内就曾传出消息:该模型训练阶段并未使用英伟达 GPU,而是基于国产加速卡完成。对此,美团始终未予置评。
但现在,随着 LongCat-2.0-Preview 的出现,我们重翻技术报告,很多细节突然有了新的解释。
那些当时看起来「用力过猛」、「没必要」的工程优化,或许并不是单纯秀肌肉,而是在国产算力环境下训练超大模型时,必须跨过去的现实门槛。
换句话说,那份报告的「微言大义」,其实是一套如何用国产芯片训成超大模型的方法论。
逻辑并不复杂。
一个 560B 的 MoE 模型,训练周期 30 天。如果底层运行在成熟的 NVIDIA + CUDA + NVLink + InfiniBand 生态里,通信、算子、调度、稳定性工具链早已高度成熟。在这样的环境下,专门花大量篇幅去讲底层算子优化、确定性计算、稳定性套件,边际收益通常并不高。
但如果底层不是英伟达,而是国产算力,一切就瞬间说得通了。
第一个最微妙的信号,藏在用词里。
翻遍 Flash 技术报告的训练章节,你会发现全文只提「accelerator 」,绝口不提「 GPU 」;而到了推理部分,却明确写的是「 H800 」。这种刻意的区分,在学术论文中并不常见——它更像是在合规框架下,用一种近乎明示的方式告诉你:训练跑的那套硬件,不是英伟达。
第二个信号,是显存数字。
Flash报告第 5.3 节提到,经过 V-ZB 算法优化后,训练峰值显存被压到了60GB 以下。这是一个非常具体的数字。如果是 H800(80GB 显存),压到60GB并无太大必要;但如果是单卡显存原本就偏紧的国产芯片,这个优化就是生死线。
同样,在后来开源的 DORA异步训练框架论文中,团队再次明确写道:「 our production cluster consists of midrange accelerators, especially with only around 60GB of available device memory 」——60GB,这个数字反复出现,指向的不是偶然。
第三个,也是最硬核的,是算子的「确定性实现」。
技术报告专门拿出章节讲「 Determinism 」。在外界看来,这只是一个工程洁癖。但知情人士透露,这背后是一场硬仗。
当训练平台从成熟的 CUDA 换成一个较新的国产芯片生态时,很多基础的算子要么缺失,要么性能不可接受。最典型的是FlashAttention 反向梯度( FAG )——它直接决定了长上下文训练的稳定性。
当时国产芯片上只有一个「确定性」实现,但为了做到计算顺序固定,它被迫退化成单核顺序执行,耗时比「非确定性」版本慢了20 到 70 倍,在生产环境中几乎不可用。
LongCat 团队没有等。他们在国产芯片上自研了高性能的确定性 FAG 算子,最终将性能损失控制在5%左右——既保住了确定性,又没有牺牲效率。据我们所知,这一实现早于国产芯片厂商官方推出的确定性版本,且性能更优。
同样的自研重构还发生在Scatter 类算子上。原有的单核实现效率极低,团队设计了一套确定性并行算法,将梯度聚合任务拆解到所有可用计算单元上,性能提升数十倍。
而对于GEMM 这类高耗时计算模块,团队也放弃了通用实现,转而采用确定性 Tiling 策略,叠加深度调优,实现了「高性能 + 确定性」的双重目标。
正是在这些底层算子的深度自研之上,「整网确定性训练」才真正成为可能——
每一步的计算结果都能精确复现,任何一次异常都能被快速定位。这在国产芯片工具链尚不完善的阶段,不是锦上添花,而是排障的刚需。
把这些细节放在一起,Flash 的技术报告,实则是一份没有点名硬件平台的国产算力训练经验总结,也是一轮提前完成的验证:
先用 560B 跑通工程栈,验证架构、通信、训练稳定性与工具链闭环,再把同一套方法论,放大到 1.6T。
模型架构又有创新了
因此, LongCat-2.0-Preview ,本质上可以看作是这一套方法论第一次被完整推到万亿参数级后的「阶段性验证」。据多位接近项目的人士透露,这一版本的技术细节含金量,似乎明显高于外界目前所看到的公开信息。
LongCat-2.0-Preview 采用 MoE 架构,总参数规模约 1.6T,平均激活参数约 48B,同时支持 1M 级超长上下文。在国产算力环境下,同时支撑超大参数规模与百万级上下文,本身就是对显存、通信与系统稳定性的综合考验。
消息人士称,为了进一步降低底层硬件负担,同时提升整体推理与训练效率,团队在架构层面做了几个核心创新。
其中一个延续性较强的方向,是在 LongCat-Flash-Lite 已验证的 N-gram Embedding 路线基础上继续增强。
传统 MoE 模型通常依赖不断扩展 FFN 专家数量来提升能力,但随着专家规模增加,跨节点通信开销也同步上升,整体收益逐渐递减。
LongCat 干脆将一部分原本位于专家层的参数前移至 embedding 层,并引入 N-gram(词组级)建模能力,使部分高频语言模式可以直接匹配命中,而不再依赖逐层计算。
据说,在这一设计下,模型在保持 1.6T 参数容量的同时,在代码生成、指令理解以及专业语义任务中获得更稳定的表现,推理成本也得到明显控制。
另一个关键创新来自注意力机制层面。
长上下文能力的主要瓶颈,仍然来自 Transformer 的 O(n²) 计算复杂度。LongCat-2.0-Preview 通过引入轻量稀疏注意力机制,并叠加「跨层流感知索引」设计,在不同层之间识别关键语义路径,减少了重复的全量 attention 计算。
据说,这一组合设计使模型能够稳定支持 1M token 上下文,同时在推理延迟与计算成本上保持相对可控。
5–6 万卡国产集群,何以托起万亿模型?
据机器之心了解,LongCat-2.0-Preview 的训推,均完全基于国产芯片完成,英伟达算力占比为零。
有接近项目的人士透露,训练阶段调用的国产加速卡规模已达 5 万至 6万张——这也刷新了当前已知范围内,国产算力支撑超大模型训练的规模上限。
这意味着其已经进入典型的超大规模工程系统阶段,对通信、算子和稳定性提出的要求,远比外界想象高得多。
首当其冲的是显存与带宽约束。相比英伟达高端 GPU(如 H100、B200),国产芯片在单卡 HBM 容量与带宽上仍存在差距,这使得可用显存空间被明显压缩。如何将 1.6T 级别「专家库」在工程实现上,仍需要在集群侧进行极其精细的切分与调度。
换句话说,研发团队必须在万卡规模上,对专家并行(EP)、张量并行(TP)与流水线并行(PP)进行重新组合与解构,才能完成整体训练部署。
有接近研发的人士表示,围绕并行策略与显存优化,团队做了大量底层调整。包括前述的 N-gram Embedding 与稀疏注意力设计,本质上也在为显存与带宽「腾空间」。
另一个更隐性的难点,是软件生态与算子效率。
不比CUDA 生态在算子库与调度效率上的优势,国产芯片在部分核心算子(如 GEMM、注意力相关计算)上仍存在优化空间。消息人士透露,为了提升执行效率,团队并未完全依赖通用框架,而是对核心算子进行了针对性重写与优化,并引入「确定性计算」机制,以保证大规模训练中的可复现性与调试能力。
而当训练规模扩展至数万卡级别后,系统稳定性成为另一个主要变量。
在长周期训练过程中,硬件掉线、通信抖动与任务中断是常态问题,而不是异常情况。为此,团队额外构建了一套容错与恢复体系,包括链路感知、自动重调度与多层异常检测机制,用于降低局部故障对整体训练的影响。
最后,团队针对国产硬件的特点,对训练框架和模型结构做了亲和设计,显著提升了计算性能。
综合来看,在国产芯片上跑通 1.6T 模型,本质上是在「用软件工程的勤奋,弥补硬件生态的欠缺」。其结果,正如消息人士所称,虽然国产芯片在显存等硬指标上还存在差距,但在计算正确性、数值精度以及长周期训练稳定性这些最核心的指标上,已经能够追平国际水平,足以支撑万亿级 MoE 模型的全流程训推。
国产算力,正从能用迈向好用
过去几年,关于国产芯片始终有一个现实问题:能不能做大模型?答案逐渐变成「能做」。但行业更在意的是下一问:能不能支撑最前沿、最高强度、最长周期的顶级任务?
在国产生态仍处于「补课期」的现实下,LongCat 团队没有选择在岸边等待水清,而是选择「边渡江边修船」。但与 DeepSeek V4 相比,LongCat-2.0-Preview 走得更远——从训练到推理,全流程完全国产化。
这也让它的意义,超出了「又一个万亿模型」,更是一场产业级验证:国产算力,正在跨过从「可替代」到「可承担顶级任务」的关键门槛。
正如业内人士所言,将 DeepSeek V4 与 LongCat-2.0-Preview 放在一起看,国产大模型生态虽仍不完美,但已经迈出了肉眼可见的关键一步。那些踩过的坑、补齐的短板、攻克过的工程难题,最终也会沉淀成整个国产 AI 基础设施的公共能力。
当国产芯片开始承载这些前沿大模型,并获得实际验证与背书,不仅为国产生态注入了信心,也为更深层的结构性变革打开了空间。
如果说全流程国产化是「造出了车」,那么开源就是「修好了路」,邀请所有人一起跑起来。这种开放基因早已植根于 LongCat 的版图中。
这一次 LongCat-2.0 Preview 大概率也将延续这一开放路线。至于具体的开源方式与时间,我们不妨拭目以待。
目前LongCat-2.0-Preview 已开放内测,每天提供 1000 万免费 Token 额度,无论是技术发烧友想亲手跑一下这个全自研的万亿模型,还是企业开发者想评估国产算力 API 的可用性,都值得一试。
访问链接:
https://longcat.chat/platform/usage
热门跟贴