不只是DeepSeek V4，还有个万亿级大模型，训推全程国产芯片|deepseek|大模型|算子|算法

编辑｜Sia

同一天，两件大事儿在 AI 圈正面碰撞。

一边是 DeepSeek。2026 年 4 月 24 日，正式发布新一代模型DeepSeek-V4 系列预览版，并同步开源——总参数规模迈入万亿级，支持百万字超长上下文。

另一边，美团闷声干了件大事——用全国产算力集群，训练出了万亿参数大模型 LongCat-2.0 系列预览版（ LongCat-2.0-Preview ）。

据知情人士透露，该预览版与同日发布的 DeepSeek V4 Pro 在总参数规模、激活参数量上基本处于同一量级，同样支持 1M 上下文。

但关键不是第一梯队成员的「参数对齐」，而是路径分野——一个前沿万亿模型，训推全流程「英伟达含量为 0」——这在业内尚属首次。即便是 DeepSeek V4，也只是选择国产算力做「首发推理」，并不意味着全流程完全摆脱英伟达。

过去两年，国产大模型领域最核心、也最令人焦虑的问题，终于迎来了明确答案：

万亿参数级模型，究竟能不能依靠国产芯片稳定、高效地跑起来？

答案是：能。

只是很多人没想到，在「国产算力支撑万亿级模型研发」这条高难度赛道上，率先跑出关键突破的，会是美团。

某种程度上，这也呼应了王兴过去的发言，「过去一年，保障充足的 GPU 资源供应，是美团的首要任务」、「我们将争取把美团 App 率先升级成 AI-powered App。」显然，这是战略预判的结果。

目前，LongCat-2.0-Preview 仍处于受邀内测阶段，每天 1000 万 token 额度。

我们不禁好奇，他们到底是怎么做到的呢？

抽丝剥茧 Flash ，原来早就有迹可循

第一时间，我们联想到去年 9 月开源的 LongCat-Flash 大模型。

同样采用 MoE 架构，总参数规模达到 5600 亿，动态激活参数在 186 亿至 313 亿之间，在性能与计算效率之间做出了相当漂亮的平衡，推理速度和运营成本指标也颇为亮眼。

彼时，业内就曾传出消息：该模型训练阶段并未使用英伟达 GPU，而是基于国产加速卡完成。对此，美团始终未予置评。

但现在，随着 LongCat-2.0-Preview 的出现，我们重翻技术报告，很多细节突然有了新的解释。

那些当时看起来「用力过猛」、「没必要」的工程优化，或许并不是单纯秀肌肉，而是在国产算力环境下训练超大模型时，必须跨过去的现实门槛。

换句话说，那份报告的「微言大义」，其实是一套如何用国产芯片训成超大模型的方法论。

逻辑并不复杂。

一个 560B 的 MoE 模型，训练周期 30 天。如果底层运行在成熟的 NVIDIA + CUDA + NVLink + InfiniBand 生态里，通信、算子、调度、稳定性工具链早已高度成熟。在这样的环境下，专门花大量篇幅去讲底层算子优化、确定性计算、稳定性套件，边际收益通常并不高。

但如果底层不是英伟达，而是国产算力，一切就瞬间说得通了。

第一个最微妙的信号，藏在用词里。

翻遍 Flash 技术报告的训练章节，你会发现全文只提「accelerator 」，绝口不提「 GPU 」；而到了推理部分，却明确写的是「 H800 」。这种刻意的区分，在学术论文中并不常见——它更像是在合规框架下，用一种近乎明示的方式告诉你：训练跑的那套硬件，不是英伟达。

第二个信号，是显存数字。

Flash报告第 5.3 节提到，经过 V-ZB 算法优化后，训练峰值显存被压到了60GB 以下。这是一个非常具体的数字。如果是 H800（80GB 显存），压到60GB并无太大必要；但如果是单卡显存原本就偏紧的国产芯片，这个优化就是生死线。

同样，在后来开源的 DORA异步训练框架论文中，团队再次明确写道：「 our production cluster consists of midrange accelerators, especially with only around 60GB of available device memory 」——60GB，这个数字反复出现，指向的不是偶然。

第三个，也是最硬核的，是算子的「确定性实现」。

技术报告专门拿出章节讲「 Determinism 」。在外界看来，这只是一个工程洁癖。但知情人士透露，这背后是一场硬仗。

当训练平台从成熟的 CUDA 换成一个较新的国产芯片生态时，很多基础的算子要么缺失，要么性能不可接受。最典型的是FlashAttention 反向梯度（ FAG ）——它直接决定了长上下文训练的稳定性。

当时国产芯片上只有一个「确定性」实现，但为了做到计算顺序固定，它被迫退化成单核顺序执行，耗时比「非确定性」版本慢了20 到 70 倍，在生产环境中几乎不可用。

LongCat 团队没有等。他们在国产芯片上自研了高性能的确定性 FAG 算子，最终将性能损失控制在5%左右——既保住了确定性，又没有牺牲效率。据我们所知，这一实现早于国产芯片厂商官方推出的确定性版本，且性能更优。

同样的自研重构还发生在Scatter 类算子上。原有的单核实现效率极低，团队设计了一套确定性并行算法，将梯度聚合任务拆解到所有可用计算单元上，性能提升数十倍。

而对于GEMM 这类高耗时计算模块，团队也放弃了通用实现，转而采用确定性 Tiling 策略，叠加深度调优，实现了「高性能 + 确定性」的双重目标。

正是在这些底层算子的深度自研之上，「整网确定性训练」才真正成为可能——

每一步的计算结果都能精确复现，任何一次异常都能被快速定位。这在国产芯片工具链尚不完善的阶段，不是锦上添花，而是排障的刚需。

把这些细节放在一起，Flash 的技术报告，实则是一份没有点名硬件平台的国产算力训练经验总结，也是一轮提前完成的验证：

先用 560B 跑通工程栈，验证架构、通信、训练稳定性与工具链闭环，再把同一套方法论，放大到 1.6T。

模型架构又有创新了

因此， LongCat-2.0-Preview ，本质上可以看作是这一套方法论第一次被完整推到万亿参数级后的「阶段性验证」。据多位接近项目的人士透露，这一版本的技术细节含金量，似乎明显高于外界目前所看到的公开信息。

LongCat-2.0-Preview 采用 MoE 架构，总参数规模约 1.6T，平均激活参数约 48B，同时支持 1M 级超长上下文。在国产算力环境下，同时支撑超大参数规模与百万级上下文，本身就是对显存、通信与系统稳定性的综合考验。

消息人士称，为了进一步降低底层硬件负担，同时提升整体推理与训练效率，团队在架构层面做了几个核心创新。

其中一个延续性较强的方向，是在 LongCat-Flash-Lite 已验证的 N-gram Embedding 路线基础上继续增强。

传统 MoE 模型通常依赖不断扩展 FFN 专家数量来提升能力，但随着专家规模增加，跨节点通信开销也同步上升，整体收益逐渐递减。

LongCat 干脆将一部分原本位于专家层的参数前移至 embedding 层，并引入 N-gram（词组级）建模能力，使部分高频语言模式可以直接匹配命中，而不再依赖逐层计算。

据说，在这一设计下，模型在保持 1.6T 参数容量的同时，在代码生成、指令理解以及专业语义任务中获得更稳定的表现，推理成本也得到明显控制。

另一个关键创新来自注意力机制层面。

长上下文能力的主要瓶颈，仍然来自 Transformer 的 O(n²) 计算复杂度。LongCat-2.0-Preview 通过引入轻量稀疏注意力机制，并叠加「跨层流感知索引」设计，在不同层之间识别关键语义路径，减少了重复的全量 attention 计算。

据说，这一组合设计使模型能够稳定支持 1M token 上下文，同时在推理延迟与计算成本上保持相对可控。

5–6 万卡国产集群，何以托起万亿模型？

据机器之心了解，LongCat-2.0-Preview 的训推，均完全基于国产芯片完成，英伟达算力占比为零。

有接近项目的人士透露，训练阶段调用的国产加速卡规模已达 5 万至 6万张——这也刷新了当前已知范围内，国产算力支撑超大模型训练的规模上限。

这意味着其已经进入典型的超大规模工程系统阶段，对通信、算子和稳定性提出的要求，远比外界想象高得多。

首当其冲的是显存与带宽约束。相比英伟达高端 GPU（如 H100、B200），国产芯片在单卡 HBM 容量与带宽上仍存在差距，这使得可用显存空间被明显压缩。如何将 1.6T 级别「专家库」在工程实现上，仍需要在集群侧进行极其精细的切分与调度。

换句话说，研发团队必须在万卡规模上，对专家并行（EP）、张量并行（TP）与流水线并行（PP）进行重新组合与解构，才能完成整体训练部署。

有接近研发的人士表示，围绕并行策略与显存优化，团队做了大量底层调整。包括前述的 N-gram Embedding 与稀疏注意力设计，本质上也在为显存与带宽「腾空间」。

另一个更隐性的难点，是软件生态与算子效率。

不比CUDA 生态在算子库与调度效率上的优势，国产芯片在部分核心算子（如 GEMM、注意力相关计算）上仍存在优化空间。消息人士透露，为了提升执行效率，团队并未完全依赖通用框架，而是对核心算子进行了针对性重写与优化，并引入「确定性计算」机制，以保证大规模训练中的可复现性与调试能力。

而当训练规模扩展至数万卡级别后，系统稳定性成为另一个主要变量。

在长周期训练过程中，硬件掉线、通信抖动与任务中断是常态问题，而不是异常情况。为此，团队额外构建了一套容错与恢复体系，包括链路感知、自动重调度与多层异常检测机制，用于降低局部故障对整体训练的影响。

最后，团队针对国产硬件的特点，对训练框架和模型结构做了亲和设计，显著提升了计算性能。

综合来看，在国产芯片上跑通 1.6T 模型，本质上是在「用软件工程的勤奋，弥补硬件生态的欠缺」。其结果，正如消息人士所称，虽然国产芯片在显存等硬指标上还存在差距，但在计算正确性、数值精度以及长周期训练稳定性这些最核心的指标上，已经能够追平国际水平，足以支撑万亿级 MoE 模型的全流程训推。

国产算力，正从能用迈向好用

过去几年，关于国产芯片始终有一个现实问题：能不能做大模型？答案逐渐变成「能做」。但行业更在意的是下一问：能不能支撑最前沿、最高强度、最长周期的顶级任务？

在国产生态仍处于「补课期」的现实下，LongCat 团队没有选择在岸边等待水清，而是选择「边渡江边修船」。但与 DeepSeek V4 相比，LongCat-2.0-Preview 走得更远——从训练到推理，全流程完全国产化。

这也让它的意义，超出了「又一个万亿模型」，更是一场产业级验证：国产算力，正在跨过从「可替代」到「可承担顶级任务」的关键门槛。

正如业内人士所言，将 DeepSeek V4 与 LongCat-2.0-Preview 放在一起看，国产大模型生态虽仍不完美，但已经迈出了肉眼可见的关键一步。那些踩过的坑、补齐的短板、攻克过的工程难题，最终也会沉淀成整个国产 AI 基础设施的公共能力。

当国产芯片开始承载这些前沿大模型，并获得实际验证与背书，不仅为国产生态注入了信心，也为更深层的结构性变革打开了空间。

如果说全流程国产化是「造出了车」，那么开源就是「修好了路」，邀请所有人一起跑起来。这种开放基因早已植根于 LongCat 的版图中。

这一次 LongCat-2.0 Preview 大概率也将延续这一开放路线。至于具体的开源方式与时间，我们不妨拭目以待。

目前LongCat-2.0-Preview 已开放内测，每天提供 1000 万免费 Token 额度，无论是技术发烧友想亲手跑一下这个全自研的万亿模型，还是企业开发者想评估国产算力 API 的可用性，都值得一试。

访问链接：

https://longcat.chat/platform/usage

不只是DeepSeek V4，还有个万亿级大模型，训推全程国产芯片

热搜

热门跟贴

热搜

热门跟贴

相关推荐

当同行都在涨价，DeepSeek V4选择了另一条路

华为昇腾适配DeepSeek V4，粤产算力芯片加速商用

DeepSeek内测识图模式，中国头部模型公司全员“睁眼”

DeepSeek V4发布后引爆需求：中国科技巨头纷抢华为昇腾950芯片

孤勇的梁文锋，全民的DeepSeek V4

DeepSeek又有大更新，这次它终于看得见了

梁文峰走出一步好棋！DeepSeek降价后，国产AI生态会加速形成

天下苦CUDA久矣，又一国产方案上桌了

36年卷积猜想被解决，华人唯一作者，AI或受益

大模型的下半场，属于拥有云+AI全栈引擎的玩家

论文一作是假人，经费来自虚构宇宙！这篇一眼假的钓鱼文，把全世界AI都给骗了

大模型创业公司，为什么越来越多在往“小”做？

美国扛不住了！卢特尼克：为中国量身定制的H200，一块都没卖出去

刚刚，DeepSeek多模态技术范式公布，以视觉原语思考

刚下飞机就被扣！意大利把中国芯片专家送给美国，比孟晚舟更狠！

全球存储芯片缺货！国产龙头兆易创新业绩狂飙，一季度净利增长超522%

15%全量Attention！「RTPurbo」阿里Qwen3长文本推理5倍压缩方案

爱芯元智的双轮驱动：车载放量，边缘爆发

车展季·大咖说丨芯擎科技CEO汪凯：座舱芯片比智驾芯片更复杂，舱驾融合价值在中低端市场

仁芯科技 32Gbps 芯片亮相车展：车载高速传输国产替代进入深水区