是的,我的Claude又被封了,

急急国王的我又开始盯上国产模型的API了,刚好美团发布了LongCat-2.0。

就这样说吧,一个总参数 1.6 万亿,每个token只激活约 480亿参数的MoE模型,

从预训练到大规模部署,全程跑在5万张国产算力芯片上,跑了一个多月,吃掉超过 35 万亿 tokens,全程无回滚,没有一次不可恢复的 loss 突刺。

这真的发生了。。。

打开网易新闻 查看精彩图片

可能有些朋友对这件事没太大感觉,我帮你把时间往回拉两年。

那会儿英伟达的A100,H100这些高端卡被卡脖子。

整个行业最焦虑的问题,都不是国产卡好不好用,

是个更要命的问题,没有英伟达,我们还能不能接着做大模型

所以LongCat-2.0这次做出来的意义从来不是它是不是今天最强的模型。

是它把一条特别难的链路,完整跑通了一遍。(人类撰写声明)

从训练到大规模部署,官方口径都是国产算力,同时也已经接到了API和开发者工具里。

这个分量,比多刷几个benchmark第一要重。

时间点还赶得巧。

Claude各种封号限流,8号马上还有来一波大的,

现在都有点心灰意冷,想做 API 战士了。但是纯API的话,Claude就不能作为主力模型了,它肯定是一个辅助的专注于UI和出计划的模型。这样就需要第三个模型融入到我的工作流里面,

一个独立在CodeX和Claude之外,永远不会被卡壳的模型。

就在这个节骨眼上,冒出来一个能开源、还能直接接进现有工作流的国产万亿模型,就很爽了。

当然,LongCat-2.0不是全面SOTA。

倒不是说它一发布,明天大家就能彻底告别Claude。

像是IFEval,GPQA-diamond这种更偏通用能力和知识推理的项目,它跟Gemini 3.1 Pro,GPT-5.5还点有差距。轮到Agent场景版本强度就上来了,在Terminal-Bench 2.1和SWE-bench Pro这类编程任务上,它基本追平Gemini 3.1 Pro。在FORTE这种通用Agent任务上,也跟Claude Opus 4.6五五开了。

LongCat-2.0还拥有最大输出的128K。以及最高提供到了1M上下文。

打开网易新闻 查看精彩图片

它这次花心思的地方,是怎么让模型在又长又乱的任务里还稳定出结果。

是一个叫LSA的稀疏注意力机制,面对超长输入时,模型不再一个字一个字从头硬啃。毕竟Agent干活要读代码库,翻文档,还要记住前面十几步操作,还要继续调工具等等。LSA解决的就是这个问题。

打开网易新闻 查看精彩图片

另一个叫N-gram Embedding,

就是让模型不只盯着单个词,还更在意几个词连在一起时的意思,对局部语境更敏感一点。

打开网易新闻 查看精彩图片

这些改动指向的都是同一件事。

为了让LongCat-2.0在长上下文,工具调用,在Agent工作流里干活。

如果你今天就想用上LongCat-2.0的话很简单,

如果原来就是OpenAI Compatible或Anthropic API生态,就是换个base_url,换个API key,换个模型名。

就能开始调用了。

base_url="https://api.longcat.chat/openai"
model="LongCat-2.0"
api_key=LONGCAT_API_KEY


base_url="https://api.longcat.chat/anthropic"
model="LongCat-2.0"

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

第一个测试,

我直接把LongCat-2.0接进Claude Code,丢给它一个杂乱的工作文件夹,让它帮我整理。

它要先读懂我每个目录的作用,分清哪些是代码,文档,素材,测试等等等再判断哪些能动,哪些不能动。能不能在不破坏项目引用,配置路径和运行逻辑的前提下,给出一套合理的重组方案。

从提示语就看得出来是纯纯语音输入的了。

打开网易新闻 查看精彩图片

从评估到执行,LongCat-2.0没有上来就改文件,

是先根据我的目标和要求,把整理原则完整拆解出来。

在思考过程中,我也发现它会像调用不同层级的stack 一样,分阶段处理问题。

打开网易新闻 查看精彩图片

先理解项目结构,再判断文件用途。

再然后就是结合测试,产品,规划,文档等不同维度进行分析,

还会参考我本地已有的工具和资料,

把杂乱的文件夹逐步还原成一个清晰的工作系统。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

第二个,接进Codex,直接跑一个Agent工作流。

让它联网搜资料,整理大纲,再调用我的Skill,最后生成一份演示文稿,非常常见的case。

模型的好坏直接决定了HTML PPT里面的内容编排,会不会出现那种整页只有一行字的AI味页面。

那LongCat-2.0先是去联网搜索了一大堆官方文档的资料,

确认这个模型到底是什么,有什么特点,适合放进什么样的内容结构里。

打开网易新闻 查看精彩图片

接着,它又检查了我当前环境里已经有哪些 Skills,每个 Skill 能做什么,调用规则是什么。

在把资料来源,工具能力和任务目标都理解清楚之后,它才开始做整体规划。

打开网易新闻 查看精彩图片

它在这个过程中明显不是那种先做了再说的那种敷衍怪,

确实是在完成了资料收集,工具盘点,结构规划,再进入真正的生成阶段。

在规划完成之后,它也知道应该如何调用这些Skills,按照对应流程去生成文稿内容和演示结构。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

从背景介绍,到核心能力,再到测试过程和结论,整体是连贯还一致的。

这也是我觉得LongCat-2.0这次最值得看的地方。

一个全程国产算力训练出来的万亿模型,带到了开发者可以直接上手测试的位置,没有停在参数表,是直接能接到Claude Code和Codex上用的。

我不知道这是不是一个大周期的开始。

说实话我也不敢这么早下结论。

但在Claude疯狂封号的背景下,看到一个国产模型不吃压力,可以开源,可以 API 接入,可以接入这些真实工作流里,

我确实会觉得这又有点乐观起来了。

当然,LongCat-2.0的基础能力离顶级的闭源模型还有差距,

Agent实测上也还要继续跑。

但至少今天,我觉得可以认真给它记一笔。

我希望未来有一天,

我们不用再因为一个海外模型封号就全员恐慌,

也不用战战兢兢地担心哪天工作流突然断掉。

至少今天看起来,

路不是空的。

@ 作者 / 卡尔 & yc星辰

最后,感谢你看到这里如果喜欢这篇文章,不妨顺手给我们点赞|在看|转发|评论

如果想要第一时间收到推送,不妨给我个星标

如果你有更有趣的玩法,欢迎在评论区聊聊

更多的内容正在不断填坑中……

打开网易新闻 查看精彩图片