JetBrains开源12B代码模型，专治“断网”部署焦虑|jetbrains|代码模型|工作流|应用程序|推理|调用

如果你所在的团队因为合规要求，所有代码都不能流出公司机房，那些火热的云端AI编程助手就一下子全成了摆设。JetBrains本周把Mellum 2放上了Apache 2.0许可，目标明确指向这类场景——完全自托管，推理全程不经过任何外部应用程序接口。这款120亿参数模型被他们称为“焦点模型”，不做通用对话里的全能选手，只做工程师每天最频繁调用那些活：子代理调度、检索管线里的上下文压缩，还有高频补全。

JetBrains在官方博客里给了一个清晰的定位：“前沿模型会不断冲击极限，但实用的AI产品还需要‘焦点模型’——快速、专用，能高效吃掉高频任务。”这句话背后是一个刻意收窄的训练思路。他们没有去追赶百科全书式的覆盖，而是把训练数据集中倾斜到代码和开发者文档上。所以看基准跑分，Mellum 2在通用推理项目GPQA Diamond和MMLU-Redux上依旧打不过通义千问3.5-9B，但JetBrains自己大方承认了：“这个差距反映了一种刻意的取舍，我们选择的就是代码而不是通识。”对于想用AI接管软件工程流水线的团队来说，要的就是这种取舍。

模型架构走的是混合专家路线，120亿参数虽大，但每个令牌只激活25亿参数，在64个专家中动态路由子集。这让它在吞吐上玩出了很有意思的数据：单请求模式下，一张H100上每秒跑192个令牌，跟Qwen2.5-7B的193几乎持平；一旦压上并发负载，立刻比Qwen2.5-7B快出21%，比Qwen3-8B快79%。在EvalPlus基准上，思考增强版本冲到78.4%，把Qwen3.5-9B的71.8%和Seed-Coder-8B的73.8%都甩在了身后。JetBrains同时放出了两个变体：一个指令版给直接回答，一个思考版会显式产出推理链，盯的是多步骤、代智体类任务——性能跟速度的账，都在那摆着。

最打动合规敏感团队的一点还不是跑分，而是“不靠别人”。Claude Code虽然能在本地跑，但推理调用终归要回Anthropic的服务器；OpenAI Codex类似，Cursor的能耐也绑在自家平台和xAI合作线上。这些工具都等于把每一次猜测交到别人的基础设施上。Mellum 2则全部开源权重，想怎么部署就怎么部署，对于有空气隔离需求的组织、需要严格核算大模型推理成本的团队来说，控制权这个事从来没有“过时”一说。

JetBrains这笔押注很直白：当AI嵌进工程工作流的每一层，部署的灵活度和运维的自主权只会越来越重，而不是越来越轻。最早的Mellum曾只是藏在IDE里做代码补全的40亿参数小模型，2024年底以专有形式发布，2025年4月才开源到Apache 2.0。而Mellum 2这次一上来就开源，一下子从“写完下一行代码”跳到了“帮你管好整个AI流水线”的角色里。对于正在评估工具怎么落地的你来说，这个模型至少提供了一个明确的选项——自己握着推理开关，总比永远仰赖外部应用程序接口多一分踏实。