如果你所在的团队因为合规要求,所有代码都不能流出公司机房,那些火热的云端AI编程助手就一下子全成了摆设。JetBrains本周把Mellum 2放上了Apache 2.0许可,目标明确指向这类场景——完全自托管,推理全程不经过任何外部应用程序接口。这款120亿参数模型被他们称为“焦点模型”,不做通用对话里的全能选手,只做工程师每天最频繁调用那些活:子代理调度、检索管线里的上下文压缩,还有高频补全。
JetBrains在官方博客里给了一个清晰的定位:“前沿模型会不断冲击极限,但实用的AI产品还需要‘焦点模型’——快速、专用,能高效吃掉高频任务。”这句话背后是一个刻意收窄的训练思路。他们没有去追赶百科全书式的覆盖,而是把训练数据集中倾斜到代码和开发者文档上。所以看基准跑分,Mellum 2在通用推理项目GPQA Diamond和MMLU-Redux上依旧打不过通义千问3.5-9B,但JetBrains自己大方承认了:“这个差距反映了一种刻意的取舍,我们选择的就是代码而不是通识。”对于想用AI接管软件工程流水线的团队来说,要的就是这种取舍。
模型架构走的是混合专家路线,120亿参数虽大,但每个令牌只激活25亿参数,在64个专家中动态路由子集。这让它在吞吐上玩出了很有意思的数据:单请求模式下,一张H100上每秒跑192个令牌,跟Qwen2.5-7B的193几乎持平;一旦压上并发负载,立刻比Qwen2.5-7B快出21%,比Qwen3-8B快79%。在EvalPlus基准上,思考增强版本冲到78.4%,把Qwen3.5-9B的71.8%和Seed-Coder-8B的73.8%都甩在了身后。JetBrains同时放出了两个变体:一个指令版给直接回答,一个思考版会显式产出推理链,盯的是多步骤、代智体类任务——性能跟速度的账,都在那摆着。
最打动合规敏感团队的一点还不是跑分,而是“不靠别人”。Claude Code虽然能在本地跑,但推理调用终归要回Anthropic的服务器;OpenAI Codex类似,Cursor的能耐也绑在自家平台和xAI合作线上。这些工具都等于把每一次猜测交到别人的基础设施上。Mellum 2则全部开源权重,想怎么部署就怎么部署,对于有空气隔离需求的组织、需要严格核算大模型推理成本的团队来说,控制权这个事从来没有“过时”一说。
JetBrains这笔押注很直白:当AI嵌进工程工作流的每一层,部署的灵活度和运维的自主权只会越来越重,而不是越来越轻。最早的Mellum曾只是藏在IDE里做代码补全的40亿参数小模型,2024年底以专有形式发布,2025年4月才开源到Apache 2.0。而Mellum 2这次一上来就开源,一下子从“写完下一行代码”跳到了“帮你管好整个AI流水线”的角色里。对于正在评估工具怎么落地的你来说,这个模型至少提供了一个明确的选项——自己握着推理开关,总比永远仰赖外部应用程序接口多一分踏实。
热门跟贴