开源大模型赛道突然热闹起来了。Mistral刚刚放出新旗舰Medium 3.5,128B参数、256K上下文窗口,直接把"长程Agent任务"写进了产品定义里。更关键的是,它带着开放权重回来了——修改版MIT许可证,四张GPU就能私有化部署。
这家法国实验室过去一段时间确实低调。没发新品,没刷榜,原来是在憋这个:一个把指令遵循、推理、编码三种能力"熔"进同一组权重的模型。不是MoE架构,是实打实的Dense模型。用户能调节推理强度——复杂重构时拉满,快速编辑时省电。
代码能力先看硬指标。SWE-Bench Verified得分77.6%,超过Devstral 2和Qwen3.5 397B A17B。视觉编码器从头训练,支持可变尺寸图像输入。这些数字背后是一个明确的产品判断:Agent工程不是附加功能,是核心场景。
定价层面,API输入$1.50/百万token,输出$7.50/百万token。作为对比,同级别的闭源模型通常贵出数倍。开放权重+可控成本,这套组合对需要数据不出境的企业很实在。
现在说落地。Kilo平台已经接入——这是Mistral选择的首发渠道之一。VS Code插件的模型切换器里能直接选它,终端CLI同样可用。但真正的差异化在云Agent基础设施:发起一个异步会话,模型自己跑完多工具链,回来就是成品分支或PR草稿。
官方强调的几个典型场景很有意思:模块重构、Issue分类、测试覆盖缺口、事故调查。这些任务的共同点是——耗时长、步骤多、容易断片。Medium 3.5的设计假设是:工程师应该能放心走开,而不是盯着进度条。
Mistral Vibe CLI和Le Chat已经把Medium 3.5设为默认模型。Kilo Gateway则提供更灵活的调用方式,单一登录跨端使用。KiloClaw工作流也开放了该模型选项,个人版和企业版都能接入。
一个值得注意的细节:这是Mistral首个"混合模型"(blended model)。不是技术路线的妥协,是对工程现实的承认——大多数用户不想在三个专用模型之间来回切换。一个权重文件,三种能力按需调用,配置成本降下来了。
开源社区会怎么接招?128B Dense的推理成本不算低,但四卡可跑已经比不少MoE方案友好。加上256K上下文,长文档分析、代码库级重构有了新选项。Agent赛道的模型选型,可能要从"谁API便宜"转向"谁异步任务更稳"。
Mistral这次出牌,节奏和姿势都很清楚:不追参数军备,不做封闭生态,把"工程师真正每天做的事"做成产品定义。能不能成,看接下来三个月的社区反馈。但至少,开源阵营又有了一个能打的旗舰。
热门跟贴