「Dense means all 128 billion parameters get loaded and activated for every token generated.」Mistral在模型卡里的这句话,道破了Medium 3.5最反直觉的设计选择。

当DeepSeek、Qwen甚至Mistral自己都在把顶尖模型推向混合专家架构(MoE,即每次只激活部分参数)时,这家法国公司的新旗舰却回头拥抱了"密集模型"——一个1280亿参数全部在线、全部激活的怪兽。这不像2025年的行业主流,更像是一场刻意的逆行。

打开网易新闻 查看精彩图片

密集模型的"笨办法"与隐藏逻辑

先看代价。Medium 3.5的推理成本远高于同门兄弟:Mistral Large 3用MoE架构,总参数6750亿但每次只激活410亿;Small 4更极端,1190亿参数中仅激活60亿。竞争对手的顶尖模型也在走这条路——MoE能以更低成本逼近同等质量。

密集模型的代价是真实的。Mistral承认,四块GPU才能自托管这个模型,这基本把个人开发者和中小团队挡在门外。但好处同样直白:架构简单,生产环境更稳定,更重要的是——它能被塞进一个统一产品里。

Medium 3.5把聊天、推理、代码生成三类能力压进单一权重文件。过去,Mistral需要Medium 3.1管聊天、Magistral管推理、Devstral 2管编程,现在一个模型全包。这不是技术炫技,是产品层面的减法:用户不需要在三个模型之间切换,开发者不需要维护三条推理管线。

推理能力的集成方式也很克制。没有单独的"推理模型",只有一个reasoning_effort参数——调低是快速回复,调高是深度思考。这种设计把选择权交给调用方,而非强迫用户为简单问题支付推理溢价。

视觉编码器的从头训练

Mistral还重新训练了视觉编码器,目标是处理可变尺寸和宽高比的图像。这个细节容易被忽略,但它指向一个具体痛点:多模态模型常被固定输入尺寸限制,实际应用中图片裁剪、填充、变形是常态。从头训练而非微调现有编码器,意味着Mistral愿意为特定场景承担更高 upfront 成本。

基准测试数字:SWE-Bench Verified 77.6%,T3-Telecom 91.4%。前者测代码能力,后者测电信领域专业知识。Mistral用这两个数字证明Medium 3.5能同时服务通用开发者和垂直行业客户。

许可证变脸:从Apache 2.0到"修改版MIT"

权重已上架Hugging Face,但许可证换了。不再是Mistral Large 3和Small 4采用的Apache 2.0,而是"Modified MIT License"——允许商业和非商业使用,但对高收入公司保留例外条款。

这是一个微妙的转向。Apache 2.0是开源世界的黄金标准,几乎不设限制;修改版MIT则为企业用户埋下谈判空间。Mistral没有解释具体阈值,但条款结构暗示:小公司可以免费使用,大公司需要谈授权。

API定价随之公布:输入150万美元/百万token,输出750万美元/百万token。这个价位卡在中间地带——比GPT-4o便宜,比DeepSeek贵,与自家Large 3的API定价策略形成区隔。

Vibe的云端代理:比模型更重要的发布?

Mistral自己可能更在意第二项发布。编程工具Vibe正在加入异步云端代理——不是本地运行,而是多个实例在云端并行工作,无需开发者实时盯守。

关键设计:本地会话可以完整迁移到云端,包括历史记录、任务状态、已批准的变更。每个代理跑在隔离沙箱里,完成后直接开Pull Request。集成列表很长:GitHub、Linear、Jira、Sentry、Slack、Teams。

Mistral列出的典型场景很务实:模块重构、测试生成、依赖升级、Bug修复。这些都是开发流程中的"背景噪音"——必要但消耗注意力。把这类工作丢给无人值守的代理,指向一个明确的产品假设:开发者愿意为"减少上下文切换"付费,哪怕代理的代码质量略低于人类。

这里有一个容易被低估的技术细节。异步云端代理意味着状态管理、容错、权限控制都要重做。本地IDE插件和云端容器之间的无缝迁移,需要解决会话序列化、网络中断恢复、部分失败回滚等问题。Mistral选择先啃这块硬骨头,而非继续堆模型参数,说明其产品优先级正在从"更强的模型"转向"更顺的工作流"。

Le Chat的新代理模式

同一天,Le Chat获得"代理模式"升级。这是Mistral的C端产品,此前以免费、无登录、响应快为卖点。代理模式的加入让它从"更好的聊天机器人"向"能执行任务的助手"滑动。

三个产品线的联动逐渐清晰:Le Chat面向普通用户,Vibe面向开发者,Medium 3.5作为底层引擎同时服务两者。这种架构和OpenAI的ChatGPT/ChatGPT Enterprise/底层模型分层类似,但Mistral的差异化在于自托管选项——企业可以把Medium 3.5跑在自己的四卡服务器上,数据不出境。

密集模型的真实代价与防御价值

回到那个反直觉的选择:为什么偏偏是密集模型?

一个可能的解释是供应链防御。MoE依赖特定的专家路由优化,和底层GPU集群的拓扑结构强耦合。如果Mistral的客户遍布不同云服务商、不同硬件配置,密集模型的"即插即用"反而降低部署摩擦。1280亿参数虽然沉重,但行为可预测,不会因为专家负载不均而出现延迟抖动。

另一个角度是竞争差异化。当所有人都在追逐MoE的推理效率时,密集模型成为稀缺品。对于需要确定性延迟、不愿调试路由策略的企业客户,Medium 3.5提供了一个"不折腾"的选项。

代价是真实的:Mistral承认四卡自托管门槛,API定价也反映了推理成本。但这家公司似乎押注——在模型能力趋同的2025年,"简单可靠"本身会成为购买理由。

法国AI的国家叙事与商业现实

Mistral的发布时机值得注意。欧洲AI监管框架逐渐落地,法国政府正推动"数字主权"叙事。一家法国公司能提供完全自托管的顶尖模型,无论对政府机构还是受监管行业,都是合规层面的加分项。

但商业现实更复杂。修改版MIT许可证中的高收入例外,说明Mistral需要在"开源光环"和"企业收入"之间走钢丝。完全开源能赢得开发者好感,却可能让云厂商白嫖;完全闭源则失去生态杠杆。当前条款试图两头兼顾,但具体执行中的摩擦尚未显现。

Vibe的云端代理同样面临信任考验。让代码代理在无监督状态下访问生产仓库、提交变更,需要突破组织的安全审批流程。Mistral的集成列表覆盖主流工具链是第一步,真正的挑战是让安全团队相信"沙箱隔离"足够可靠。

产品哲学的收敛与分野

把Medium 3.5和Vibe的更新放在一起看,Mistral的产品哲学正在收敛:模型层做减法(统一架构、统一权重),应用层做加法(更多集成、更多自动化)。这与行业另一趋势形成对照——有些厂商在模型层不断细分(聊天版、推理版、代码版、多模态版),应用层却保持轻量。

两种路径没有绝对优劣,但反映了不同的客户假设。Mistral似乎在押注:企业客户更讨厌"选择哪个模型"的决策负担,而非"为不需要的能力付费"的成本负担。当模型调用成本持续下降,决策摩擦的权重可能上升。

Le Chat的代理模式则是C端的平行实验。如果普通用户能接受"先描述目标、再等待执行"的交互范式,Mistral就在消费端也跑通了"模型即基础设施"的逻辑。这比技术演示更有价值——它测试的是用户心智,而非模型能力。

一个尚未回答的问题是:当OpenAI、Anthropic、Google都在推进类似的代理能力时,Mistral的"欧洲出身"和"自托管选项"能构成多强的差异化?许可证条款的模糊空间、四卡服务器的硬件门槛、云端代理的安全审计,都是决定这套产品组合能否从"有趣"走向"必需"的关键变量。