哈喽大家好,今天老张带大家聊聊最近AI圈的瓜有点意思,欧洲那匹叫Mistral AI的独角兽,憋了大半年终于放大招——推出新一代Mistral 3系列模型。本以为是欧洲AI扬眉吐气的时刻,结果呢?一盆冷水直接浇了下来。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

定位刁钻

先说说这家公司的家底,总部在法国,拿过英伟达三轮投资,现在估值直奔135亿美元,妥妥是欧洲AI圈的牌面。

按常理,新模型该去跟OpenAI的GPT-5.1、谷歌的Gemini 3掰掰手腕,结果它偏不——枪口直接对准了咱们中国的DeepSeek-V3.1和Kimi-K2。

打开网易新闻 查看精彩图片

你说这波操作迷不迷?后来琢磨琢磨也懂了,现在AI开源赛道早不是美国一家独大,咱们的DeepSeek、Qwen靠着性价比和更新速度,圈了一大波全球开发者粉。

Mistral这是想“避强击弱”,主打一个“我参数量才Kimi的一半,性能却能跟你打平”,以此证明欧洲AI的实力。可这算盘打得再响,也得有硬实力撑着,不然就是搬起石头砸自己的脚

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

冰火两重天

最先掉链子的就是系列里的“大哥”——旗舰模型Mistral Large 3。你猜参数多夸张?总参数量飙到675B,活跃参数也有41B,还是Mistral自2023年底以来首款开放权重的混合专家模型,本应是全场焦点。

打开网易新闻 查看精彩图片

可跑分一出来就露怯了:MMMLU考了85.5分,AMC拿了52.0分,比DeepSeek-V3.1略强一点;但到了程序员最看重的LiveCodeBench和SimpleQA测试,直接被Kimi-K2按在地上打,输赢各半的成绩,实在说不上亮眼。

打开网易新闻 查看精彩图片

更要命的是实际用起来的糟心体验:工具调用总出岔子,要么格式错得离谱,要么吐一堆无效指令,图像测试也平平无奇。

有科技博主直接在社交平台开喷,列了它三大罪状——智能不如DeepSeek,价格却是人家3倍,推理速度比GPT-5还慢,末了甩下一句“Mistral这是在缓慢死亡”。

打开网易新闻 查看精彩图片

这话真不是空口黑,数据摆在那儿:Artificial Analysis最新的AI指数榜里,它才得38分,跟第一梯队Gemini 3 Pro(73分)、Claude Opus 4.5(70分)、GPT-5.1(70分)差了快一倍,说是“断层差距”都不夸张。

打开网易新闻 查看精彩图片

就算在LMArena榜单排到开源非推理模型第二、总榜第六,也远没到能“屠榜”的程度。

不过,这出戏也不是全是糟心事儿,谁能想到,救场的居然是系列里的小模型Ministral 3。三款分别是3B、8B、14B参数的模型,硬是把“性价比”三个字玩明白了。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

处境尴尬

不管参数大小,基础版、指令版、推理版全都给配齐,还自带图像理解能力,再也不是“AI睁眼瞎”。

最关键的是,它们全基于Apache 2.0许可证开源——这意味着企业和开发者能免费商用,还能随便改,14B推理版在AIME’25测试里准确率飙到85%,说它是当前开源模型里的性价比之王,真不算吹。

打开网易新闻 查看精彩图片

Mistral这波明显是把劲儿使错了地方,把资源全堆给旗舰模型做“噱头”,反倒忽略了用户最需要的实用体验。

客观讲,Mistral 3系列确实有进步,至少证明欧洲还有能跟上中国开源模型脚步的企业,但问题也摆得明明白白:它至今没推出推理器,实际性能本就落后主流;现在DeepSeek又把价格压得极低,AI用户要么要极致智能,要么要极致便宜,卡在中间的Mistral,可不就尴尬了?

打开网易新闻 查看精彩图片

想真当上“欧洲之光”,它得赶紧做选择题:要么把旗舰模型的技术短板补上,要么深耕小模型赛道把优势焊死。

总在中间晃悠,迟早被市场淘汰。至于最后能不能翻盘,就得看它下一轮迭代能不能拿出真东西了。

打开网易新闻 查看精彩图片