Mistral对标ChatGPT全面升级le Chat，还祭出超大杯多模态模型|chat|模态模型

机器之心报道

编辑：蛋酱、陈陈

一觉醒来，Mistral AI 又发力了。

就在今天，Mistral AI 多模态家族迎来了第二位成员：一个名为 Pixtral Large 的超大杯基础模型。

这是一个基于 Mistral Large 2 构建、124B 开放权重的多模态模型，具备顶尖的图像理解能力 —— 能够看懂文档、图表和自然图像，同时保持 Mistral Large 2 领先的纯文本理解能力。

除了发布新模型，Mistral AI 还进一步升级了免费聊天机器人 le Chat，增加图像生成、网络搜索和交互式画布功能，全面对标 ChatGPT。

所有这些功能，统统以免费测试版的形式开放。

Mistral AI 的每一次更新，都会让整个 AI 社区兴奋起来。

有人感叹：「六个月前，开源模型和闭源模型之间的差距非常大。现在，最先进的人工智能正在迅速向任何想要使用它的人开放。」

到底有多强？

接下来，让我们看看发布细节吧。

开源多模态大模型 Pixtral Large

Pixtral Large 可根据 Mistral 研究许可证 (MRL) 用于研究和教育用途，同时根据 Mistral 商业许可证用于商业目的的实验、测试和生产。

Pixtral Large 前身是 2024 年夏季发布的 Mistral Large 2，以及 9 月份发布的首个多模态模型 Pixtral 12-B。关于将多模态模型扩展到 1240 亿参数的出发点，Mistral AI CEO 是这么说的：「我们越来越意识到，要创造最佳的 AI 体验，需要共同设计模型和产品界面。Pixtral 在训练时就考虑到了高影响力的前端应用，是一个很好的例子。」

Pixtral Large 包括一个 1230 亿参数解码器和一个 10 亿参数视觉编码器，使其在文本和视觉数据处理方面均表现出色。

Pixtral Large 上下文窗口为 128K，至少可以处理 30 张高分辨率图像或大约一本 300 页的书，这相当于领先的 OpenAI GPT 系列模型的能力。

在性能方面，该模型在包括 MathVista、DocVQA 和 VQAv2 在内的多种基准上展现出了最先进的性能，非常适合图表解释、文档分析和图像理解等任务。

具体而言，在 MathVista 基准上，Pixtral Large 实现了 69.4% 的准确率，优于所有其他模型。在 ChartQA 和 DocVQA 基准上， Pixtral Large 超越了 GPT-4o 和 Gemini-1.5 Pro。

Pixtral Large 在 MM-MT-Bench 上也展示了强有力的竞争力，优于 Claude-3.5 Sonnet（新版）、Gemini-1.5 Pro 和 GPT-4o（最新版）。

在图像理解方面，Pixtral Large 也表现优异。比如上传一份账单，询问该模型：「我买了咖啡和香肠，外加 18% 的小费。我该付多少钱？」

Pixtral Large 会非常有条理地给出总消费金额，先是计算了咖啡和香肠的费用，2 杯拿铁玛奇朵、 1 份香肠，然后计算 18% 的小费，最后给出总金额。

Pixtral Large 也能准确理解并分析图表。比如对于下面的训练损失曲线图，问 dark dragon 模型什么时候开始出现问题。

Pixtral Large 分析的也很准确：「在达到 10,000 step 时，训练损失开始出现不稳定…… 随后，这种不稳定性持续存在，并在 20,000step 附近出现了另一个大的峰值……」

在接下来的示例中，上传一张图片，问 Pixtral Large 哪些公司使用 Mistral AI 模型？

Pixtral Large 也能根据图片提供的信息给出准确的结果，回答过程如下。

除了 Pixtral Large，Mistral AI 最先进的文本模型 Mistral Large 也迎来了一次更新。该模型在 API 上以 pixtral-large-latest 的形式提供，在 HuggingFace 上以 Mistral Large 24.11 的形式提供。

Mistral Large 24.11 将首先在 Google Cloud 和 Microsoft Azure 上推出，预计一周内即可使用。

模型和权重下载地址：https://huggingface.co/mistralai/Pixtral-Large-Instruct-2411/tree/main
试用地址：https://chat.mistral.ai/chat

对标 ChatGPT 大升级

le Chat 已经强得可怕

Pixtral Large 的发布，也让 le Chat 的能力上升到了一个新的高度。

le Chat 现在可以处理大型、复杂的 PDF 文档和图像，比如一篇理论文献的所有内容 —— 图形、表格、图表、文本、公式、方程式。

下面的例子展示了爱因斯坦、波多尔西和罗森于 1935 年撰写的著名量子纠缠论文的信息提取、总结和语义理解。

视频链接：https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650943579&idx=2&sn=a6f5715b7bfa1f38c178e31547bbb34a&chksm=84e7f425b3907d3319a8b2a96dee06329dfa09c73555aa715b768c582ee5fb44f59154465acf&token=933530197&lang=zh_CN#rd

此外还有两项新能力登陆 le Chat：

首先是实时的网络搜索。这是一项关于生产力的升级，Mistral AI 表示，le Chat 的大部分用户来自学生和专业人士，而这些用户非常看重其在学习、研究和工作中的作用。

下面是一位营销类专业人士使用 le Chat 来评估医疗保健人工智能市场：