打开网易新闻 查看精彩图片

新智元报道

编辑:桃子 好困

【新智元导读】一条磁力链,又在AI圈掀起狂澜。成立一年法国AI独角兽Mistral,官宣首个多模态模型Pixtral 12B,不仅能看懂手绘稿,还可以理解复杂公式、图表。

法国AI初创Mistral AI,又扔出一条磁力链炸场了。

打开网易新闻 查看精彩图片

这次,与以往不同的是,他们发布了首个多模态模型Pixtral 12B,集语言、视觉能力于一身。

打开网易新闻 查看精彩图片

这意味着,Mistral AI正式跨界MMML,开启多模态AI新时代,同时向OpenAI、Anthropic等劲敌发起挑战。

多模态Pixtral 12B,是基于文本模型Nemo 12B完成训练。

与GPT-4o、Claude类似,只需上传一张图、提供一个链接,模型就能根据提示回答问题。

它不仅能够识别复杂手写笔记,还能看懂数学公式、图表等等。

在多项基准测试(文本、指令跟随、多模态)中,新模型性能大幅超越Qwen2 7B、Phi-3 Vision开源模型。

打开网易新闻 查看精彩图片

Hugging Face技术负责人发现此处列举的Qwen的数据问题很大

相较于闭源模型,Pixtral 12B在图表问答、文档问答、视觉数学推理、大学水平多学科等基准中,性能碾压Claude3 Haiku、Gemini 1.5 8B。

打开网易新闻 查看精彩图片

除了大约24GB的磁力链,模型代码还可在HuggingFace、GitHub下载。(由社区开发者上传)

打开网易新闻 查看精彩图片

地址:https://huggingface.co/mistral-community/pixtral-12b-240910

值得一提的是,Mistral AI现场还请来了老黄坐镇。

打开网易新闻 查看精彩图片

手绘稿直出代码,现场Demo惊艳

Mistral AI在旧金山举办的首届AI峰会上,初次展示了Pixtral 12B的多模态能力。

打开网易新闻 查看精彩图片

现场,足以用震撼形容。

让它将一份科学报告转录为Markdown格式,可以看到图片中,包含了许多复杂的数学符号,还有公式。

Pixtral 12B通过OCR能力,精准地识别出所有的内容。

打开网易新闻 查看精彩图片

再来一个更复杂的手写稿,别说AI了,小编也有些看不清写的什么字。

没想到,这也难不倒它。

打开网易新闻 查看精彩图片

给它扔一张关于美国「风险投资交易密度分布」的图表,并将其总结成一份表。

模型以不同州/城市,以及交易数量、区位商(LQ),列出了非常清晰的表格。

打开网易新闻 查看精彩图片

再来看看,它如何去描述一张图像的。

上传一张风景图,然后询问「我们可以从中看到什么」?

Pixtral 12B先从各种动物近景描述,再延伸到背后建筑、基础设施,以及大树、天空云彩等。

整个讲述的过程,非常有逻辑。

打开网易新闻 查看精彩图片

在复杂图表方面,Pixtral 12B理解力也是一绝。

上传一张全球不同国家GDP图片,让它给出欧洲中GDP最高的5个国家。

模型根据绿色欧洲区域,总结给出了相应的答案。

打开网易新闻 查看精彩图片

不仅如此,它还可以解释科学报告中,图表中DNA结构的具体含义。

打开网易新闻 查看精彩图片

想要搭建一个网页,手绘一张草稿,传给模型。

它能看着图直出代码,一个网页HTML的设计分分钟就搞定了。

打开网易新闻 查看精彩图片

又或是,当你遇到一道数学推理难题,拍好照片上传给Pixtral 12B,便会得到解题步骤和答案。

打开网易新闻 查看精彩图片

外出餐饮小票,它也可以将其中信息提取成JSON格式。

打开网易新闻 查看精彩图片

这样一通看下来,一个120亿参数的小模型,竟具备了如此强大的图像识别、文本理解能力。

那么,它是如何训练而来?背后架构是什么?

模型架构

现场的介绍中,Pixtral 12B的架构如下图所示。

它包含了一个多模态Transformer解码器,还有视觉Transformer编码器,能够理解原生的图像和文档。

打开网易新闻 查看精彩图片

正如开头所述,新模型是基于Nemo 12B完成搭建,关于训练数据目前仍在保密中。

开发者关系主管Sophia Yang表示,「Pixtral 12B独特之处在于,能够原生支持任意数量、大小的图像」。

打开网易新闻 查看精彩图片

它能够快速处理小图像,还可以精准处理真实世界和高分辨率的图像。而且,扔出一个图文混杂的大型文档,也能信手拈来。

打开网易新闻 查看精彩图片

Pixtral 12B的上下文长度为128k。

打开网易新闻 查看精彩图片

根据初始测试者的分享,这个24GB模型架构共有40层,14336个隐藏维度,32个注意力头,用于广泛的计算处理。

打开网易新闻 查看精彩图片

在视觉方面,它还有一个专用的视觉编码器,可支持1024×1024图像分辨率,以及24个隐藏层用于高级图像处理。

打开网易新闻 查看精彩图片

然而,当Mistral最终通过API提供该模型时,可能会有所改变。

就性能来说,Pixtral 12B在多模态知识和推理基准(MMMU、MathVista)、多模态问答基准(ChatQA、DocVQA、VQAv2)上,完全碾压当前领先的同等参数的模型。

比如,Qwen2-VL、LLaVA-OV、Phi-3 Vision等。

打开网易新闻 查看精彩图片

而在指令跟随(多模态、文本)、文本理解(科学、数学、代码)基准上,Pixtral 12B表现也非常出色。

打开网易新闻 查看精彩图片

或许多模态模型对于我们来说,屡见不鲜,但Pixtral 12B对于Mistral来说是开创历史。

自去年成立以来,Mistral凭借开源媲美OpenAI等领先实验室大模型,一路走红得到AI社区的认可。

打开网易新闻 查看精彩图片

几个月前,它以60亿美金估值,完成6.4亿美元新一轮融资,并随之推出了一款GPT-4级别的模型——Mistral Large 2。

此外,他们在今年,还推出了一个专家混合模型Mixtral 8x22B,包含了一个编码模型Codestral,以及一个数学推理和科学发现的模型。

打开网易新闻 查看精彩图片

Mistral或许有实力,成为下一个OpenAI。

穿上皮夹克,和老黄炉边谈话

更让人惊喜的是,大会现场,还上演了经典「皮夹克帮」集结的一幕。

创始人Arthur Mensch穿上皮夹克和老黄坐在台前,开启了炉边谈话,一起探讨了未来AI和算力问题。

打开网易新闻 查看精彩图片

老黄表示,在英伟达,GPU的设计、性能、耗能等方面问题,仍将持续优化。

他们希望利用AI先去探索巨大设计空间的可能性,然后再进行收缩,最终专注于有前景的解决方案。

老黄还认为:推理在今天是一次性的,但在未来不会是这样。为了实现这一点,还需把推理速度提高到一个数量级。

因为,利用GPU做推理面临着显著的困难,英伟达90%的工程师都投在了推理,而非训练中。

 60亿AI独角兽Mistral祭出磁力链,首个多模态Pixtral 12B登场!但被大佬曝出评测造假
打开网易新闻 查看更多视频
60亿AI独角兽Mistral祭出磁力链,首个多模态Pixtral 12B登场!但被大佬曝出评测造假

当然,英伟达对推理技术架构的探索,仍在继续。老黄希望NVLink能够实现低延迟高吞吐量的推理设计。

对于AI未来的探索,老黄表示自己最喜欢的AI应用,便是创建数字人。

他希望,未来公司会有数百万个智能体数字员工,可以自主相互交流,运营业务。

打开网易新闻 查看精彩图片

此外,他还讨论了英伟达在「类人机器人」领域的大量工作。

而它的发展,受到了老黄所言的「3台计算机问题」的瓶颈制约——

第一台用于训练多模态模型,第二台用于精确物理模拟和生成合成数据(NVIDIA Omniverse),第三台是机器人体内的计算机(即将推出的NVIDIA Thor)。

 60亿AI独角兽Mistral祭出磁力链,首个多模态Pixtral 12B登场!但被大佬曝出评测造假
打开网易新闻 查看更多视频
60亿AI独角兽Mistral祭出磁力链,首个多模态Pixtral 12B登场!但被大佬曝出评测造假

最后,老黄还回顾了英伟达历史,「在1993年成立之时,我们在GPU领域还没有竞争对手,到1994年有10个,1995年有50个,然后有100个,竞争对手迅速增加」。

在竞争这么激烈领域中,英伟达能够有所成,一定程度上,可以归咎于你所做的事情与做这些事情的原因不同。

英伟达是PC游戏行业的最大推动者,他们通过创建计算平台、生态系统来创造一个新市场,使之成为「家庭的一部分」。

他们最先在游戏领域做到了这一点,然后是科学计算,现在是AI。

 60亿AI独角兽Mistral祭出磁力链,首个多模态Pixtral 12B登场!但被大佬曝出评测造假
打开网易新闻 查看更多视频
60亿AI独角兽Mistral祭出磁力链,首个多模态Pixtral 12B登场!但被大佬曝出评测造假

大佬发现「华点」:又来一个评测造假的?

前两天,所谓的「开源新王」Reflection 70B才刚刚深陷Benchmark造假争议。

如今,相似的剧情再次上演。

打开网易新闻 查看精彩图片

随着峰会现场的照片大范围流出,Hugging Face技术负责人Philipp Schmid也在第一时间发现,Mistral AI放出的跑分和Qwen 2 VL 7B的官方数据大相径庭。

打开网易新闻 查看精彩图片

把数据补全到柱状图中后可以看道,Pixtral 12B在多项评测中的成绩都明显不如Qwen 2 VL 7B。

打开网易新闻 查看精彩图片

也就是说,Mistral AI的首个多模态模型,被一个参数量小了近42%的模型,吊打了!

打开网易新闻 查看精彩图片

此外,还有网友指出,别说数据有问题,他们连模型的名字好像都没写对……

打开网易新闻 查看精彩图片

参考资料:

https://venturebeat.com/ai/pixtral-12b-is-here-mistral-releases-its-first-ever-multimodal-ai-model/

https://x.com/_philschmid/status/1833954941624615151

https://x.com/swyx/status/1833926630861070359