ahhhhhhhhhh~~~

面壁发了个很有趣的模型MiniCPM-V 4.5

把视觉模型... 卷到了一个非常别致,但实用的地方

高刷

高刷:直观比较

左侧高刷,右侧低刷

打开网易新闻 查看精彩图片

猫猫来自...b站up「咪猫胖啊」,猫猫可爱

MiniCPM-V 4.5 眼中,是左侧

10fps,画面流畅,猫猫可爱

其他大模型眼中,是右侧

1fps,画面跳跃,猫猫可爱

以及...问就是

1帧能玩,2帧流畅,3帧电竞,10帧..绝对是高刷

下面...让我更系统的来说说这个「高刷」

「首款通用排版 Agent」呈现 (建议电脑看)

GitHub:

https://github.com/OpenBMB/MiniCPM-o

MiniCPM-V 4.5

面壁 · 开源新旗舰

8B参数,性能越级超越72B,堪称最强端侧多模态

首个高刷「鹰眼级」模型,看得准、看得快、看得长!

鹰眼视觉

30B以下最强多模态

单图理解领先GPT-4o

视频理解超越Qwen-VL

文档解析同级最佳

端侧友好极致能效

模型亮点一览

首个高刷模型

首个「高刷视频理解」多模态模型,兼顾性能与效率

同等视觉token开销下,可接收6倍视频帧数,达到96倍视觉压缩率,是同类模型的12-24倍

在MotionBench、FavorBench榜单中达到同尺寸SOTA,超越Qwen2.5-VL 72B

最强多模态

30B以下最强多模态,多项能力越级领先

图片理解(OpenCompass)领先GPT-4o、Gemini-2.0-Pro等闭源模型;长视频、OCR、文档解析等能力均达到同级SOTA,并超越Qwen2.5-VL 72B

端侧友好

极致推理性价比,最佳推理效率

显存占用、平均推理时间等优势显著,采用3帧打包策略推理,时间开销(未计抽帧)仅为同级模型的1/10

可控推理

支持长思考、短思考可控混合推理

常规模式提供出色多模态理解能力,深度思考模式专注复杂与复合型推理任务,实现性能与响应速度的有效平衡

从“看PPT”到“理解动态画面”

此前,主流多模态模型通常采取 1fps 抽帧,缺失了绝大部分视觉信息。MiniCPM-V 4.5 将视觉能力从 1fps 升级到 10fps,通过显著增加抽帧频次,瞬间捕捉,洞见细节,面对一闪而过的画面,比顶尖云端模型,如 GPT/Gemini,看得更准、更细

 面壁 MiniCPM-V 4.5 发布:「高刷」多模态
打开网易新闻 查看更多视频
面壁 MiniCPM-V 4.5 发布:「高刷」多模态

在体现高刷视频理解能力的 MotionBench、FavorBench 两项榜单中,MiniCPM-V 4.5 达到同尺寸 SOTA,且超过 Qwen2.5-VL 72B,实现越级领先

打开网易新闻 查看精彩图片

全能多模态SOTA表现

图片理解性能

在 OpenCompass 测评中,领先 GPT-4o、GPT-4.1、Gemini-2.0-Pro 等众多闭源模型 ,甚至超过 Qwen2.5-VL 72B,实现越级领先

打开网易新闻 查看精彩图片

视频理解性能

在 LVBench、MLVU、Video-MME 等榜单中,均达到同级最佳水平

打开网易新闻 查看精彩图片

复杂文档识别

在 OmniDocBench 榜单的 OverallEdit、TextEdit、TableEdit 三项指标上,均取得了通用多模态模型同级别的 SOTA 表现

打开网易新闻 查看精彩图片

极致推理性价比

在覆盖短、中、长三种类型的视频理解评测集 Video-MME 上,MiniCPM-V 4.5 采用 3 帧打包策略进行推理,时间开销(未计算模型抽帧时间)仅为同级模型的 1/10

打开网易新闻 查看精彩图片

核心技术解析

3D-Resampler:高密度视频压缩

为解决性能和效率的权衡,MiniCPM-V 4.5 将模型结构从 2D-Resampler 拓展为 3D-Resampler。视频按每N帧分组,3D-Resampler 对每个视频组进行高密度压缩编码,得到固定数量的视觉token。在推理开销不变的情况下,实现最大10fps的高刷视频理解能力

统一OCR与知识推理学习

通过连续控制图像中「文字信息可见度」(即对文字框区域施加不同程度的噪音),首次实现 OCR 和知识学习两种范式的有效融合。模型可根据噪音程度,在OCR、知识学习、混合能力学习之间无缝切换,低成本实现领先的 OCR 和多模态知识能力

通用域混合推理强化学习

提出混合推理的强化学习方案,在训练中同时激活常规和深度思考模式,实现在相同训练时长下,常规模式性能显著增强,深度思考模式性能保持。最终通过轻量化的 RLAIF-V 训练,模型在保持推理能力的同时显著降低了幻觉

开源社区传送门

Github

https://github.com/OpenBMB/MiniCPM-o

Hugging Face

https://huggingface.co/openbmb/MiniCPM-V-4_5

ModelScope

https://www.modelscope.cn/models/OpenBMB/MiniCPM-V-4_5

以及...更多的场景演示

 面壁 MiniCPM-V 4.5 发布:「高刷」多模态
打开网易新闻 查看更多视频
面壁 MiniCPM-V 4.5 发布:「高刷」多模态