品玩10月14日讯,据 Arxiv 页面显示,苹果近日发布多模态大模型 MM1.5,旨在增强对文本丰富的图像的理解、视觉指代和接地,以及多图像推理的能力。

据悉, MM1.5在在 MM1 架构的基础上训练而成,MM1.5 采用了以数据为中心的模型训练方法,在整个模型训练生命周期中系统地探索各种数据混合物的影响。其中包括用于持续预训练的高质量 OCR 数据和合成字幕,以及用于监督微调的优化视觉指令调整数据混合物。

MM1.5 的模型参数范围从 1B 到 30B,包括密集型和专家混合型(MoE)变体,并证明了精心的数据整理和训练策略即使在小范围内也能产生强大的性能(1B 和 3B)。

打开网易新闻 查看精彩图片