苹果公司的研究人员开发了新颖的大型语言模型(LLMs)训练方式,完美结合了文字和视觉信息。该研究载于“MM1:多种模式下的大型语言模型预训练的方法、分析与洞察”的论文中,展示了构建更加智能化和灵活的AI系统的新途径。通过采用包含图像标题、有序图像文本文件以及只含文字数据的多样化数据集,Apple 声称 MM1 模型为 AI 执行图像标题、视觉问答和自然语言推理等任务的能力设定了新标准。

打开网易新闻 查看精彩图片

该研究专注于混合不同类型的训练数据和模型架构,使得AI能够同步理解和生成基于多种视觉和语言线索的语言。这对于需要深入了解世界的任务而言至关重要,比如解析复杂图像或解决包含视觉元素的问题。

论文同时强调了MM1模型的非凡上下文学习能力,尤其在该模型最大的300亿参数配置下更为显著。这个版本据称展示了多步骤推理超过多个图像的非凡能力,采用的是“连锁思维”提示的少数镜头技术,使AI可以根据最少的示例进行复杂的开放式问题解决。

此研究是苹果在激烈竞争下提升其AI能力更广泛举措的一部分。早些时候,彭博社的马克·格鲁曼指出,苹果正在与谷歌讨论许可谷歌的Gemini生成式大型语言模型,作为iOS 18的一部分,以支持iPhone的新功能。