苹果发布有关新“MM1”AI模型的详细信息

爱活网Evolife

2024-03-19 00:01 ·北京

苹果公司的研究人员开发了新颖的大型语言模型（LLMs）训练方式，完美结合了文字和视觉信息。该研究载于“MM1：多种模式下的大型语言模型预训练的方法、分析与洞察”的论文中，展示了构建更加智能化和灵活的AI系统的新途径。通过采用包含图像标题、有序图像文本文件以及只含文字数据的多样化数据集，Apple 声称 MM1 模型为 AI 执行图像标题、视觉问答和自然语言推理等任务的能力设定了新标准。

该研究专注于混合不同类型的训练数据和模型架构，使得AI能够同步理解和生成基于多种视觉和语言线索的语言。这对于需要深入了解世界的任务而言至关重要，比如解析复杂图像或解决包含视觉元素的问题。

论文同时强调了MM1模型的非凡上下文学习能力，尤其在该模型最大的300亿参数配置下更为显著。这个版本据称展示了多步骤推理超过多个图像的非凡能力，采用的是“连锁思维”提示的少数镜头技术，使AI可以根据最少的示例进行复杂的开放式问题解决。

此研究是苹果在激烈竞争下提升其AI能力更广泛举措的一部分。早些时候，彭博社的马克·格鲁曼指出，苹果正在与谷歌讨论许可谷歌的Gemini生成式大型语言模型，作为iOS 18的一部分，以支持iPhone的新功能。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴