打开网易新闻 查看精彩图片

苹果与OpenAI的合作只有两个,一是Siri,二是写作工具,其他AI能力都是由苹果自研大模型提供。

苹果将其大模型命名为——Apple Intelligence,是深度集成到iOS 18、iPadOS 18和macOS Sequoia中的个人智能系统

Apple Intelligence 由多个自研的生成模型组成,专门用于用户的日常任务,并可以根据用户的当前活动进行动态调整。

在苹果WWDC大会上,苹果详细介绍了其中两个模型——一个约 30 亿参数的设备模型(端侧模型),以及一个更大的基于服务器的语言模型(云端模型),该模型可通过基于Apple silicon服务器的私有云计算上运行。

苹果的设备模型优于包括 Phi-3-mini、Mistral-7B 和 Gemma-7B 在内的大型模型,苹果的服务器模型与 DBRX-Instruct、Mixtral-8x22B 和 GPT-3.5-Turbo 相比毫不逊色,而且效率很高。

苹果的私有云计算模型更侧重于数据隐私安全保护,采用定制的 Apple 芯片和专为隐私设计的强化操作系统构建——没有用英伟达的GPU,而是基于苹果自研的Apple silicon芯片做推理。


苹果透露,接下来还会分享更多的模型信息,包括一个编码模型,用于在Xcode中构建智能;以及一个扩散模型,帮助用户在Messages等应用中视觉化地表达自己。

打开网易新闻 查看精彩图片

图一:Apple 基础模型的建模概述。

除此之外,苹果在4月低调发布了大模型论文,它被称为“Ferret-UI”,这是一种多模式视觉语言模型,可以理解 iOS 手机屏幕上的图标、小部件和文本,并推断它们的空间关系和功能含义。

打开网易新闻 查看精彩图片

每个人都期待着今天的 WWDC 上 Siri 的重生。其实,苹果已经发表了一篇关于它的论文,披露的细节比我们对苹果的预期要多得多。它被称为“Ferret-UI”,这是一种多模式视觉语言模型,可以理解 iOS 手机屏幕上的图标、小部件和文本,并推断它们的空间关系和功能含义。

您可以向 Ferret-UI 询问的示例问题:

- 提供此截图的摘要;

- 对于交互元素 [bbox],提供最能描述其功能的短语;

- 预测UI元素[bbox]是否可点击。

凭借强大的屏幕理解能力,向模型添加动作输出并使其成为成熟的设备助手并不难。

论文甚至谈到了数据集和 iOS UI 基准测试构建的细节。苹果的开放程度真是非同寻常!他们确实在重新定义他们的 AI 研究分支。

这篇论文于 4 月悄然发布,没有太多公关宣传。在 WWDC 之前,你还有足够的时间热身:https://arxiv.org/abs/2404.05719

以下是苹果自研大模型的细节:

预训练

苹果的基础模型是在Apple 的 AXLearn 框架上训练的,这是 2023 年发布的一个开源项目。它建立在 JAX 和 XLA 之上,能够在各种训练硬件和云平台上高效且可扩展地训练模型,包括 TPU 以及云和本地 GPU。苹果结合使用数据并行、张量并行、序列并行和完全分片数据并行 (FSDP) 来沿数据、模型和序列长度等多个维度扩展训练。

苹果利用授权数据训练基础模型,包括为增强特定功能而选择的数据,以及网络爬虫 AppleBot 收集的公开数据。网络出版商可以通过数据使用控制选择不将其网络内容用于 Apple Intelligence 训练。

苹果表示在训练基础模型时绝不会使用用户的私人个人数据或用户互动,并且会应用过滤器来删除网络上公开的个人身份信息,例如社保号和信用卡号。苹果还会过滤脏话和其他低质量内容,以防止将其纳入训练语料库。除了过滤之外,苹果还执行数据提取、重复数据删除和基于模型的分类器的应用,以识别高质量文档。

后训练Post-Training

苹果发现数据质量对于模型成功至关重要,因此在训练流程中采用了混合数据策略,结合了人工注释数据和合成数据,并进行了彻底的数据管理和过滤程序。苹果在Post-Training开发了两种新算法:(1) 带有教师委员会的拒绝抽样微调算法,以及 (2) 带有镜像下降策略优化和留一优势估计器的强化学习人工反馈 (RLHF) 算法。 这两种算法可以显著提高模型的指令遵循质量。

优化

除了确保生成模型性能强大之外,苹果还采用了一系列创新技术,在设备和私有云上优化生成模型,以提高速度和效率。苹果针对第一个 token 和扩展 token 推理性能应用了一系列优化措施。

设备和服务器模型均使用分组查询注意机制(GQA)。苹果使用共享的输入和输出词汇嵌入表来降低内存需求和推理成本。这些共享的嵌入张量映射时不会出现重复。设备模型使用的词汇大小为 49K,而服务器模型使用的词汇大小为 100K,其中包括额外的语言和技术标记。

对于设备端推理,苹果使用低位托盘化,这是一项关键的优化技术,可满足必要的内存、功率和性能要求。为了保持模型质量,苹果使用 LoRA 适配器开发了一个新框架,该框架采用混合 2 位和 4 位配置策略(平均每个权重 3.5 位),以实现与未压缩模型相同的准确度。

此外,苹果使用交互式模型延迟和功率分析工具Talaria来更好地指导每个操作的比特率选择。苹果还利用激活量化和嵌入量化,并开发了一种方法,以便在神经引擎上实现高效的键值 (KV) 缓存更新。

通过这组优化,苹果在 iPhone 15 Pro 上能够实现每个 token 约 0.6 毫秒的首次 token 延迟,以及每秒 30 个 token 的生成率。值得注意的是,这一性能是在采用 token 推测技术之前实现的,从中可以看到 token 生成率的进一步提升。

模型适配

基础模型针对用户的日常活动进行了微调,并可以根据手头的任务动态地进行专门化。苹果利用适配器(可插入预训练模型各个层的小型神经网络模块)来针对特定任务微调模型。苹果调整了注意矩阵、注意投影矩阵和点式前馈网络中的全连接层,以适应 Transformer 架构的一组合适的解码层。

通过仅对适配器层进行微调,基础预训练模型的原始参数保持不变,保留模型的一般知识,同时定制适配器层以支持特定任务。

打开网易新闻 查看精彩图片

图2:适配器是覆盖在通用基础模型上的一小批模型权重。它们可以动态加载和交换,使基础模型能够针对手头的任务即时进行专门化。Apple Intelligence 包含一组广泛的适配器,每个适配器都针对特定功能进行了微调。这是扩展基础模型功能的有效方法。

苹果使用 16 位来表示适配器参数的值,对于约 30 亿个参数的设备模型,等级 16 适配器的参数通常需要数十兆字节。适配器模型可以动态加载、临时缓存在内存中并进行交换 - 使基础模型能够即时专门处理手头的任务,同时高效管理内存并保证操作系统的响应能力。

为了方便适配器的训练,苹果创建了一个高效的基础设施,能够在基础模型或训练数据更新时快速重新训练、测试和部署适配器。使用优化部分中介绍的准确度恢复适配器初始化适配器参数。

绩效与评估

在对模型进行基准测试时,苹果专注于人工评估,因为这些结果与用户在产品中的体验高度相关。苹果对特定功能的适配器和基础模型都进行了性能评估。

苹果是如何评估摘要适配器的?由于电子邮件和通知摘要的产品要求在细微但重要的方面有所不同,苹果在托盘化模型的基础上微调了准确度恢复低秩 (LoRA) 适配器以满足这些特定要求。苹果的训练数据基于从更大的服务器模型生成的合成摘要,并通过拒绝采样策略进行过滤,仅保留高质量的摘要。

为了评估特定于产品的摘要,苹果使用了一组针对每个用例精心采样的 750 个响应。这些评估数据集强调了苹果的产品功能在生产中可能面临的各种输入,并包括不同内容类型和长度的单个和堆叠文档的分层混合。作为产品功能,根据代表实际用例的数据集评估性能非常重要。与同类模型相比,带有适配器的模型可以生成更好的摘要。

作为负责任的开发的一部分,苹果识别并评估了摘要固有的特定风险。例如,摘要有时会以不良方式删除重要的细微差别或其他细节。但是,摘要适配器在超过 99% 的目标对抗示例中并未放大敏感内容。

打开网易新闻 查看精彩图片

图 3:两个摘要用例的“好”和“差”响应相对于所有响应的比例。根据评分者在五个维度上的得分,摘要被分为“好”、“中”、“差”。如果所有维度都很好(越高越好),则结果被归类为“好”。如果任何一个维度很差(越低越好),则结果被归类为“差”。苹果的带有适配器的模型比同类模型生成更好的摘要。

除了评估由基础模型和适配器驱动的特定功能性能外,苹果还评估基于设备和服务器的模型的一般功能。苹果利用一套全面的真实世界提示评估集来测试一般模型功能。这些提示在不同难度级别上各不相同,涵盖头脑风暴、分类、封闭式问答、编码、提取、数学推理、开放式问答、重写、安全、总结和写作等主要类别。

苹果将自己的模型与开源模型(Phi-3、Gemma、Mistral、DBRX)和同等规模的商业模型(GPT-3.5-Turbo、GPT-4-Turbo)进行了比较。与大多数同类竞争模型相比,苹果的模型更受人类评分者的青睐。

在这个基准测试中,苹果的设备模型(约 3B 个参数)优于包括 Phi-3-mini、Mistral-7B 和 Gemma-7B 在内的大型模型。苹果的服务器模型与 DBRX-Instruct、Mixtral-8x22B 和 GPT-3.5-Turbo 相比毫不逊色,而且效率很高。

打开网易新闻 查看精彩图片

图 4:Apple 基础模型与同类模型的并排评估中首选答案的比例。苹果的模型更受人类评分者的青睐。

苹果使用一组不同的对抗性提示来测试模型在有害内容、敏感主题和事实性方面的表现。根据人工评分员在此评估集上对每个模型的违规率进行评估,数值越低越好。设备和服务器模型在面对对抗性提示时都表现稳健,违规率低于开源和商业模型。

打开网易新闻 查看精彩图片

图 5:针对有害内容、敏感话题和事实的违规回应比例(越低越好)。我们的模型在面对对抗性提示时非常稳健。

与竞争对手的模型相比,苹果的模型在这些提示中更安全、更实用,因而受到人类评分者的青睐。苹果正在积极与内部和外部团队进行手动和自动红队测试,以继续评估模型的安全性。

打开网易新闻 查看精彩图片

图 6:Apple 基础模型与安全提示方面的同类模型的并排评估中首选响应的比例。人类评分员发现我们的响应更安全、更有帮助。

苹果使用指令遵循评估 (IFEval) 基准来将其指令遵循能力与同等规模的模型进行比较。结果表明,苹果的设备和服务器模型都比同等规模的开源和商业模型更好地遵循详细的指令。

打开网易新闻 查看精彩图片

图 7:Apple 基础模型和同等大小模型的指令跟踪能力(用 IFEval 测量)(越高越好)。

苹果根据内部摘要和写作基准(由各种写作说明组成)评估模型的写作能力。这些结果不涉及针对摘要的特定功能适配器(见图3),苹果也没有专注于写作的适配器。

打开网易新闻 查看精彩图片

图8:内部总结和作文基准的写作能力(越高越好)。

- end -