打开网易新闻 查看精彩图片

新技术、旧生意。

文丨贺乾明 黄俊杰 邱豪
编辑丨黄俊杰 龚方毅

AI 技术的进展解决了困扰苹果软件团队 14 年的难题——做一个配得上 iPad 的计算器应用。

iPad 上没有计算器吗?十多年的老用户也可能一瞬间记忆错乱,大脑里闪现一个 iPhone 计算器的样子。事实上,过去十多年,苹果平板 “计算机” 的用户如果要算点东西,得掏出手机或者下载第三方软件。

苹果为第一代 iPad 做了计算器,但在发布前一个月被砍掉。2009 年底,面对创始人乔布斯 “计算器 app 的新设计怎么还没来” 的追问,当时的苹果软件部门负责人拿出了一个把 iPhone 计算器放大到 10 英寸的界面——你知道,乔布斯只会有一种反应。

iPad 发布一年半后,乔布斯去世。又过了一年,苹果软件部门的负责人因为地图的失败被 CEO 蒂姆·库克开除。接手的苹果软件工程副总裁克雷格·费德里吉(Craig Federighi)觉得商店里已经很多第三方的计算器,如果苹果内置一个,就得做成 “最好的 iPad 计算器”。一等就是 14 年。

美国当地时间 6 月 10 日上午,WWDC 全球开发者大会上,当费德里吉宣布 iPad 终于有计算器的时候,在苹果总部现场的开发者们发出一片欢呼,一开始可能只是意外于苹果还想着这东西,但随着演示进行,他们相信苹果真的拿出了最好的计算器。

打开网易新闻 查看精彩图片

iPad 的计算器会识别屏幕上的手写数学公式,写下等号就会出现答案,再调整公式,答案自动改变;列出一组数据,划一道线,它会自动求和;写下方程式,它能自动生成图表。

借这个演示,苹果不仅再次展示了他们对一个好软件的标准,也展示了他们对 AI 应用的理解——不是独立存在的产品(Siri 除外),只是作为功能融入在具体使用场景里。

面向用户的 AI 体验:从新 Siri 到生成图片,更看重简单、有用

到 WWDC 主旨演讲的第 65 分钟,在十多位演讲者提了几次机器学习后,苹果终于带出被其称为个人智能系统(personal intelligence system)的 Apple Intelligence。在进一步说明这套系统如何运作前,苹果 CEO 蒂姆·库克(Tim Cook)提出开发这套系统的五大原则:

  • 强大(Powerful),它必须足够有用,帮助你完成最重要的事情。
  • 直观(Intuitive),它必须易于使用。
  • 整合(Integrated),它必须集成到产品体验中。
  • 个性化(Personal),它必须了解你,并以你的个人信息为基础,例如你的日常习惯、你的人际关系、你的沟通方式等。
  • 隐私(Privacy),它必须从一开始就以保护隐私为基础构建。

之后的 30 多分钟内,苹果分别介绍 Apple Intelligence 如何在 iPhone、iPad 和 Mac 三种硬件平台上,从操作系统渗入到各种应用中的四个应用场景:

新 Siri:看遍数据,理解你在说什么

用户现在每天向 Siri 发起的请求达到 15 亿次。这是一个难堪的数字,意味着平均每人每天只和 Siri 说不到两句话。2011 年发布以来,它始终没有成为一个合格的智能助手。

Siri 不够聪明,是因为它的底层技术很大程度上基于规则,用关键词筛选用户的需求,遇到不能理解的问题就直接展示一个网页。现在借助大模型,Siri 能够更准确地理解用户的提问,而且还可以 “读懂” 用户 iPhone 的操作界面,记住之前提到的内容,更好地处理用户的需求。

它既可以回答数千个有关如何在 iPhone、iPad 和 Mac 上执行操作的问题,比如切换到深色模式,也可以在苹果和第三方开发的应用中执行数百种操作,比如 “把周六烧烤的照片发给 XXX”;甚至可以自动搜索邮件、照片、短信中的信息回答问题,比如 “播放 XXX 推荐的播客”“XXX 推荐的书单是什么”。

打开网易新闻 查看精彩图片

Siri 从图片、信息、邮件等应用中搜索图片和特定信息。

OpenAI 的 ChatGPT 也被整合到 Siri 中。如果遇到复杂的问题,比如 “用三文鱼、柠檬和西红柿做五种不同味道的菜”,Siri 会提示用户是否使用 ChatGPT 回答问题。ChatGPT 默认使用 OpenAI 最新发布的 GPT-4o 模型。

写作工具:嵌入所有应用,只是助手

苹果将在 iOS 18、iPadOS 18 以及 macOS Sequoia 中内置由大模型驱动的的写作工具,几乎覆盖所有涉及文本输入的原生和三方应用,比如邮件、备忘录等。用户可以借助它重写、润色、校对原文本,但不能凭空生成内容 —— 除非调用 ChatGPT。

归纳总结:深入系统,整理各种信息

首先是对长邮件、文本或者网页的总结归纳,其次是根据用户描述自动挑选出图片,配上背景音乐制作成回忆视频,以及对通话录音在内的录音文件转写、要点陈列。是的,苹果终于解决了一个老问题 —— 支持通话录音 —— 方案也很有苹果特色:当用户开启录音时,会自动提醒对方。

这里提到的 “总结” 不局限于具体应用,还包括对日常海量通知推送的整理,将系统认为对用户最重要的信息放在显眼位置。

生成图片:操作直观,但效果堪忧

只支持动画、插画和线条图三种风格,一眼就能看出不是真实场景。苹果设想它主要的使用场景是与人聊天和记笔记时生成插图。苹果更强调可用性,比如在笔记应用中生成图片时,大模型会默认把周围的文本当做提示词一起理解,生成符合上下文的图片。

打开网易新闻 查看精彩图片

苹果本地大模型根据照片和页面中的文字信息生成的 “超人母亲” 图片。

2018 年苹果推出捏脸制作表情包的 Memoji,这次新增根据文字叙述和照片生成 emoji 的功能 Genmoji。相比六年前的 Memoji,Genmoji 更容易做出来、但风格不再统一,也少了几分灵动,更像是你打开 QQ 会看到的选项。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

左图是苹果最新的 Genmoji 功能生成的表情,右图是苹果 2018 年发布 Memoji 功能 “捏” 出来的表情。

单就功能而言,Apple Intelligence 现在所能实现的并没有超出其它大模型的能力范畴。苹果的强项在于多应用和多设备场景的整合、无缝的体验,以及基于设备中的个人信息去理解用户指令、输出解决方案。

按照苹果的说法,Apple Intelligence 在理解深层次个人场景的同时,也会做到对用户隐私的保护,比如在设备端处理任务。当联网以处理需要更多处理能力的请求时,会将其覆盖于私密云计算(Private Cloud Compute)之下。

它还在开发各种 API,让第三方开发者接入这个高度整合的体系。这是相对传统的做法。老对手微软则是打算每 5 秒截一次屏幕,“记住” 用户过去 3 个月内在设备上用过什么程序、处理过什么内容。

根据库克介绍,今年夏天,苹果会开始测试美式英语版本的大模型功能,秋季上线,一年后支持其他语言的版本。

从本地部署到调用 GPT-4o,把大模型分成三层

为了实现库克提到的五个核心选择,苹果设计了一个三层的大模型架构,只有在最后一步才会调用 OpenAI 的 ChatGPT:

1、手机、电脑本地计算,小模型、不联网

处理 AI 工作时,苹果会优先使用设备上内置的大模型,用自带芯片完成计算。这样数据完全留在本地,可以保障用户隐私。不上传到数据中心计算也可以节省大模型的使用成本。

代价是很多苹果用户的手机不支持 Apple Intelligence。目前的硬件要求是 A17 Pro(手机)或 M 系列芯片(平板和电脑)。电脑和平板还好,过去三四年的大部分产品都可以用。但手机目前只有 iPhone 15 Pro 和 15 Pro Max 这两款可用。

关键的变量在于芯片的内存和 AI 算力,它们直接决定了运行大模型的效率。相比 iPhone 14 Pro 和 iPhone 15/15 Plus 的 A16 芯片,A17 Pro 的 AI 算力(神经引擎)从 17 TOPS 翻倍增长至 35 TOPS,内存容量也从 6 GB 升级至 8 GB,可以让大模型即时访问和读取更多数据。

尽管过去一年苹果投入更多资源研发效果更强、参数规模更小的大模型,它也无法让本地运行的大模型在兼顾设备续航和效率的情况下完美处理它设想的各种功能,只能在云端部署参数更大的模型。

“传统的云端服务器会存储你的数据,能在你没有意识到的情况下,以你不希望的方式使用它。而且你也无法验证那些声称没滥用你数据的公司是否说了真话。” 苹果软件工程高级副总裁克雷格·费德里吉说。

2、私密云计算,苹果自建数据中心、数据不留在网上

苹果的选择是自建数据中心以实现私密云计算。根据多家媒体报道,为这个数据中心提供算力的是苹果为 Mac Pro 台式机设计的 M2 Ultra 芯片。

Apple Intelligence 会自动分析用户的请求能否在本地运行,如果需要更强的算力,就会调用私密云计算,只把与任务相关的数据发送到云端处理,并强调数据不会被储存,甚至连苹果自己也看不到这些数据。

除了保证隐私,苹果用自研的 M2 Ultra 搭建数据中心还可以节约成本,它不用花昂贵代价去找英伟达买成品或找博通定制芯片。据研究机构 Semi Analysis 测算,一块 M2 Ultra(2 * M2 Max + InFO-L 封装 + 192 GB LPDDR)的成本约为 2000 美元,不到一张英伟达 H100 的 1/10。M2 Ultra 一次可以处理 4-6 个用户调用 700 亿参数 Llama 3 的请求,大概率可以更高效地运行苹果自研的大模型——苹果并没有公布它在云端部署的大模型参数,它在今年 3 月发布的自研大模型论文中,训练出来最大的模型只有 300 亿参数。

但 M2 Ultra 毕竟是为电脑设计的芯片,即使与其他电脑芯片相比有极强的性能优势,用到数据中心中缺点依然明显。受限于芯片架构,它不可能像英伟达 GPU 那样通过大规模并联来大幅增强性能,因此无法运行千亿参数或更大的模型完成用户需求。

3、Siri 接入第三方大模型,从 OpenAI 开始

苹果短时间内很难(也没必要)做出性能追上 GPT-4o 的大模型,所以就有了第三层大模型:OpenAI 的 GPT-4o。根据苹果的演示,GPT-4o 被嵌入到了 Siri 和大模型写作功能中。

当 Siri 认为一个问题需要 GPT-4o 才能提供更好答案时,就会弹出对话框,用户点击确认后才把问题、图片或文档等信息发过去处理,然后直接显示回复,不需要跳转到 ChatGPT 应用。

嵌入到写作功能中的 GPT-4o,则需要用户主动调用,可以从头编一段故事、生成相应的图片等。整个过程用户不需要创建新的 OpenAI 账户,也不需要下载或打开 ChatGPT,用户发送过去的数据和请求也不会被 OpenAI 储存,也不用付费(仅限 GPT-4o 的免费功能)。如果用 OpenAI 账户,则可以关联、使用 ChatGPT 的付费功能,而且苹果设备中处理的问题就会同步其中。

ChatGPT 不会是唯一选项。克雷格·费德里吉说,苹果未来还会引入其他的大模型。

新技术、老生意

当所有科技巨头投入大模型后,Apple Intelligence 是苹果的答案。

发布会上演示的所有功能都是免费提供。软件公司、互联网公司,在做 AI 产品的时候都需要算一下帐,考虑用什么方式获得收入。苹果没有这些顾虑,只要体验保持领先,10 亿多用户继续买它的昂贵产品,成本就不是问题。

这次苹果没有提出什么全新的大模型功能,从演示也看不出苹果自制大模型的性能如何。单就图片生成,可能不如你现在能用的不少大模型。苹果的更多工作,花在将大模型拆解为一个个功能,嵌入苹果生态,能为软件开发者所用。

苹果做 AI 不晚。它在 7 年前发布 Core ML 框架,并且在拍照时引入 AI——用户按下快门,iPhone 拍下数百张照片,再利用芯片计算,合成最优解给用户。但苹果做大模型明显晚了。ChatGPT 2022 年底上线后的反响超过了所有科技巨头,也包括 OpenAI 自己的预期。而苹果是所有科技大公司里最难快速回应的。

晚本身不是问题。苹果基本从未第一个发明任何新品类,第一台个人电脑、第一部智能手机、第一个无线耳机都和苹果无关。但它总能抓住小众新技术向大众应用扩散的节点,找到正确的产品形态,再用非凡的工程能力打磨出最吸引人的产品,让一个新的计算机形态为大众所接受。Mac、iPod、iPhone、AirPods……苹果一次次用超级产品加速了技术普及并拿走一个行业里的主要利润,成为 3 万亿美元市值的公司。

苹果处于推广新技术的绝佳位置:全球 80 亿人里,有超过 10 亿人使用 iPhone,其中数亿人用着苹果的耳机、音箱、个人电脑,每年总计花近千亿美元买苹果的互联网服务。这家同时控制软硬件和互联网服务生态的公司,可以在几个月时间里让一个技术 7x24 小时地出现在大多数用户眼前,如果出问题,影响太大。

苹果的优势和劣势都因为它的规模,它和用户之间的信任,再没有第二家公司能这样整合软硬件和服务。但它推广技术越快,就越难承受重大失败。Apple Intelligence 明显从安全上做了诸多限制,不论限制图片生成的类型,还是用自己的处理器搭建私密云计算,都有这方面考虑。

一个快速发展中的技术,需要试错才能进化。如果 AI 大模型未来没有重大突破,接下来只是降低成本、打磨应用场景,苹果 iPhone + AirPods 的生态几乎无可动摇。但如果 GPT-4 只是开始,苹果的问题也才刚刚开始。

题图来源:视觉中国