全文 4,000字 | 阅读约 13 分钟

 方法论|“Siri之父” Adam Cheyer:苹果 AI 的难点,在“最后一公里”
打开网易新闻 查看更多视频
方法论|“Siri之父” Adam Cheyer:苹果 AI 的难点,在“最后一公里”

(Adam Cheyer重磅访谈:当前AI离真正突破还有多远)

苹果很赚钱,2025 年第三财季营收 940.4 亿美元,创近年新高。

但 AI,总是慢一拍。

Siri 可以发短信、订餐厅、放锻炼歌单;GPT 行吗?不行。

这不是夸 Siri,是它的联合创始人,被誉为“Siri 之父”的 Adam Cheyer 自己说的:

大家都说 GPT 比 Siri 好。 可 Siri 能帮我发消息,GPT 能吗?不能。它甚至不能动手。

2025 年 8 月25日,Cheyer 做客一档科技节目,回顾 Siri、质疑 Apple Intelligence。节目话题就点出了矛盾核心:

“Siri Creator: How Apple Got AI Wrong(Siri 创始人:苹果 AI 哪里错了).”

在对话中,他讲的只有三件事:怎么把 AI 助手接进系统、接上工具、接通服务。

他说,这三步都没打通,AI 就只能停留在"会说话"阶段,无法完成完整的任务流程。

这个问题不是苹果一家的。 GPT、Claude、Gemini等,全在犯一样的错:它们本质上是"回答问题"的系统,却被硬推去"办具体事"。

这不是语义问题,是工程问题。Cheyer 把它称为:

“AI 的最后一公里。”

文章基于 Adam Cheyer 的完整访谈,梳理他从 Siri(语音助手,苹果收购)、Viv Labs(开放 AI 平台,三星收购)、企业项目(ToB 落地) 三段实战中总结出的系统级方法论。

第一节|Siri会发短信,GPT为什么还不行?

“GPT 比 Siri 强 100 倍”,很多人都这么说。

Adam Cheyer听多了,也懒得反驳。他只回一句:

“真的吗?那你让 GPT 给你老婆发个短信试试。”

发不出去。

GPT 可以生成一整段莎士比亚风格的道歉信,却连一条短消息都发不到手机上。而 Siri 早在十几年前,就能帮你“告诉妻子我要晚到了”。

Cheyer说:

现在 ChatGPT 确实很好,但它做不到 Siri 那种“执行任务”的能力。

这不是模型能力的问题,是系统底层就不一样。

GPT 属于“知道”型系统(Know),主要处理信息、总结、回答问题;而 Siri 原本是 Cheyer 从 1993 年就开始设计的“做事”型系统(Do),它的核心是:你说一件事,它要能替你去执行。

ChatGPT 能做的,是给你解释订餐流程,但订餐这件事它干不了。Siri 曾经能连上 OpenTable 帮你直接订餐,GPT 做不到。

而 Cheyer 当年设计 Siri 时,目标就是让它:

能直接发短信、打电话、订餐厅、播放歌单;

每一项功能都连接了真实服务接口,而不是假装理解。

他认为:

你不能拿一个用来“知道”的架构,强行拿来“做事”。

这背后的错位是根本性的。

  • GPT 在架构上追求语言理解和文本生成;

  • Siri 在设计上优先考虑任务执行和服务集成。

一个是内容生成模型,一个是任务执行系统。

今天很多 AI 产品的问题,就是“拿一个生成模型去做执行系统的事”。听起来像升级,实际上是路线错了。

Cheyer甚至回忆:在我们做 Siri 的时候,OpenAI 还没出现,网页浏览器都还没普及。我们就已经设想:每个人未来都会有一个 AI 助手,能协同所有服务和 App,替你完成任务。

但这个想法,在 GPT 崛起之后反而“绕远了”。

模型更强了,行动能力反而更弱了。

这不是对 GPT 的贬低,而是对系统架构的提醒:

  • 知识系统是用来“告诉你这事怎么做”的;

  • 执行系统才是“真正替你把事办了”的。

聪明,不等于有用;会说,不等于能做。

Cheyer 用一句话总结:

Siri 是工程系统,GPT 更像内容系统。
第二节|干不了活的 AI,到底卡在哪?

Adam Cheyer 看完今天这波 AI 产品,只说了一句话:

它们的问题,不是太蠢,是缺了三样最重要的东西。

他说得很明确,这三样东西缺一不可:

  1. 错的界面

  2. 错的结构

  3. 缺的生态

一,错的界面

你让人用纯文本聊天,去订旅行、查航班、选酒店?这体验太糟糕了。

Cheyer不反对聊天界面,但他明确指出,今天大多数 AI 界面,都选错了交互方式。

旅行、订餐、时间安排这些任务,是带情绪的,也是带画面的。你需要地图、照片、时间表、对比选项,不是几轮问答就能搞定。

Siri 最早上线的时候,就不是一个聊天框。Cheyer专门设计了语言和 图形混合界面,可以滚动菜单、点击选项、看到可视化反馈。

他说:

“语言不是万能钥匙,它是高手模式,不是新手导航。”

这就是问题所在:用户无法"看到"AI能做什么、不能做什么,自然不敢放心把事情交给它。

二,错的结构

“知道”和“能做”,这中间差得远。

ChatGPT 代表的是“知道”的能力:它能解释一件事是什么,背景如何,规则怎么设定。但它没法实时操作,也很难连上外部服务,给你完成一个具体任务。

这是结构问题。

用 Cheyer 的逻辑来说:

“预训练模型像图书馆,有海量信息但只能查阅;执行系统像工具箱,拿起来就能干活。”

现在很多团队,都想把"执行任务"硬塞进"知识问答"的架构里。听上去聪明,做起来就乱套了

这种架构错配不只是技术问题,现实中,连苹果这样的巨头也没能完全解决。

Apple Intelligence 虽然已发布,并持续扩语种,Siri 也能调用 ChatGPT,但每次功能扩展、地区推广都显得小心翼翼。

  • 2024 年 10 月,官方页面写明了首批功能范围;

  • 2025 年 2 月,传出 Siri 重构工程遇阻、存在延期风险;

连 ChatGPT 的接入,也不是“一键整合”,而是分步实施。

Cheyer的批评,不是脱离现实,而是精准戳中:“问答系统去干执行任务,必然掉链子。”

三,缺的生态

没有一个开放平台,所有“助手”都像在闭门造车。

在 Cheyer 的设想里,AI 应该像 App Store 一样,有标准接口,有服务商参与,有品牌露出,有用户自主选择。比如:

  • 用户打车喜欢 Lyft,不喜欢 Uber;

  • 商家希望界面里出现自家 logo,不被 AI 平台屏蔽;;

  • 某些领域的专业应用,需要保留话语权,而不是被压缩成一句指令。

但今天的 AI 系统,大多靠网页抓取、模型理解、插件接入这些手段拼凑,没有明确标准,没有接口平台,更没有开发生态。

他指出:服务提供商不愿意接入,是因为他们看不到自己的位置,也拿不到用户。你不能光靠模型假装懂每件事,还得给人家一个愿意合作的理由。

他回忆 Siri 的早期路线:

“我们最初设想,Siri上线第一年做15个系统内服务,第二年就开放接口,让世界上的每一个服务都能即插即用。就像App Store。但乔布斯去世之后,这条路没走下去。”

如今,生态争夺战又再次抬头:

  • iOS 系统内已接入 ChatGPT,外界传出与 Google Gemini 正在接洽;

  • 2025 年 8 月,xAI 起诉苹果与 OpenAI,指控“默认入口”垄断了用户选择与市场空间。

这三件事,错的界面、错的结构、缺的生态,像一条链断成了三节。

界面错了,用户不敢用;

结构错了,助手做不动;

生态缺了,合作方不想接。

你可以有一个再聪明的大脑,但没有手、没有路、没有朋友,它也只能坐在原地干着急。

第三节|十年一换代,下一个入口在哪?

Adam Cheyer 是技术人,但他讲未来不是靠猜,而是看历史模式。

他说他看到了一条“十加理论”

每十来年,我们就换一次人和机器的交互方式。 每次都从一个界面开始,然后才有生态爆发。

这不是空想,是回顾:

  • 1984年,Mac发布:窗口+鼠标 成了主流操作方式;

  • 1995年,网页浏览器上线,人人都能点开网址查信息;

  • 2007年,iPhone问世,第二年 App Store 推出,手机变成万能工具;

  • 2021年左右,他认为是对话式 AI爆发点 : GPT-3 开放 + ChatGPT 引爆,让“语言交互”真正进入大众视野。

这,就是他所谓的「十加理论」:10年出一个界面,11年出个生态。

但他给出了不同的判断:

“今天的AI,还没到范式级爆发的那一步。”

因为它只完成了第一步:界面(对话)出来了。 而接下来的两步:

  • 一是能不能把“对话”变成“做事”;

  • 二是能不能像 App Store 一样,搭建出一整套服务生态;

等这两步都真正建起来,AI,才算一个新平台。

✅ 那么,下一轮是什么?

Cheyer的回答是:增强现实(AR)

他这样来解释:

“我预测,2035年,AR 会成为下一个范式界面。那时候,电池、头戴设备、软件生态、网络延迟,都差不多成熟了。”

他不是指现在的 AR 设备,

而是下一代真正能戴着走、随时用的产品,可能是像眼镜那样的设备,甚至是智能隐形眼镜。

现在的 Apple Vision Pro,他毫不客气地说:

“苹果自己都知道,它不是为大众市场准备的。电池撑不完一部电影,这怎么可能普及?”

但这不重要,Cheyer认为它的意义是:

激发想象,打开欲望。就像最早那批手机,也只是开始。

我们已经在屏幕的世界里活了太久。

将来不用盯着屏幕,眼前的世界本身就是增强过的界面。

如果今天你需要查一份文件、看一张图、订一个酒店,要打开好几个应用来回切换。未来,你只需要看过去,它就浮现在你面前了。

你指着它说话,它能听懂;你盯着它看,它知道你在意哪部分;你往前走,它更新视角;你停下,它等你确认。

这是 Cheyer 理想中的下一代交互方式:

不是换个设备,而是换种计算的方式。

但他也强调,哪怕是 AR,也要补三样东西:

界面对了,还要能执行任务; 设备升级了,还要有服务配套; 用户想用,还得有内容、有反馈、有成功感。

所以他预测:2035年之前,AR 会经历跟今天 AI 一样的成熟过程。 有了“能看”的设备,还得等出“能干事”的平台。

这就是技术发展的规律:硬件先行,软件生态跟上,用户才真正买账。

第四节|对话 AI,凭什么让人信它?

Adam Cheyer 很清楚:

Siri 并不是最聪明的 AI,但它曾经让人觉得,它真的能帮你。

这种感觉,他有一个词来形容:

“魔法。”

但“魔法感”不是技术秀,不是语音变自然了,也不是回答特别快。

Cheyer 的回答是:

“魔法,是因为它不是个玩具,而是个数字助手。”

为什么后来很多语音助手,让人试几次就放弃?不是因为回答得差,而是因为"不靠谱"

什么意思?

每次和助手对话,用户心里都在期待:这次它应该能懂、能做成。

如果助手回一句"找不到结果",这次交互就失败了,用户还会觉得自己表达有问题。一旦有挫败感,用户就不会再试第二次。

那早期 Siri 为什么能留住人?

原因是 Cheyer 设计时考虑了三类不同的人:

① 初学者

他不知道能问什么、怎么说。

“我们提供了“最常用请求”的滚动菜单,用户可以点进去慢慢浏览。”

② 中等熟悉的用户

他知道一些领域可以做,但不确定范围。

“我们做了语义自动补全。比如他打‘浪漫’,除了显示‘浪漫喜剧’,还会显示‘骑术’、‘茶室’。扩展他的想象。”

③ 熟练用户

他知道怎么说,可以用一句话搞定。

“比如说:‘明晚 7 点订个法国餐厅’,就直接做了。”

为什么早期 Siri 能做到这么高的成功率?Cheyer的秘诀是“点击、打字、说话三种输入并行”,让不同层次的用户都有适合的方式。

效果如何?Cheyer 直接亮出数据:

Siri上线那年,95%的任务都能顺利完成。 后来那些全语音助手,没一个做到过。

✅ 更重要的,是情绪体验设计。

他说,很多人做助手产品,忽略了一件事:人类是靠反馈来建立信任的。

你每做一次动作,系统有没有给你及时回馈?你有成就感吗?有没有一点“它懂我”的感受?

如果这些都没有,就算助手功能再强,也留不住人。

所以他说:

“真正的魔法,不是技术有多复杂,而是用户‘感觉到它真懂我’。”

他甚至分享了一个 Siri 和乔布斯的真实故事:Siri 原本设计了三种输入方式。上线前,乔布斯坚持只留语音。Cheyer不同意,他坚持保留打字和点击。

乔布斯最后让步,但说了一句话:

你只有一次机会,让世界觉得这是个可以相信的东西。

这个第一印象,就是“魔法感”。

今天的 GPT、语音助手、AI Agent,回答得都不错,能力也在增强,但:

  • 用户能不能搞清它能做什么?

  • 用了一次失败之后,还愿不愿意继续用?

  • 有没有像“魔术”一样,让人有惊喜、有成功感?

Cheyer 说:

“不能简单地把对话界面塞进产品,而要重新思考整个交互体验。”

AI 不缺聪明的脑子,缺的是“愿意托付”的体验。哪怕是微小的成功,也比花哨的对话更打动人心。

结语|聪明的 AI 很多,能干活的很少

Adam Cheyer 用四十年时间,跨越多个项目追寻同一个问题:

用户说一句话,AI 能不能真的把这事办了?

这不是模型规模的问题,不是输出长度的问题,也不是参数调优的问题。

而是:

  • 能不能把界面设计对:让人知道怎么用;

  • 能不能把路径接通:让它真的能操作;

  • 能不能让服务方愿意接入:不靠抓取,靠合作。

Cheyer 的方法论说到底,就是让助手变“能用”。

这条路,不新鲜,但也没人走完过。

他看得很透:

AI 的下一个机会,不在更会说话,而在是否能走完“最后一公里”。

他不是来批评谁,而是告诉你:

前端突破了,后端还没跟上,市场空间巨大。

本文由AI深度研究院出品,内容翻译整理自Adam Cheyer在科技访谈节目中的完整对话。未经授权,不得转载。

星标公众号, 点这里 1. 点击右上角 2. 点击"设为星标" ← AI深度研究员 ⋮ ← 设为星标

https://www.youtube.com/watch?v=KRUQzkEXSnE&t=1001s&ab_channel=Info-TechResearchGroup

https://www.infotech.com/digital-disruption

https://podcasts.apple.com/ca/podcast/digital-disruption-with-geoff-nielson/id1798209377

https://www.theverge.com/news/765171/elon-musk-apple-openai-antitrust-lawsuit

https://www.investors.com/news/technology/google-stock-apple-stock-gemini-siri-iphone-agreement

https://www.apple.com/newsroom/2024/06/introducing-apple-intelligence-for-iphone-ipad-and-mac

来源:官方媒体/网络新闻,

排版:Atlas

编辑:深思

主编:图灵