导读:6月8日,库克将站在WWDC舞台上,宣布一件苹果八年没做成的事。
一位苹果工程师在内部会议上放下咖啡杯,在白板上画了个圈——这是Siri新架构的第一张草图。三个月后,这张草图将变成iOS 27上最显眼的功能更新。
八年僵局:Siri为什么一直"听不懂"
2016年,Siri团队负责人Bill Stasior离职。此后八年,苹果换了四任Siri主管,每次交接都伴随着同一个承诺:Siri会变得更好。
但用户感知到的变化微乎其微。你依然要说"嘿Siri,打开灯",停顿,再说"嘿Siri,把亮度调到50%"。两个指令之间没有记忆,没有上下文,就像对着两台不同的机器说话。
竞争对手没有给苹果留面子。ChatGPT在2022年底发布后,用户开始用同一个问题测试两者:"明天旧金山会下雨吗?如果下雨,帮我订一辆早上8点的车去机场。"
ChatGPT能理解这是两个关联请求。Siri只能执行前半句,或者干脆打开天气应用。
这种差距不是功能缺失,是架构层面的代差。Siri诞生于2011年,核心设计是"命令-执行"模式:识别关键词,匹配预设动作,返回结果。每个请求独立处理,系统不保留对话状态。
这种模式在十年前够用。当时语音助手的主要场景是设闹钟、查天气、播放音乐——单轮指令就能解决。但用户现在期望的是对话:追问、修正、组合多个意图。
苹果并非没有尝试。2023年,苹果在WWDC上展示了"更自然的Siri",实际更新却是界面微调。2024年,Apple Intelligence(苹果智能)上线,Siri获得了屏幕感知能力,可以回答"这张图片里是什么",但依然无法连续对话。
内部人士透露,真正的瓶颈在于技术债务。Siri的后端由多个独立系统拼接而成:语音识别归一个团队,自然语言理解归另一个,执行层又是另一套代码。每次改动需要协调五六个部门,进度以季度为单位计算。
一位前工程师在离职博客中写道:"我们不是在优化Siri,是在考古。每行代码都有2014年的注释,但没人敢删。"
转折点:2024年夏天的秘密重组
变化发生在2024年6月。苹果机器学习负责人John Giannandrea被曝亲自接管Siri团队,直接向CEO Tim Cook汇报。这是Siri历史上第一次由高级副总裁直接负责。
同时,苹果从Google DeepMind挖来了多位大语言模型(大型语言模型,一种能理解和生成自然语言的人工智能技术)专家。其中一位关键人物是Ruoming Pang,他曾在Google领导Gemini的语音交互项目。
这些动作没有出现在任何新闻稿里。直到2025年1月,彭博社记者Mark Gurman披露:苹果正在开发"LLM Siri"——一个基于大语言模型重新构建的语音助手,内部代号"Jeopardy"。
新架构的核心变化有两个。第一,对话管理。系统会维护一个持续的对话状态,记录用户之前说过什么、想要什么、已经做了什么。这意味着你可以说"刚才那个再大一点",Siri知道"那个"指什么。
第二,意图解析的升级。旧版Siri依赖规则匹配:如果用户说"播放",匹配音乐应用;说"导航",匹配地图。新版采用生成式模型,能理解更模糊的表达,比如"我心情不好,来点合适的"。
这些技术本身不新。OpenAI、Google、Anthropic在2023年就已经实现。苹果的挑战在于规模:Siri每月活跃用户超过5亿,设备覆盖从iPhone 6s到最新Mac Pro。任何改动都不能牺牲响应速度,也不能大幅增加云端成本。
据知情人士透露,苹果采用了混合架构:简单指令仍在本地处理,复杂对话路由到云端的大模型。关键优化在于"路由决策"本身——系统需要快速判断一个请求该走哪条路,这个判断的准确率直接影响用户体验。
2025年3月,苹果在内部测试中首次实现了"连续10轮对话无中断"的指标。参与测试的员工描述:"感觉像换了个人。你可以说'找一家意大利餐厅,要评分4.5以上,今晚有空位,离我不超过20分钟车程',然后问'那家有什么招牌菜',再问'帮我订两个人'——全程不用重复位置或时间。"
WWDC倒计时:哪些功能会亮相
6月8日的主题演讲,苹果有90分钟。根据惯例,iOS 27、iPadOS 27、macOS 16、watchOS 12会各占15-20分钟,留给Siri的窗口大约10-15分钟。
从泄露信息看,演示重点可能是三个场景。
场景一:跨应用任务。用户可以说"把我昨天拍的照片发给妈妈,告诉她我到了",Siri需要调用照片应用识别"昨天的照片"、通讯录匹配"妈妈"、信息应用发送消息。旧版Siri无法串联多个应用,新版据称支持"至少三个应用的组合操作"。
场景二:知识追问。用户可以问"这家公司去年营收多少",得到答案后继续问"那净利润呢",再追问"和前年比怎么样"。系统需要理解"那"指代前一句的主语,"和前年比"是时间维度的对比请求。
场景三:个性化记忆。Siri会记住用户的偏好:常用联系人、常去地点、饮食禁忌、日程规律。这些记忆用于主动建议,比如"你通常周三晚上健身,要我现在预约吗"。
界面也会有变化。据9to5Mac获取的截图,新版Siri采用全屏对话视图,类似ChatGPT的聊天界面,但保留了苹果标志性的渐变光效。语音输入时,屏幕底部会出现波形动画,视觉反馈比旧版的静态麦克风图标更丰富。
一个细节值得注意:苹果似乎在刻意区分"Siri"和"Apple Intelligence"。前者是语音交互品牌,后者是底层技术框架。这种区分可能是为了应对监管——欧盟正在调查苹果是否利用Siri垄断语音助手市场,将技术品牌独立有助于切割责任。
商业逻辑:苹果为什么现在必须改
语音助手不是独立产品,是生态系统的锁扣。用户习惯用Siri控制HomePod,就很难切换到Alexa;习惯用Siri发消息,换Android手机的成本就更高。
但这个锁扣正在松动。亚马逊Alexa在2024年推出了生成式AI版本,支持连续对话;Google Assistant整合了Gemini,能理解复杂指令。更直接的威胁来自手机端:三星Galaxy S25系列预装了Gemini作为默认助手,用户可以直接说"帮我写封邮件"而不唤醒Bixby。
苹果的应对是"延迟但彻底"。相比竞争对手的渐进更新,苹果选择了重构底层架构。代价是时间——从2024年6月重组到2025年6月发布,整整一年没有重大功能更新,这在苹果历史上罕见。
收益可能是长期的。大语言模型的训练成本极高,但推理成本(实际运行时的计算开销)正在快速下降。苹果如果能在2025年推出成熟的端云混合方案,未来三年的运营成本将显著低于完全依赖云端的竞争对手。
另一个隐性动机是Apple Intelligence的推广。这项技术在2024年上线后,用户感知度有限——大多数功能藏在照片编辑和邮件摘要里,没有杀手级场景。Siri是Apple Intelligence面向用户最直接的入口,如果语音交互体验质变,整个技术框架的价值会被重新评估。
供应链消息显示,苹果正在要求A18及后续芯片增加神经网络引擎(NPU,专门用于加速人工智能计算的处理器模块)的算力配额,专门用于本地大模型推理。这意味着2025年的Siri更新可能只是开始,未来两到三年会有持续的功能释放。
风险与悬念
并非所有人都乐观。一位参与内部测试的开发者提到,新版Siri的"幻觉率"——即编造事实或误解意图的概率——仍高于ChatGPT。"你可以连续对话了,但第7轮它可能突然说错你的地址,而你不会意识到。"
苹果的解决方案是"置信度阈值":系统对不确定的请求,会主动要求确认,或者降级到旧版Siri的处理模式。这种保守策略可能让部分场景的体验打折扣,但降低了出错风险。
更大的悬念是第三方生态。旧版Siri支持数万个第三方应用的快捷指令,但这些指令需要开发者手动配置。新版Siri据称能"自动理解"应用功能,无需预设指令——如果属实,这将大幅降低开发者的接入成本,但也意味着苹果需要更精细的权限控制,防止恶意应用被意外触发。
WWDC的开发者分会将披露更多细节。目前可以确定的是,新版Siri不会一次性覆盖所有设备和地区。英语市场、A17 Pro及以上芯片设备会优先获得完整功能,旧设备和其它语言的更新将分批推送。
这种分阶段策略在苹果历史上多次出现:Apple Watch的蜂窝功能、Face ID、甚至最初的Siri本身,都是先限定设备和地区,再逐步扩展。好处是控制质量风险,代价是引发"苹果歧视老用户"的批评。
数据收束
2011年,Siri随iPhone 4s发布,成为首个大规模商用的语音助手。14年后,它终于迎来架构层面的重生。6月8日的WWDC,如果演示顺利,将是苹果AI战略的转折点——不是因为它领先,而是因为它终于追上了用户期待的起跑线。
热门跟贴