手机可能是首个真正被 AI 接管的终端。全球有数十亿智能手机用户,每天生产着海量的数据。这些数据成为 AI 的燃料,反过来,AI 让手机更加智能。
当苹果还在持续评估 Siri 的底层供应商之时,安卓手机厂商已经摩拳擦掌,在能部署 AI 功能的地方都塞上了 AI。无论是字节跳动与手机厂商中兴在操作系统层面合作推出的豆包 AI 手机工程样机,还是智谱开源能够自动化操作手机界面的 AI Agent 模型 AutoGLM,都引起了市场对 AI 手机或手机 Agent 的高度关注。
按照业界的预期,Agent 将非常深刻地改变在智能终端上的人机交互逻辑。从主动式的 AI 响应对话,到“次抛型”的 APP,千人千面的终端服务将成为可能。
无论是 AI 手机还是在手机中开源 Agent 模型,对于 Agent 应用与终端的普及、提高行业智能体体验的底线都有正向的影响。开源模型也在一定程度上缓解了终端厂商的数据安全焦虑,并能够更好地融合进厂商原有的 Agent 助手系统,而非必须“另起炉灶”。与此同时,互联网应用也获得了一个强大的基础,用于开发应用内的自主操控智能体应用。
在当下的实践中,手机应用主要分为娱乐、查询和工作三类。相比点外卖、买咖啡这些日常小事,AI 手机里的 Agent 更大的价值可能在于提升工作效率——帮用户快速搞定那些原本复杂耗时的任务,比如深度信息搜索、全网比价购物、个人数据查询管理等。这些事情以前可能要折腾半天,现在 Agent 能帮你几分钟就解决。
例如,Agent 可以通过整理手机中的聊天记录、照片视频、购物历史等数据,帮你回忆某段时间的生活轨迹或重要事件。
然而,现在移动终端面临的核心问题是:缺乏统一的 Agent 生态系统,无法有效打通不同应用之间的功能调用。加上行业内尚未就 Agent 生态标准形成统一共识,这些因素共同导致 AI 手机很难通过应用工具调用的方式实现真正的智能操作。
因此,为了让手机 Agent 能够通用地使用不同应用,目前只能“曲线救国”——通过图形用户界面(GUI,Graphical User Interface)的方式,模拟人手操作来控制手机。操作逻辑其实就是多模态理解:先看懂手机当前的屏幕截图,然后像人一样去点击相应的 APP 和按钮,最后完成具体任务。
这种方式适用性很强,理论上能操作各种 APP。但问题是移动设备的算力和存储有限,面临两难选择:7B 以下的小模型处理复杂 GUI 任务力不从心;而 7B 以上的大模型虽然功能强大,但体积太大、成本太高,在手机上跑起来很困难。
AI 手机的路线之争:云端还是端侧?
目前,AI 手机(包括手机 Agent)主要分为三条技术路线:纯云端模型、纯端侧模型和端云协同模型。
纯云端模型多用于移动端(例如 AI 手机等)需要多个步骤和任务部署的复杂任务。另外,在多 APP 操作的场景下,由于任务相对较难,需要较强的推理能力和多模态理解,也会更多地使用云端模型。
尽管云端模型整体性能效果比端侧模型强,但问题在于数据存放在云端,面临包括照片、视频、聊天信息、邮件等在内的数据隐私问题。此外,高成本和带宽也是不容忽视的关键问题。因此,在一些涉及个人数据、隐私性较强的场景则需要纯端侧模型。对于端云协同框架,则适用于云端和端侧能力差别不显著的场景。
一个关键的问题付出水面:在手机这样算力、能耗和隐私都极度受限的终端上,是否真的存在一种现实解法——既不过度依赖云端,又能跑得动 GUI Agent?
近期,香港大学黄超教授团队给出了一个平衡成本和性能的新方案,我们从这个案例中或许可以看到一些启发。研究团队开源了一个叫 OpenPhone 的项目(Mobile Agentic Foundation Models)[1]。在该项目中,不仅开源了一个纯端侧 3B 尺寸的小模型,还提供了一套端云协同的方案,这样既能在隐私敏感的场景下用本地模型处理,又能在隐私不敏感的复杂任务上调用云端大模型来保证完成质量。
考虑手机的能耗限制和实际部署的可能性,研究人员基于开源的 Qwen2.5-VL-3B 模型和自动化生成的 GUI 数据,通过监督微调和强化学习策略实现了与通用的 7B 模型相当的性能。
OpenPhone 还引入了一种类似于思维链(CoT,Chain of Thought)的长推理机制。该机制的“巧妙之处”在于,将包括屏幕状态、任务进度和推理过程等在内的每一步信息,从存储原始高分辨率截图压缩成精简的文本描述,有效地降低了历史上下文的存储负担,从而实现了 Agent 的长期反思以及决策能力。
在 138 项手机任务的测试中,OpenPhone 在性能接近 9B 模型的情况下,速度提升了 4 倍。“从端侧测试结果来看,训练数据对于 GUI Agent 的表现至关重要,OpenPhone 提供了一套可以最大化人工标记数据价值的数据生成管道,利用有限的数据来尽可能增强 GUI Agent 的能力。”黄超告诉 DeepTech。
该研究证明,尽管小模型在泛化能力上不如大模型,但其在手机 Agent 场景中,可通过长推理等方式激发小模型的执行任务能力,其在移动端的潜力同样不容忽视。
黄超解释道:“在 OpenPhone 项目中,端云协同框架不仅可节约模型本身的 token 开销,还能降低成本。但是,如果模型云端效果显著好于端侧,则依然会采用云端模型来进行操作。”
研究团队坦言,该框架在实际部署过程中,可能会面临大量工程性的优化问题。近期,他们也在和企业界沟通探讨未来合作的方式。“尽管目前 AI 手机的大部分解决方案依赖于云端,但业界对端侧突破仍寄予厚望。从我们与企业的交流来看,他们更倾向于在端侧解决,云端可能只是当前的权宜之计。”黄超表示。
可以看到,端云协同是在当下平衡隐私和效果(成功率)的一个比较可行的方案。如果不考虑能耗和终端部署情况,端侧处理最为理想,并能帮设备厂商节约云端算力。未来,端云协同仍会是一个比较理想的范式。
业内人士告诉 DeepTech,端云协同长期来看是最佳选择,不过短期内受制于端侧芯片算力和内存限制,端上不太可能完整运行所有 AI 手机需要的模型功能,仍需要较长的时间和行业内的软硬协同发展。
因此,比较理想的状态自然是简单任务能路由到端侧直接运行,复杂任务路由到云端执行,但是实现这样的目标需要先跑通 AI 手机生态实现意图理解的数据飞轮,模型才可能将来做到这一目标。
AI 手机真正的难题:谁来开放操作系统的权限?
回到一个 AI 手机绕不过的问题:包括社交软件、操作软件或信息查询软件在内的主流 APP,会禁止手机 Agent 的访问权限。
从智能手机的角度来看,如果用户通过手机 Agent 来操作所有 APP,即通过 GUI 方式进行访问,那么 APP 有可能丧失流量入口,直接导致 APP 赖以为生的广告价值归零。
有专家指出,现在的问题在于,整个移动端的 AI 手机整体生态会往哪里走,可能取决于手机厂商的战略制定。总体来看,解决这个问题有两种方案:一是 AI 手机厂商有一套自己的生态,二是未来可能也会涉及到流量入口的合作。
在 DeepTech 与几位业内人士的交流中,普遍认为 AI 手机的生态并非仅依赖某几家企业或技术进步的问题,而是整个行业共同面临的生态问题,包括技术提供方(例如 AI 助手能力提供方、操作系统厂商、硬件供应链模型企业)、应用与服务方(例如端硬件、互联网应用)、用户、开发者和监管机构等。
对于手机操作系统本身的权限开放,业内人士指出,需要谨慎但坚定的推动,不宜操之过急但也万不可故步自封。其类似自动驾驶上路的发展,可以考虑在满足审计安全要求下,通过试点硬件产品和应用场景开放合作,逐步推动相关场景落地和教育,并且同步建设起更完整的生态机制。
谈及在操作系统层面兼顾支持高效模型调度、有效管理本地安全权限以及保障用户隐私策略的策略,一位业内人士告诉 DeepTech,这是一个较复杂的问题,短期来看需要先建立 Agent 与用户、系统和应用之间的互信授权机制,同时建立起关于 Agent 的审计与安全栅栏,明确智能体“上路”的水平要求和安全底线。长期来看,该方向的发展极大程度取决于 AI 和大模型本身的发展进度,需要审时度势地考虑实际发展情况进行决策。
此外还需要看到的是,无论是云端还是端侧模型,AI 手机任务的成功率目前尚不及人类水平,未来还需要在准确率和可靠性方面同步提升。并且,纯 GUI Agent 整体响应速度还有很大的提升空间。
黄超认为,未来模型上下文协议(MCP,Model Context Protocol)生态辅助 GUI 作为解决方案,有望提升手机 Agent 的整体响应速度和准确率。“就像智能手机需要 APP Store,AI 手机也需要类似的平台,让整个社区都活跃起来贡献高质量的 MCP,再去调用它们。从生态角度来看,APP 只有保持开放状态并放出自己的 MCP,构建一套更加完善高效的合作模式,才能守住自己的流量,否则流量也有可能会被其他类似 APP 抢走。未来应用可能会呈现出两种交互模式:一种是面向智能体的交互,另一种是面向人类的交互。”
可见,AI 手机真正广泛应用的标志,不在于模型多强,而是不同 APP 应用厂商如何共建手机智能体的环境。当然,这同样需要整个生态系统共同推动技术的发展和落地。
参考资料:
1.https://arxiv.org/abs/2510.22009v1
排版:刘雅坤
热门跟贴