北京时间2月26日,三星推出旗舰款Galaxy S26系列手机。在谷歌Gemini模型的加持下,三星S26系列具备了类似于豆包手机的自主订餐、打车等任务执行能力,但目前仅在美国和韩国上线了这项功能。
尽管三星手机国行版无法使用谷歌Gemini,但南都记者实测发现,S26系列国行版内置的Bixby助手提供了“智能执行”模式。接收用户指令之后,它会模拟人类使用手机的方式,自动完成滴滴叫车、美团点外卖、拼多多购物等常见任务。任务启动时,手机屏幕边缘会出现彩色光晕提示,和豆包手机的使用情形相似。
三星S26系列国行版提供的“智能执行”模式,右图为Bixby助手在拼多多进行自主购物,边缘出现彩色光晕提示。图:杨柳
三星方面未披露Bixby助手“智能执行”模式所接入的具体国产大模型。此前,三星和字节跳动、智谱开展过合作,且这两家公司在手机智能体能力上均有代表性产品。其中,字节跳动旗下火山引擎曾在2025年7月透露,三星Galaxy的Z系列产品引入了豆包大模型、火山引擎联网问答Agent(智能体)等产品,新升级的Bixby助手等结合了豆包大模型的深度思考、多模态内容理解与生成能力。
针对Bixby助手“智能执行”模式是否有调用了旗下大模型,字节跳动和智谱方面均不作回应。
S26系列海外版的AI自动化能力将于3月11日正式上市时同步推出。北京时间2月26日的三星Galaxy Unpacked发布会上,谷歌安卓生态系统总裁 Sameer Samat提前展示了Gemini给手机使用体验带来的革新:在一个家庭群聊中,不同成员提到各自偏好的披萨口味。用户只需长按电源键唤醒Gemini,AI助手便会读取聊天上下文,梳理所需购买的商品。随后,Gemini打开一个虚拟窗口并启动外卖App,利用其推理能力和多模态功能,在应用程序中创建购物车。
用Gemini助手完成订餐自动化的演示效果。
这一操作允许后台运行,不干扰用户同步使用手机做其他事项。用户可通过通知或“实时视图”监控任务进度,也可随时终止任务或切换为手动接管。当购物车准备就绪,确认下单支付的敏感步骤仍交由用户亲自完成。
这套Gemini多步骤自动化能力,也将于今年3月登陆谷歌自研的部分Pixel 10系列手机。三星S26系列和Pixel 10系列上的Gemini助手只是试运行版本,目前仅支持精选的外卖、杂货和网约车类应用。Sameer Samat透露,未来将继续扩展以支持更多应用程序。
根据Sameer Samat接受Wired杂志采访时的说法,Gemini自动化手机助手采用了基于视觉识别的GUI(图形界面识别)技术路线——依靠读取屏幕内容和模拟操作来完成任务,无需逐一和各家App进行接口适配。Sameer Samat说,Gemini会运用其推理能力制定计划,像用户一样查看屏幕,并进行导航。即使App的界面后续发生变化,Gemini仍能判断出该如何操作。
谷歌官网2月25日发布的一篇技术博客介绍,为支持AI助手的自主操作能力,谷歌正在开发一套UI(界面)自动化框架,使AI智能体和助手能够在用户已安装的应用中执行通用任务。
谷歌所选择的GUI智能体路线,与此前豆包手机的方案同属一类。2月27日,“豆包手机助手”官方公众号在一则声明中就此表示,屏幕视觉理解与自动化操作能力,是当前全球AI终端领域的前沿技术创新方向。任何前沿技术的发展与成熟,都需要持续的迭代完善。
对于三星和谷歌的合作,中兴通讯终端事业部总裁、努比亚总裁倪飞也在2月26日发文称,很高兴看到国际巨头正式跟进这条赛道,“虽然比我们努比亚M153豆包手机技术预览版发布晚了三个月,但这也印证了努比亚率先探索的AI智能体是手机行业的共同方向。”
不过,在中国市场,手机助手GUI路线已成为大厂“口水战”的矛盾点。2025年12月豆包手机发布后,因该路线方案涉及调用手机底层敏感权限,一度引发公众隐私担忧,同时引起是否需获得第三方App授权才能调用的争议。随后,豆包手机限制了AI助手自主调用腾讯系、阿里系等厂商App的能力,以换取豆包手机用户能正常使用这些应用。
谷歌同样意识到GUI路线带来的隐私保护挑战。Sameer Samat告诉媒体,出于隐私考量,谷歌没有在首批用于任务自动化的应用中包含任何过于敏感的应用。他强调,AI助手获取的数据不会用于广告,用户也可以删除Gemini获取的数据。
据谷歌官网介绍,Gemini助手从三个维度来保障用户的安全和隐私:一是用户的控制权。AI助手根据用户的指令启动,并在任务完成后立即停止;二是透明机制。用户可以通过通知实时监控 Gemini的执行进度;三是访问权限控制。Gemini通过手机上一个安全的虚拟窗口运行所需应用。这意味着Gemini只能访问被调用的有限App,而无法触及手机设备上的其他应用。
值得注意的是,谷歌并未完全依赖GUI方案,同时开发了一套类似于MCP(模型上下文协议)的技术框架——AppFunctions。MCP是一类标准的通信协议,用于智能体与外部应用工具的交互。安卓开发者官网上介绍,借助AppFunctions,安卓应用程序可以将特定功能和数据开放出来,供各种AI智能体发现和调用。简而言之,开发者能让App成为可被AI智能体调用、执行任务的工具。AppFunctions适用于搭载Android 16系统或更高版本的设备。
在三星S26系列中,三星手机图库与Gemini的集成展示了AppFunctions的实际应用场景:当用户要求Gemini查找图库中的猫咪照片时,Gemini会解析用户请求,智能识别并触发相应功能,然后将三星图库中相应的照片直接显示在Gemini应用中,用户无需离开当前界面即可完成操作。
AppFunctions所代表的API(应用程序编程接口)技术方案,在中国的典型玩家是阿里千问。1月中旬,阿里旗下AI应用千问App上线生活助理功能,实现点外卖、订机票、订酒店、找餐厅等任务。这套能力的实现,正是基于MCP和A2A协议(智能体间通信协议,用于多个智能体之间的相互通信)。这一路线的优势是更安全、可控,但障碍在于需要海量App厂商完成工程化适配,且厂商愿意开放的能力相对有限。
谷歌方面称,在即将发布的Android 17中,计划将旗下AI自动化能力扩展到更多用户、开发者和设备制造商。今年晚些时候,将公布更多关于如何使用AppFunctions和UI自动化框架的细节。
采写:南都N视频记者 杨柳
热门跟贴