我盯着手机屏幕,看着Gemini(双子座,谷歌AI助手)在Uber Eats菜单里找了整整47秒才定位到那份"清炒时蔬"。它明明就在屏幕最上方。
这是上周六晚上。我用谷歌Pixel 10 Pro测试Gemini的任务自动化功能,让它帮我点一份鸡肉套餐。最终耗时9分17秒。比我手动操作慢了大概8分钟。
但奇怪的是,我并不想骂它。反而有点上头。
它真的在"用"你的手机
过去十年,我们见过太多"AI助手"——Siri、Alexa、小爱同学。它们能设闹钟、查天气、讲笑话。但让它们打开第三方App完成复杂任务?门儿没有。
Gemini这次不一样。它不是在调用API接口,而是真的像人一样看屏幕、点按钮、填表单。
我下的指令很简单:"点一份鸡肉套餐,加一份蔬菜。"Gemini打开Uber Eats,找到我常去的那家日料店,开始执行。屏幕底部实时显示它的思考过程:
「正在选择第二份半份照烧鸡肉以组成套餐」
原来那家店的套餐规则是:主菜可以选两个半份。Gemini自己算出来了。没人教过它这个。
「正在查找配菜选项」
然后它卡住了。 vegetable/greens/side salad,它在几个关键词之间来回切换,屏幕上的菜单滑上滑下。我在旁边干着急:大哥,就在最上面啊。
47秒后,它找到了。
慢,但设计对了
谷歌显然知道这玩意儿有多慢。所以默认设置是:后台运行。
你发出指令,Gemini开始干活,然后你可以切出去回微信、刷抖音、检查护照有没有带——作者Allison Johnson说她会在等AI的时候"第10次确认护照在包里"。
想看它怎么操作的?得专门点一个按钮,打开"观察模式"。
这个设计很鸡贼。它把慢这个致命缺陷,转化成了异步价值。你不需要盯着等,它也不占用手部操作。这和"语音助手必须秒回"的旧逻辑完全不同。
目前支持的App很少:Uber、Uber Eats、DoorDash、Lyft,就这几家。全是外卖和打车。谷歌说还在beta测试。
但覆盖场景选得很准。这两类任务的共同点是:路径固定、决策简单、但步骤繁琐。打开App→搜索地址→选车型/餐厅→选规格→确认支付,五六步操作,纯体力活。
Gemini干的,就是把体力活接过去。
技术路线的豪赌
这里有个关键分歧。
苹果的做法是让开发者接入App Intents(应用意图框架),官方定义好"打车""点餐"的标准接口,AI调用即可。好处是快、稳定、安全。坏处是:开发者得专门适配,覆盖速度极慢。
谷歌选了另一条路:计算机视觉+模拟点击。Gemini不需要Uber开放接口,它直接"看"屏幕,像人一样找按钮。理论上,任何App都能用,无需开发者配合。
代价就是你现在看到的:慢、卡、偶尔找不着北。
但谷歌赌的是规模化速度。等苹果说服完TOP1000 App适配意图框架,Gemini可能已经"看懂"了百万个App的界面。这是典型的谷歌打法:用工程能力换生态绕过权。
有个细节很说明问题。Gemini在执行时,界面底部会显示一行小字:「Gemini正在使用Uber Eats」。不是"调用Uber Eats API",是"使用"。这个词选得很微妙——它在强调代理性,而非工具性。
现在有多菜,未来就多狠
说实话,现在的体验远谈不上完美。
我测试了三次打车。两次成功,一次Gemini在车型选择页面循环了3分钟,最后报错"无法完成"。原因未知,可能是某个弹窗遮挡了关键按钮。
点餐更复杂。不同餐厅的套餐规则千差万别,Gemini偶尔会"理解错"——把"大份"当成"双份",或者忽略"不要洋葱"的备注。你得盯着,随时准备接管。
但让我上头的正是这些笨拙的瞬间。
以前的AI助手出错,你根本不知道发生了什么。黑箱。Gemini把整个过程摊在屏幕上:我在看这里、我在点这个、我卡住了。这种可观测的笨拙,反而建立了信任。
而且它在学习。同一个餐厅第二次点餐,速度明显快了一些。谷歌的说明文档提到,Gemini会在本地保留"任务记忆",优化重复场景的执行路径。
更关键的是跨App串联的潜力。现在的测试版还局限于单App内操作,但技术架构支持多步骤流程。想象一下:"查一下今晚有没有球赛,有的话订个餐厅,再叫车过去,顺便设个日历提醒。"
一句话,五个App,全自动。
这才是谷歌真正的野心。不是替代你点外卖,而是替代你管理琐碎的执行链条。
手机交互的范式转移?
有个场景让我印象很深。
周六晚上点完餐,我把手机放桌上,去厨房倒水。回来看到Gemini的完成通知:订单已确认,预计35分钟送达。整个过程我没碰一下屏幕。
这种离手体验在智能手机历史上几乎不存在。iPhone把我们从PC桌前解放到任何地方,但我们还是被困在屏幕前——拇指不停滑动,眼睛紧盯界面。
Gemini试图打破这个循环。你发号施令,它埋头苦干。交互单位从"次"变成"件",从点击变成意图。
当然,现在的实现还很粗糙。9分钟点外卖,在真实生活中不可接受。后台运行是遮羞布,不是解决方案。
但方向是对的。而且谷歌有数据飞轮:越多人用,Gemini见过的界面越多,执行越快。这个闭环一旦转起来,苹果的应用意图框架可能根本追不上。
Allison Johnson在测试后写了句话:「这是我第一次在手机上看到真正的AI助手在工作——不是在发布会Keynote里,不是在会展中心的精心布置的Demo间里。」
我同意前半句。后半句得加限定:在极其有限的场景下,以极其笨拙的方式。
但笨拙的真理,胜过精致的谎言。
我们习惯了AI公司画大饼:明年实现、即将推出、敬请期待。Gemini任务自动化是反过来的——它先给你看一个残次品,慢、卡、覆盖少,然后告诉你:这就是未来,只是还没修好。
这种诚实反而让人不安。因为如果这就是起点,终点会是什么样子?
目前Gemini任务自动化仅限Pixel 10 Pro和Galaxy S26 Ultra,需要Android 16系统。谷歌说"今年晚些时候"扩大覆盖,没给具体时间表。
我打算继续用。不是因为现在好用,是因为想亲眼看着它变快。9分钟到5分钟到2分钟到30秒——这个压缩过程本身,就是AI时代最硬的干货。
热门跟贴