9分钟点完外卖，谷歌AI让我又急又服

硅屿手记

2026-03-23 12:39 ·北京

我盯着手机屏幕，看着Gemini（双子座，谷歌AI助手）在Uber Eats菜单里找了整整47秒才定位到那份"清炒时蔬"。它明明就在屏幕最上方。

这是上周六晚上。我用谷歌Pixel 10 Pro测试Gemini的任务自动化功能，让它帮我点一份鸡肉套餐。最终耗时9分17秒。比我手动操作慢了大概8分钟。

但奇怪的是，我并不想骂它。反而有点上头。

它真的在"用"你的手机

过去十年，我们见过太多"AI助手"——Siri、Alexa、小爱同学。它们能设闹钟、查天气、讲笑话。但让它们打开第三方App完成复杂任务？门儿没有。

Gemini这次不一样。它不是在调用API接口，而是真的像人一样看屏幕、点按钮、填表单。

我下的指令很简单："点一份鸡肉套餐，加一份蔬菜。"Gemini打开Uber Eats，找到我常去的那家日料店，开始执行。屏幕底部实时显示它的思考过程：

「正在选择第二份半份照烧鸡肉以组成套餐」

原来那家店的套餐规则是：主菜可以选两个半份。Gemini自己算出来了。没人教过它这个。

「正在查找配菜选项」

然后它卡住了。 vegetable/greens/side salad，它在几个关键词之间来回切换，屏幕上的菜单滑上滑下。我在旁边干着急：大哥，就在最上面啊。

47秒后，它找到了。

慢，但设计对了

谷歌显然知道这玩意儿有多慢。所以默认设置是：后台运行。

你发出指令，Gemini开始干活，然后你可以切出去回微信、刷抖音、检查护照有没有带——作者Allison Johnson说她会在等AI的时候"第10次确认护照在包里"。

想看它怎么操作的？得专门点一个按钮，打开"观察模式"。

这个设计很鸡贼。它把慢这个致命缺陷，转化成了异步价值。你不需要盯着等，它也不占用手部操作。这和"语音助手必须秒回"的旧逻辑完全不同。

目前支持的App很少：Uber、Uber Eats、DoorDash、Lyft，就这几家。全是外卖和打车。谷歌说还在beta测试。

但覆盖场景选得很准。这两类任务的共同点是：路径固定、决策简单、但步骤繁琐。打开App→搜索地址→选车型/餐厅→选规格→确认支付，五六步操作，纯体力活。

Gemini干的，就是把体力活接过去。

技术路线的豪赌

这里有个关键分歧。

苹果的做法是让开发者接入App Intents（应用意图框架），官方定义好"打车""点餐"的标准接口，AI调用即可。好处是快、稳定、安全。坏处是：开发者得专门适配，覆盖速度极慢。

谷歌选了另一条路：计算机视觉+模拟点击。Gemini不需要Uber开放接口，它直接"看"屏幕，像人一样找按钮。理论上，任何App都能用，无需开发者配合。

代价就是你现在看到的：慢、卡、偶尔找不着北。

但谷歌赌的是规模化速度。等苹果说服完TOP1000 App适配意图框架，Gemini可能已经"看懂"了百万个App的界面。这是典型的谷歌打法：用工程能力换生态绕过权。

有个细节很说明问题。Gemini在执行时，界面底部会显示一行小字：「Gemini正在使用Uber Eats」。不是"调用Uber Eats API"，是"使用"。这个词选得很微妙——它在强调代理性，而非工具性。

现在有多菜，未来就多狠

说实话，现在的体验远谈不上完美。

我测试了三次打车。两次成功，一次Gemini在车型选择页面循环了3分钟，最后报错"无法完成"。原因未知，可能是某个弹窗遮挡了关键按钮。

点餐更复杂。不同餐厅的套餐规则千差万别，Gemini偶尔会"理解错"——把"大份"当成"双份"，或者忽略"不要洋葱"的备注。你得盯着，随时准备接管。

但让我上头的正是这些笨拙的瞬间。

以前的AI助手出错，你根本不知道发生了什么。黑箱。Gemini把整个过程摊在屏幕上：我在看这里、我在点这个、我卡住了。这种可观测的笨拙，反而建立了信任。

而且它在学习。同一个餐厅第二次点餐，速度明显快了一些。谷歌的说明文档提到，Gemini会在本地保留"任务记忆"，优化重复场景的执行路径。

更关键的是跨App串联的潜力。现在的测试版还局限于单App内操作，但技术架构支持多步骤流程。想象一下："查一下今晚有没有球赛，有的话订个餐厅，再叫车过去，顺便设个日历提醒。"

一句话，五个App，全自动。

这才是谷歌真正的野心。不是替代你点外卖，而是替代你管理琐碎的执行链条。

手机交互的范式转移？

有个场景让我印象很深。

周六晚上点完餐，我把手机放桌上，去厨房倒水。回来看到Gemini的完成通知：订单已确认，预计35分钟送达。整个过程我没碰一下屏幕。

这种离手体验在智能手机历史上几乎不存在。iPhone把我们从PC桌前解放到任何地方，但我们还是被困在屏幕前——拇指不停滑动，眼睛紧盯界面。

Gemini试图打破这个循环。你发号施令，它埋头苦干。交互单位从"次"变成"件"，从点击变成意图。

当然，现在的实现还很粗糙。9分钟点外卖，在真实生活中不可接受。后台运行是遮羞布，不是解决方案。

但方向是对的。而且谷歌有数据飞轮：越多人用，Gemini见过的界面越多，执行越快。这个闭环一旦转起来，苹果的应用意图框架可能根本追不上。

Allison Johnson在测试后写了句话：「这是我第一次在手机上看到真正的AI助手在工作——不是在发布会Keynote里，不是在会展中心的精心布置的Demo间里。」

我同意前半句。后半句得加限定：在极其有限的场景下，以极其笨拙的方式。

但笨拙的真理，胜过精致的谎言。

我们习惯了AI公司画大饼：明年实现、即将推出、敬请期待。Gemini任务自动化是反过来的——它先给你看一个残次品，慢、卡、覆盖少，然后告诉你：这就是未来，只是还没修好。

这种诚实反而让人不安。因为如果这就是起点，终点会是什么样子？

目前Gemini任务自动化仅限Pixel 10 Pro和Galaxy S26 Ultra，需要Android 16系统。谷歌说"今年晚些时候"扩大覆盖，没给具体时间表。

我打算继续用。不是因为现在好用，是因为想亲眼看着它变快。9分钟到5分钟到2分钟到30秒——这个压缩过程本身，就是AI时代最硬的干货。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴