Gemini任务自动化体验：缓慢但令人印象深刻|gemini|应用程序|显式标识|自动化体验|速度

我最近在Pixel 10 Pro和Galaxy S26 Ultra上测试了Gemini的新任务自动化功能，这是首次让Gemini能够代替用户使用应用程序。虽然目前功能有限——仅支持少数几个外卖和网约车服务——且仍处于测试阶段，但这确实是一次令人印象深刻的体验。

速度和体验问题

Gemini使用手机的速度远不如人类。如果你急需叫车，自己操作仍然是最快的选择。不过，任务自动化的设计初衷是在后台运行，让用户可以同时做其他事情，甚至在不看手机时也能继续工作。

在我的测试中，订餐用了整整九分钟。虽然可以观看整个过程——屏幕底部会显示Gemini正在执行的操作，比如"为套餐选择第二份照烧鸡肉"——但看着AI在菜单上寻找明显可见的配菜时，确实让人感到焦急。

准确性表现

尽管速度缓慢，但Gemini的准确性令人满意。它会执行任务直到需要确认订单的最后一步，让用户可以检查结果。在我五天的测试中，从未出现过擅自完成订单的情况，而且需要调整的地方很少。

智能理解能力

最让我印象深刻的是它的智能理解能力。我在日历上添加了次日飞往旧金山的航班信息，然后给Gemini一个模糊的指令："安排一个Uber让我准时到达机场"。由于Gemini可以访问我的邮件和日历，它找到了航班信息，建议11:30或11:45出发（考虑到13:45的航班和我家到机场的距离，这个时间安排很合理），并询问是否要预约其中一个时间。

这种自然语言交互的能力是关键差异所在。与过去十年只能设定计时器和播放音乐的数字助手不同，新的AI助手能够理解自然语言，不会因为你说成"套餐"而不是"餐盘"，或者说成"沙拉"而不是"切丝卷心菜"就卡住。

技术实现的局限性

观察Gemini在Uber Eats上点击和滚动，让一个问题变得显而易见：如果专为AI设计应用程序，肯定不会是现在这个样子。现有应用都是为人类设计的，充满了对AI无用的元素——广告、精美图片等。业界正在通过模型上下文协议（MCP）等方式改善这种状况。

AI模型在以人为中心的界面中推理，感觉像是订披萨最不实用、最脆弱的方式。谷歌Android负责人Sameer Samat告诉我，在缺乏MCP或Android应用函数等更robust方法的情况下，Gemini采用了推理方法。也许这个版本的任务自动化是可能性的预览，或者是推动开发者采用其他方法的方式。

尽管笨拙缓慢，但这确实是迈向移动助手新使用方式的重要第一步，非常有前景。

Q&A

Q1：Gemini任务自动化现在能做什么？

A：目前Gemini任务自动化功能有限，仅支持少数几个外卖和网约车服务，如Uber Eats和Uber等。它可以代替用户在这些应用中执行任务，比如订餐、叫车，甚至可以根据日历中的航班信息智能安排机场接送。不过功能仍在测试阶段，速度较慢但准确性不错。

Q2：使用Gemini自动化订餐需要多长时间？

A：根据测试，Gemini完成一次订餐大约需要九分钟，比人工操作慢得多。但这个功能设计为后台运行，用户可以同时做其他事情。它会执行任务直到需要确认订单的最后一步，让用户检查后再完成购买，这种设计比较安全合理。

Q3：Gemini任务自动化的智能程度如何？

A：Gemini展现了不错的智能理解能力，能够访问用户的邮件和日历信息，理解自然语言指令。比如当用户说"安排去机场的车"时，它能自动查找航班信息，计算合理的出发时间，并提供建议。它还能处理菜单中的复杂选项，比如理解两个半份等于一份的数学逻辑。