去年12月,Google把Gemini塞进Android Auto的时候,没人想到这会是一次「换脑手术」。我开了三个月,发现一个反常识的事实:这个在手机上连定时器都设不利索的AI,到了车里反而成了最靠谱的副驾。
数据很能说明问题:Google Assistant处理多步骤指令的失败率,在车载场景下长期居高不下。而Gemini的接入,本质上给汽车装了一个能推理的认知层——不是更响的喇叭,而是换了个会思考的大脑。
场景一:导航终于听懂人话了
传统车载导航有个老毛病:非黑即白。你要么走A路线,要么走B路线,想中途加个加油站?系统当场死机。
Gemini的处理方式完全不同。上周我从深圳开车去广州,顺口说了句「找条不堵的路,中途加个充电站,别走高速收费那段」。它没反问「您指的是哪段」,而是直接规划了一条绕行北环、经停南沙充电站的路线。
Google工程师在1月的更新日志里提过,这是多轮意图理解的落地——把「不堵」「充电」「避开收费」三个约束条件同时满足,而不是逐个询问确认。
老Assistant在这种场景下的标准回复是「我不明白」。现在Gemini的应对是默默算完,把结果甩到屏幕上。
场景二:跨应用的操作链
车载场景最烦的不是功能少,是功能散。导航、音乐、消息、日历,四个App四个入口,开车时切来切去等于玩命。
Gemini的解法是把操作串成链。我试过一个典型场景:「告诉张三我晚到20分钟,然后放我上周收藏的那个播客,音量调低两格」。
拆解一下这个动作:先打开消息App找到联系人发送延迟通知,再跳转音乐App定位到特定播客,最后调节系统音量。老Assistant会在第一步就卡住,Gemini则能在10秒内走完全流程。
Google把这叫「扩展执行」(Expanded Execution),说白了就是让AI记住中间状态,而不是每步都让用户确认。这个能力在手机上还没完全放开,车里反而先用上了。
场景三:模糊指令的推理补全
开车时说话不可能像写代码那样精确。人说「找地方吃饭」,背后藏着一堆隐含条件:现在几点、附近有什么、偏好什么口味、预算多少。
老Assistant的处理方式是列个列表让你选,本质上把决策压力抛回给用户。Gemini会主动推理:当前时间12:47,判断是午餐场景;结合历史记录,你常去粤菜馆;再过滤掉评分低于4.0的——最后推一家「距离8分钟、现在有位」的选项。
我故意试过一次刁难:「上次去东莞吃的那家,附近有没有类似的」。Gemini从聊天记录里挖出三个月前的一家烧鹅店,在当前位置3公里内找到同品牌分店,还备注了「这家店烧鹅口碑更好,但停车难」。
这种「记得住、联得上、推得准」的能力,靠的是Gemini的长上下文窗口。Google没公布具体数字,但实测它能回溯至少半年的对话记录做关联。
场景四:失败时的降级处理
最意外的改进不是成功的时候,是搞砸的时候。
以前问复杂问题,Assistant要么沉默,要么弹出一堆不相关的搜索结果。现在Gemini会明确告诉你「这个我做不到,但我可以帮你做X」——把开放性请求转成它能处理的封闭任务。
比如我问「这附近有没有适合拍照的地方,最好有老建筑,人别太多」,它先承认「我无法实时获取人流数据」,然后补充「但我可以导航到沙面岛,那里老建筑集中,工作日人流相对较少,需要查看实时路况吗」。
这种「部分满足+明确边界」的交互,比假装听懂然后乱答要体面得多。产品经理把这叫做「优雅的失败」,但用户感知到的只是「这玩意儿不装傻」。
三个月用下来,一个感受越来越清晰:Gemini在车里比在手机里更像一个成熟产品。可能是因为车载场景的需求更聚焦——导航、通讯、娱乐、信息查询,四个核心场景做深比做广更重要。也可能是Google终于意识到,开车时用户输不起,一次理解错误就可能错过高速出口。
1月的更新里,Google给Gemini加了实时视频理解和更长的上下文记忆。这些能力还没完全下沉到车载端,但路线图已经很明显:汽车正在成为AI Agent的第一个完整试验场。
一个值得玩味的细节:Google在官方文档里把车载Gemini定义为「驾驶专用智能体」(Driving-optimized Agent),而不是「助手」的升级。措辞变化背后,是产品定位的彻底转向——从执行命令的工具,变成能自主决策的代理。
我还在等一个功能:让Gemini记住我常走的路线偏好,在没指令的情况下主动建议「今天周五,往常这个点南环很堵,要不要试试新开通的东晓南放射线」。如果这一步落地,导航和助理的边界就彻底模糊了。
你最近一次用车载语音助手是什么时候?它听懂你的真实需求了吗,还是你不得不放慢语速、换个说法、最后干脆自己动手?
热门跟贴