你刚问完"明天会下雨吗",紧接着追问"那适合跑步吗"——音箱却装死,逼你重新喊一遍唤醒词。这种断裂感,谷歌现在说要治了。

场景代入:一个被唤醒词折磨的日常

打开网易新闻 查看精彩图片

凌晨六点,厨房。你双手沾着面粉,想查个菜谱。

"嘿,谷歌,番茄炒蛋怎么做?"

"以下是番茄炒蛋的做法……"

"需要放糖吗?"

——沉默。音箱已经进入休眠,等你再次喊它。

这个场景每天都在全球数千万台智能音箱上重演。谷歌4月22日宣布,Gemini for Home将重新上线"连续对话"(Continued Conversations)功能,试图终结这种尴尬。

但讽刺的是,这根本不是新功能。Google Assistant时代,这项能力已经存在多年。现在Gemini版本只是"复活"而非"发明"。

清单一:Gemini版连续对话的三处"升级"

谷歌官方给出了新旧版本的差异点,我们逐条拆解:

① 上下文记忆

旧版Google Assistant的连续对话,本质是多轮指令的机械拼接。新版Gemini号称能"追踪先前对话",这意味着它可能理解指代消解——比如你问完"北京天气"再问"那上海呢",它知道"那"指代天气。

但原文的表述很克制:better contextual responses since it can keep track of your prior conversations。没有承诺理解深度,只说了"更好"。

② 语言覆盖

原版功能支持的语言有限,Gemini版本扩展了语言支持。具体哪些语言?原文没列清单。对于中文用户,这反而是关键悬念——Gemini的中文多轮对话能力是否追平了国内竞品?

③ 抗干扰能力

谷歌提到Gemini for Home将"better at tuning out distracting chatter"(更好地过滤干扰性闲聊)。这是针对误唤醒的优化:当你和旁边的人聊天时,音箱不会误以为你在对它下指令。

这项改进的底层逻辑值得玩味。旧版Google Assistant的语音激活依赖关键词匹配,容易将相似发音误判为唤醒词。Gemini作为大语言模型,理论上具备更强的语义区分能力——能判断一段话是"对音箱说的"还是"背景噪音"。

清单二:谷歌没说的三件事

官方新闻稿的留白,往往比公开信息更有信息量:

① 全量替换时间表:没有

原文明确写道:"Google has not yet provided a date for that wider rollout." Gemini for Home目前仍是早期体验计划,需要用户主动 opt in。这意味着大多数Google Home用户至今仍在用旧版Assistant,连续对话功能对他们而言仍是"未来时"。

谷歌的谨慎不难理解。将 household 设备的语音助手从规则引擎切换到大模型,涉及延迟、成本、隐私三重挑战。音箱的算力有限,Gemini的响应是否能做到"对话级"实时?每次查询都调用云端大模型,边际成本如何控制?这些都没有答案。

打开网易新闻 查看精彩图片

② 与Alexa Plus的跨设备同步:未提及

亚马逊今年早些时候推出了Alexa.com服务,允许Alexa Plus用户在一台设备开启对话、另一台继续。谷歌的连续对话目前仅限于单设备内,跨设备体验仍是空白。

这不是技术差距,而是产品优先级差异。亚马逊将语音助手视为服务入口,强调"随身跟随";谷歌更强调家居场景的中心化控制。两种路径谁更优?取决于用户是"移动优先"还是"家居优先"。

③ 隐私条款变化:沉默

连续对话意味着麦克风需要在响应后保持"活跃监听"状态数秒。旧版Google Assistant的这项功能曾引发隐私争议,用户不确定音箱是否在"偷听"。

Gemini版本如何处理这段"活跃期"的音频数据?本地处理还是上传云端?保留多久?原文只字未提。对于将音箱放在卧室的用户,这是决定是否开启功能的关键变量。

清单三:为什么"复活老功能"本身就是信号

从Google Assistant迁移到Gemini,不是简单的技术升级,而是产品哲学的转向:

① 从"指令执行"到"对话代理"

旧版Assistant的设计假设是:用户知道想要什么,语音只是输入方式。Gemini的设计假设是:用户可能只有模糊意图,需要多轮交互来澄清。

连续对话的回归,标志着谷歌承认"单轮指令"模式的天花板。智能家居的下一步,不是让用户学会下更精确的指令,而是让设备学会处理更模糊的表达。

② 从"功能清单"到"体验完整性"

Google Assistant时代,谷歌热衷于堆砌功能:它能控制一万种设备、回答十万个问题。但用户实际体验是碎片化的——每个功能独立运作,缺乏连贯性。

Gemini的"上下文记忆"试图缝合这种碎片。如果它能记住"你上周问过空调温度偏好",下次直接执行而无需重复确认,这才是真正的智能。

③ 竞争压力下的被迫补课

亚马逊Alexa、苹果Siri、国内的小度/天猫精灵,都在强化多轮对话能力。谷歌的"复活"动作,某种程度上是防御性跟进。但Gemini的底层架构(大语言模型)确实提供了差异化空间——如果它能将网页搜索的上下文理解能力迁移到语音场景。

一个被忽略的细节:Nest Audio的处境

原文配图是Nest Audio音箱,这款产品发布于2020年,至今未更新硬件。Gemini for Home的早期体验计划覆盖的正是这类老设备,而非仅限新款。

这透露了谷歌的策略:用软件升级延长硬件生命周期,而非靠新功能倒逼换机。与苹果HomePod的"功能绑定新款"策略形成对比。对于用户是利好,对于谷歌的硬件营收则是压力。

但老设备的算力能否支撑Gemini的完整能力?原文没有性能数据。如果连续对话的延迟明显高于旧版,用户体验反而倒退。

开放提问

谷歌把"连续对话"包装成Gemini的新能力,但核心体验——免唤醒词的多轮交互——早在六年前就已实现。这究竟是技术跃迁,还是一次必要的功能补完?

更值得追问的是:当所有智能音箱都能"连续对话"后,差异化会出现在哪里?是跨设备的无缝流转,还是真正理解你生活习惯的"记忆"?谷歌押注后者,但用户是否愿意用隐私换取便利,答案尚未揭晓。