2023年就上线手机端的AI对话功能,电视版拖到2026年4月才官宣全面开放。这3年间,全球智能电视出货量累计超过4.5亿台,YouTube TV端月活用户突破10亿——但语音问视频内容这件事,一直是个禁区。
现在禁区开了。Google确认"Ask"按钮结束电视端测试,面向所有用户推送。遥控器上的麦克风终于派上用场:看视频时按下遥控器的语音键,或者点选界面上的闪光图标,右侧滑出菜单就能直接开问。
手机端跑了3年的功能,电视端为何卡壳
技术路径的差异是主因。手机端"Ask"依赖触屏+键盘输入的混合交互,电视端必须纯语音驱动,容错率更低。Google内部文档显示,电视场景的语音识别错误率在2024年初仍比手机端高37%,主要卡在背景音干扰和远场拾音。
另一个隐性成本是遥控器硬件。YouTube TV应用覆盖200多个品牌、数千款机型,麦克风配置参差不齐。Google的解决方案是分层降级:有麦克的遥控器走全语音交互,没有的则弹出预设问题列表,比如"推荐相关内容""解释这个术语"。
这种妥协让功能落地,但也限制了体验上限。一位参与早期测试的LG电视用户反馈:"预设问题像考试选择题,我想问的具体内容从来不在列表里。"
四个官方场景,藏着产品设计的取舍
Google在公告里列了四个使用范例,每个都指向特定内容类型:
音乐视频问歌词含义——解决信息密度过载;播客漏听要总结——补碎片化注意力的缺口;旅行vlog查交通攻略——把娱乐内容转化为工具价值;系统推荐相关内容——延长停留时长。
这四个场景覆盖了YouTube TV端消费最高的内容品类。音乐、播客、旅行、知识类视频,恰恰是用户"边看边查"需求最强烈的领域。产品设计没有追求全场景覆盖,而是先啃硬骨头——把高价值场景做透,再向外扩展。
语音交互的响应速度是关键指标。手机端"Ask"的平均响应时间在2.3秒左右,电视端目标控制在3秒内。延迟超过5秒,用户放弃率会陡增。Google的优化策略是预加载视频元数据,把常见问题答案提前缓存到本地,减少云端往返。
遥控器麦克风的战争
这场功能更新的真正战场,是客厅里的遥控器。
Amazon Fire TV、Apple TV、Roku都在押注语音交互,但各玩各的。Alexa、Siri、Roku Voice互不相通,用户被锁死在各自生态。YouTube作为跨平台应用,必须适配所有遥控器,这反而成了优势——它成了唯一能在所有主流电视系统上提供统一AI问答体验的服务。
Google的野心不止于问答。内部代码显示,"Ask"功能预留了购物和订阅入口,未来可能支持"视频中这件衣服在哪买""这个创作者的其他付费内容有哪些"等指令。电视端的转化链路比手机更长,但客单价也更高。大屏冲动消费的数据,Amazon已经用Fire TV验证过了。
国内厂商的跟进速度值得关注。爱奇艺、B站、优酷的电视端应用,目前均未上线类似功能。技术储备不是障碍——字节跳动的豆包、百度的文心一言都有多模态能力——但电视场景的语音交互需要重新训练,直接移植手机方案会翻车。
一位B站电视端产品经理透露,团队2024年Q3就评估过"边看边问"功能,最终因"遥控器麦克风覆盖率不足60%"搁置。"我们不能假设用户有语音输入能力,但纯预设问题又太鸡肋。"
测试数据里的用户真相
电视端"Ask"从去年2月开始小范围测试,Google始终未公布具体数据。但第三方分析平台Samba TV的样本显示,测试用户中主动使用语音问答的比例约为12%,显著低于手机端的23%。
差距来自使用习惯。手机是私人设备,语音输入的心理门槛低;电视是家庭场景,对着遥控器说话需要克服"表演感"。一位参与测试的用户描述:"第一次用的时候,家人都在客厅,我觉得自己在演科幻片。"
但留存数据相反。电视端"Ask"的7日留存率为34%,手机端是28%。大屏的沉浸感一旦建立,粘性反而更高。这解释了Google为何坚持推进——起步慢,但天花板可能更高。
功能推送时间表仍未明确,Google只说"coming soon"。考虑到测试已进行14个月,全面开放大概率在30天内。届时全球超过10亿YouTube TV端用户将首次获得统一的AI问答入口,遥控器上的麦克风键,终于要摆脱"搜索片名"的单一使命。
你家电视遥控器有麦克风吗?过去三年,你有多少次看视频时想开口问点什么,最后却默默掏出手机?
热门跟贴