谷歌新模型发布首周,用户讨论热度曲线像极了恋爱关系——前72小时刷屏,第7天开始问"这能干活吗"。
正方:这是多模态的质变时刻
支持者的兴奋点很具体。原生多模态(文本、图像、音频、视频统一处理)不再是拼接,而是"一个大脑"同时理解。开发者实测显示,视频理解延迟从秒级降到毫秒级。
更关键的是上下文窗口。100万token的实测能力,意味着可以一次性丢进去一整部电影的剧本加分镜,让模型直接输出拍摄预算表。这在三个月前还需要拆成十几个提示词。
谷歌这次把"工具使用"做进了预训练。不是后期插件,是模型本身知道该调用日历、地图、代码解释器。这种"原生Agent"架构,被部分工程师认为比竞品的人工编排更优雅。
反方:蜜月期后全是待填的坑
冷静派指出了三个硬问题。
第一,延迟。演示视频很流畅,但真实场景里复杂任务仍需等待。一位产品经理吐槽:"客户不会接受'请稍等,我在思考'超过5秒。"
第二,成本。多模态推理的算力消耗呈非线性增长。100万token的上下文,企业级定价还没公布,但参考行业规律,批量使用可能比纯文本模型贵一个数量级。
第三,最致命的:证明价值。过去18个月,模型能力曲线陡峭,但企业落地曲线平缓。多模态能做什么"以前做不到且值得付费"的事?目前案例集中在创意预览、教育演示,真正的生产流集成还在早期。
我的判断:热恋期结束,才是正经事开始
首周热度是技术发布的标准剧本。真正区分成败的,是第4周到第12周——开发者是否愿意把核心工作流迁移过来,企业是否愿意为多模态能力单独立项。
谷歌的优势在于"全栈可控":自研芯片、自研模型、自有数据(YouTube、地图、搜索)。劣势也在于此:生态封闭性可能重蹈语音助手时代的覆辙。
一个观察指标:三个月内,如果涌现出一批"只有这个模型能做"的爆款应用,热恋期就算续费成功。否则,它只是又一段被记住发布日期、被遗忘使用场景的关系。
毕竟,技术史上的"首周热恋"太多了。能过周年纪念日的,屈指可数。
热门跟贴