周三下午,一位工程师正对着三块屏幕调试自动化脚本。他面前不再是一个单纯的聊天窗口——Gemini 3.5 Flash正在帮他操作浏览器、读取屏幕内容、执行点击。他在测试的,是Alphabet在6月24日刚发布的一项更新:电脑使用(computer use)功能被直接集成到了Gemini 3.5 Flash模型里。

这不是一个独立工具的上线,而是一次能力的内置。在此之前,电脑使用功能作为一个独立的Gemini 2.5模型存在,开发者需要单独调用。现在,Alphabet把它做成了Gemini 3.5 Flash的原生能力。公司管理层在发布中说得直接——这是该模型在代理式电脑使用任务上表现最好的一次。

打开网易新闻 查看精彩图片

翻一下这句话背后的意思:开发者可以用一个模型完成“推理—视觉理解—动作执行”的闭环。3.5 Flash被赋予了看懂屏幕、做出判断、然后动手操作的能力,覆盖移动端、浏览器和桌面环境。Alphabet瞄准的是让开发者能可靠地构建自定义代理,这些代理不仅会聊,还会干活。

从产品层面看,这次集成的逻辑很明确。过去,开发者想做一个能自动填表、抓取页面数据、或者跨应用执行任务的智能体,得在视觉模型和动作模型之间搭桥。现在这个桥被撤掉了,模型本身能看、能想、能做。这对做自动化测试、RPA替代方案、或者浏览器助手这类产品的团队来说,意味着技术栈的简化。当然,真正跑起来够不够稳、跨应用的兼容性如何,还得等开发者实际踩过坑才知道。

隔了一天,6月22日,Alphabet又放出一个合作消息。Google Cloud和诺基亚签了扩展合作协议,核心是把Gemini系列模型集成到诺基亚的网络软件套件里,具体落地在诺基亚Assurance Center这个平台。管理层透露,诺基亚正在基于Gemini开发六个AI代理。这些代理的目标是帮电信运营商干三件事:快速定位网络问题、降低运维成本、朝着“完全自动化的自驱动运营”迈一步。

这个合作值得注意的地方不在于“又一个大客户用了谷歌云”,而在于AI正在切入一个极其看重稳定性的行业。电信网络出故障不是小事,修复窗口通常以分钟甚至秒计。让AI代理参与故障诊断和修复决策,说明诺基亚对Gemini的多模态能力有一定信心。六这个数字对应的是六个具体的代理,可能是分别负责监控、诊断、调度、修复等不同环节。

把这两个消息放在一起看,能看到一条更完整的线索。Alphabet正在把Gemini从“对话模型”推成“行动模型”。6月24日的更新让Gemini能直接操作界面,6月22日的合作让Gemini能参与电信网络的运维决策。一个是面向开发者的底层能力开放,一个是面向垂直行业的落地场景铺路。两条线都在回答同一个问题:模型除了生成文本,还能替人做什么?

回头看看Alphabet的盘子结构,也能理解为什么这类集成值得关注。Alphabet本身是个控股公司,旗下有Google Services、Google Cloud、Other Bets三大板块。Google Services管着Android、搜索、YouTube这类产品,Google Cloud承载着企业级AI输出,Other Bets藏着更有实验性的项目。电脑使用功能的集成,显然同时利好前两个板块——Cloud侧给了开发者一个更完整的模型能力包,Services侧则可能影响Chrome生态、移动端Google App的体验演进。

这些动作背后,有一个逻辑是所有做AI基础设施的公司都在赌的:开发者想要的不是更聪明的聊天机器人,而是能接管任务的代理。Alphabet这次把电脑使用塞进3.5 Flash,相当于降低了这个能力的获取门槛。模型变全能了,工具链就可以精简。但反过来看,集成越深,开发者对模型的依赖也越重。这条路走得快还是慢,可能不取决于技术,而取决于第一批用起来的开发者,能在实际项目里跑出多少可复用的案例。