谷歌把电脑操控塞进Gemini 3.5 Flash，开发者可以直接用上了|flash|gemini|操控|浏览器|电脑|知名企业|谷歌

周三下午，一位工程师正对着三块屏幕调试自动化脚本。他面前不再是一个单纯的聊天窗口——Gemini 3.5 Flash正在帮他操作浏览器、读取屏幕内容、执行点击。他在测试的，是Alphabet在6月24日刚发布的一项更新：电脑使用（computer use）功能被直接集成到了Gemini 3.5 Flash模型里。

这不是一个独立工具的上线，而是一次能力的内置。在此之前，电脑使用功能作为一个独立的Gemini 2.5模型存在，开发者需要单独调用。现在，Alphabet把它做成了Gemini 3.5 Flash的原生能力。公司管理层在发布中说得直接——这是该模型在代理式电脑使用任务上表现最好的一次。

翻一下这句话背后的意思：开发者可以用一个模型完成“推理—视觉理解—动作执行”的闭环。3.5 Flash被赋予了看懂屏幕、做出判断、然后动手操作的能力，覆盖移动端、浏览器和桌面环境。Alphabet瞄准的是让开发者能可靠地构建自定义代理，这些代理不仅会聊，还会干活。

从产品层面看，这次集成的逻辑很明确。过去，开发者想做一个能自动填表、抓取页面数据、或者跨应用执行任务的智能体，得在视觉模型和动作模型之间搭桥。现在这个桥被撤掉了，模型本身能看、能想、能做。这对做自动化测试、RPA替代方案、或者浏览器助手这类产品的团队来说，意味着技术栈的简化。当然，真正跑起来够不够稳、跨应用的兼容性如何，还得等开发者实际踩过坑才知道。

隔了一天，6月22日，Alphabet又放出一个合作消息。Google Cloud和诺基亚签了扩展合作协议，核心是把Gemini系列模型集成到诺基亚的网络软件套件里，具体落地在诺基亚Assurance Center这个平台。管理层透露，诺基亚正在基于Gemini开发六个AI代理。这些代理的目标是帮电信运营商干三件事：快速定位网络问题、降低运维成本、朝着“完全自动化的自驱动运营”迈一步。

这个合作值得注意的地方不在于“又一个大客户用了谷歌云”，而在于AI正在切入一个极其看重稳定性的行业。电信网络出故障不是小事，修复窗口通常以分钟甚至秒计。让AI代理参与故障诊断和修复决策，说明诺基亚对Gemini的多模态能力有一定信心。六这个数字对应的是六个具体的代理，可能是分别负责监控、诊断、调度、修复等不同环节。

把这两个消息放在一起看，能看到一条更完整的线索。Alphabet正在把Gemini从“对话模型”推成“行动模型”。6月24日的更新让Gemini能直接操作界面，6月22日的合作让Gemini能参与电信网络的运维决策。一个是面向开发者的底层能力开放，一个是面向垂直行业的落地场景铺路。两条线都在回答同一个问题：模型除了生成文本，还能替人做什么？

回头看看Alphabet的盘子结构，也能理解为什么这类集成值得关注。Alphabet本身是个控股公司，旗下有Google Services、Google Cloud、Other Bets三大板块。Google Services管着Android、搜索、YouTube这类产品，Google Cloud承载着企业级AI输出，Other Bets藏着更有实验性的项目。电脑使用功能的集成，显然同时利好前两个板块——Cloud侧给了开发者一个更完整的模型能力包，Services侧则可能影响Chrome生态、移动端Google App的体验演进。

这些动作背后，有一个逻辑是所有做AI基础设施的公司都在赌的：开发者想要的不是更聪明的聊天机器人，而是能接管任务的代理。Alphabet这次把电脑使用塞进3.5 Flash，相当于降低了这个能力的获取门槛。模型变全能了，工具链就可以精简。但反过来看，集成越深，开发者对模型的依赖也越重。这条路走得快还是慢，可能不取决于技术，而取决于第一批用起来的开发者，能在实际项目里跑出多少可复用的案例。