打开网易新闻 查看精彩图片

机器之心报道

编辑:冷猫、Panda

「安静!吵到我用 TNT 了!」

打开网易新闻 查看精彩图片

长期关注科技圈的朋友们都知道,罗永浩的锤子科技落幕已经七年。七年间,仍有无数锤科粉丝保留着旧手机备用,怀念手机圈当年的「锐利异类」,以至于锤子手机仍然有百万日活用户。

而锤子科技,罗永浩最大的愿景和遗憾,莫过于号称「重新定义下个十年的个人电脑」,以及闹出了科技圈永生梗「理解万岁」的 TNT。

给不熟悉的读者朋友们简单介绍下:TNT 全称 Touch&Talk,通过触控 + 语音的方式操作设备。

在那个 AI 尚显稚嫩的年代,这被视为一种激进的赌博;但在大模型爆发的今天,我们惊讶地发现:最高效的手机操作方式,恰恰就是 TNT 构想的那样:按住屏幕把需求说出来,设备自动完成一切。

近些天,豆包手机(豆包手机助手技术预览版)爆火,让能够操作手机的 AI Agent 走入了大众视野。Agent 借助大模型和自动操作系统的设计,让用户凭借自然语言和语音输入,就能自然实现通用的、跨任务的复杂操作。

也因此,人们在震惊于现今大模型 GUI Agent 能力强大之余,也不禁担心个人数据上云的隐私权限问题,几大国民级 App 也都限制了豆包手机助手的访问,再加上搭载豆包的手机一机难求……

除了被大厂生态裹挟,我们有没有另一种选择?有没有一个既能一句话搞定繁杂任务,又能将隐私握在自己手里,甚至人人都能 DIY 的 GUI Agent?

有的兄弟,有的,而且是来自深耕智能体的智谱的明星项目:AutoGLM

就在前天,AutoGLM 正式全面开源

豆包手机之所以遭到所有大厂围剿,因为 AI 手机很可能是下一个时代的流量入口。智谱这波开源直接把能力交给了所有人手上,一己之力把 AI 原生手机的门槛给打平了。

为开源精神点赞!

具体来说,Open-AutoGLM 由一个手机端智能助手框架Phone Agent和一个 9B 大小的模型AutoGLM-Phone-9B共同组成。

打开网易新闻 查看精彩图片

开源地址:https://github.com/zai-org/Open-AutoGLM

从第一个 AI 发出的红包说起

这次开源对行业的影响力,核心来自这次智谱开源的不是一个普通的 GUI agent 模型,而可能是行业最好的模型。

智谱是第一个开始可操作智能体研究的厂商。

时间回到 32 个月前的 2023 年 4 月,智谱就已经开始从零探索 AutoGLM,目标是打造一个不仅能「说」,还能「做」的智能体模型。

2024 年 10 月,AutoGLM 面世爆火,被业界公认为是全球第一个可以真正操控手机的 Agent,迄今也是全球完成度最高的 GUI Phone Use 模型。不是模拟,不是脚本,而是像人一样去「看屏幕」,去分析 UI 布局,然后模拟手指进行点击与滑动。AutoGLM 这个 Phone Use 能力的诞生,是「AI 会用工具」的关键里程碑。

一个月后,它做了一件前所未有的事情:AutoGLM 完成了人类历史上第一个由 AI 全自动发出的红包。

打开网易新闻 查看精彩图片

这个红包意味着大模型「从 Chat 到 Act」的范式转变,语言不再停留在语言本身,而能驱动行动、执行任务。

但我们很快意识到:会动手的 AI,就像刚拿到第一部智能手机的小孩 —— 强大,但也危险。如果它在不该点的地方乱点怎么办?如果某个用户的真实手机被误触隐私应用怎么办?

于是到了 2025 年 8 月,智谱做了一个关键决定:先把 AutoGLM 放进云端的「虚拟手机」里

AutoGLM 2.0 云机版,把 AI 的行动舞台与用户真实手机完全隔离。它看到的屏幕、能执行的点击,都发生在一台安全的虚拟设备上。涉及隐私的 App,比如微信,则选择不开放 —— 不是做不到,而是智谱希望它「先学会规则,再学本事」。

Phone Agent 的实现,依赖于 AutoGLM 的视觉-语言模型。通过理解手机屏幕内容、解析 UI 状态,结合智能规划能力,它能自主完成整套操作流程。

这背后的实现说简单也简单,说复杂也复杂。它由三大核心技术组成:

1.ADB(Android Debug Bridge):手机的「控制器」

AutoGLM 接入安卓系统的 ADB 开发者调试,负责把控制信号送到设备上,实现基本的点按滑动等操作。

2.视觉-语言模型(VLM):AI 的「眼睛 + 大脑」

它能理解手机屏幕上的文本、按钮、图标,识别,操作和实时反馈。

3.智能规划:任务拆解的「策划师」

它能将自然语言任务拆解为可执行步骤,你说一句「发红包给小李」,AI 会自动补全背后的十几步操作链:打开 App、找到联系人、选择金额、确认支付……

AutoGLM 把这三项能力打包成一个完整执行框架,「AI 会用手机」的概念已经在诸多测试中保证了稳定和实用。

一手实测

Open-AutoGLM 究竟有多强?

理论说得再多,不如实战。下面我们就来看看开源版的 AutoGLM 表现究竟如何。

首先,来一个简单任务:发微信。发送以下指令:

给 wupan 发个微信,就说 Panda 的生日快到了,准备个蛋糕,多点水果。

打开网易新闻 查看精彩图片

可以看到,系统启动后,Open-AutoGLM 首先进行了一波「自检」,确认 API 和系统权限无误。在这里,我们可以看到智谱给 Phone Agent 的描述:「AI-powered phone automation」,即「AI 赋能的手机自动化」。

接下来,AutoGLM 会回到任务本身。思考为了完成这个任务,第一步应该执行什么。在终端界面,我们能清晰地看到它的思维链(CoT):

  • 观察:当前在桌面。
  • 思考:任务是发微信,第一步需要找到并打开微信。
  • 行动:点击微信图标。
  • 观察:进入微信列表页。
  • 思考:需要找到 wupan,点击搜索框……

如此迭代进行,直到完成任务。整个过程行云流水,最后它还会像模像样地汇报:「任务已完成」。

而在以上任务执行的同时,我们的手机端则经历了以下过程。很显然,AutoGLM 非常出色地完成了这个初始任务。

打开网易新闻 查看精彩图片

下面,为了更好地展示,我们将使用 scrcpy 将手机投屏到 PC 上,将前后端情况一并录制。此外,为了方便,我们将上面略显繁琐的命令定义为一个 Function,并把它放进 PowerShell 配置文件 (Profile) 里。下面我们只需简单地输出「run "提示词"」即可向 AutoGLM 发送指令。(当然,你也可以 Vibe Code 一个更好看或直观的交互 UI。)

接下来试试 AutoGLM 与小红书的交互。

run "打开小红书,看看有什么有趣的疯狂动物城周边"

打开网易新闻 查看精彩图片

同样,执行非常顺畅,并且在执行过程中,我们还看到 AutoGLM 能够正确地识别和处理弹窗提醒。更让人惊喜的是它的总结能力。它没有机械地罗列标题,而是像个真正的浏览者一样,理解了屏幕上的内容。在最终的反馈中,它汇总了前四个结果:发圈、毛绒公仔、圆珠笔、泡泡玛特盲盒。这说明它不仅「看」到了像素,还「懂」了商品。

AutoGLM 还可以根据用户指令执行连续多步操作,比如你可以让它「先打开维基百科找到五月天的第一张专辑是什么,然后打开 QQ 音乐播放它」:

打开网易新闻 查看精彩图片

我们还能让 AutoGLM 帮助完成一些重复性的繁琐任务,比如应用宝软件更新。当你有一大堆软件需要更新时,加上不时的弹窗,这会变成一个几乎让人有些火大的过程。而如果你有 AutoGLM 这样的 AI 助手,也就是一句话的事儿。

run "打开应用宝,把我的软件更新一下"

打开网易新闻 查看精彩图片

哇哦!真省心。简直是「懒人福音」。面对一大堆待更新的 App 和时不时的弹窗,AutoGLM 耐心地一个个点击。

有趣的是,在更新过程中,AutoGLM 还遭遇了一次「误触」。根据对话记录可以看出,当时弹出了请求更新哔哩哔哩的许可申请,而此时百度地图又刚刚更新完成,于是 AutoGLM 本来打算点击的「更新」变成了「打开」,它也因此意外打开了百度地图。

如果是传统的自动化脚本,这时候已经卡死报错了。但 AutoGLM 展现出了惊人的临场反应:

  • 感知错误:它发现屏幕画面变成了地图,而不是应用宝。
  • 自我修正:它没有由于结果超出预期而自乱阵脚,而是分析当前状况,执行了「返回/退出」操作。
  • 回到正轨:重新回到应用宝界面,继续未完成的更新任务。

这种稳健性才是 Agent 走向实用的关键。

实测过程中,我们发现 AutoGLM 的执行逻辑是通过分析屏幕截图来确定下一步。也因此,AutoGLM 具有非常高的通用性和普适性,并不局限于智谱官方推荐的应用。事实上,只要它能理解手机屏幕截图,便能够执行一步步地完成任务。

举个例子,我们甚至能让 AutoGLM 调用其它 AI 助手来帮助完成更加复杂的任务。

run "打开 Gemini,让它搜索并整理一下智谱的发展历史,最后出具一份深度报告"

打开网易新闻 查看精彩图片

结果堪称完美!Open-AutoGLM 成功打开了 Gemini ,将我们的自然语言指令输入进去,等待 Gemini 生成长文报告,最后将报告内容提取回来。

这一刻,手机里的 App 不再是孤岛。AutoGLM 像是一层「超级胶水」,将本地应用、云端大模型无缝粘合在了一起。这或许就是未来「超级 App」的雏形 ——App 本身不再重要,服务才是核心。

全面开源

人手一个 AI 手机

智谱选择了和封闭生态完全不同的方向。

Open-AutoGLM 的全面开源,意味着开发者、研究者与个人爱好者,都可以沿用 AutoGLM 的执行框架,在自己的产品中复现或延展这个「能动手的 AI」。

此次开源显得诚意十足:

  • 核心模型与推理代码:毫无保留。
  • 工具链:完整的 Phone-Use 框架。
  • 开箱即用:支持 50 多款常用中文 App 的 Demo。
  • 协议友好:模型采用 MIT 协议,代码采用 Apache-2.0 协议。
  • 完善的文档和快速上手指南。

无需担忧的隐私问题

开源彻底改变了隐私的博弈关系。当模型、框架、适配层全部公开后,我们能做的最重要一件事,就是把 AI 完整地搬回到用户的本地设备上运行。

数据无需上云,所有操作记录、App 使用习惯甚至输入内容都能在本机完成处理 —— 没有上传,自然也就没有泄露风险。同时,代码完全透明,任何人都可以验证它是否联网、是否收集数据、是否写入日志,比任何口头承诺都更可靠。

在 AI 手机的概念被炒得火热的今天,我们需要的不是又一个窃取数据的云端黑盒,而是一个透明、可控、私有的智能管家。

行业平等的模型底座

在不远的未来,AI 助手最终会普及到每个用户。而没有人希望,这个能够帮助人们操作手机的助手,一个能够掌控各大应用的入口,是某一个平台独占的资源。豆包手机助手目前被各大 App 限制的现状,已经给出了信号。

这是一次新的人机交互革命,AutoGLM 开源,把 AI 助手的能力彻底开放,变成全行业的公共底座。

Open-AutoGLM 的出现,或许就是 AI Agent 领域的「安卓时刻」:它为那个罗永浩曾梦想过的、动动嘴就能搞定一切的 TNT 时代,铺下了第一块坚实的开源基石。

正如智谱所言:「把我们已经走过的路,变成接下来 Agent 爆发时代大家的起跑线。

未来已来,而且这次,它听你的。

文中视频链接:https://mp.weixin.qq.com/s/ub9_3OETxNjA7NbSrXdW6Q