11月29日上午,智谱Agent OpenDay暨武清大数据产业创新联盟大模型交流活动在高村数智创新园成功举办。本次活动的主题是“Agent交互新体验”,由武清区数据局指导,高村数智创新园与北京智谱华章科技有限公司(以下简称“智谱”)联合主办,武清区大数据产业创新联盟与高村数智创新园企业家俱乐部共同承办。本次智谱OpenDay武清分会场活动以北京主会场联动直播的形式呈现了Agent最新发展动态。
人类与机器的互动方式正在发生范式转变——这是由于只有对话功能的 Chatbot,正在进化为“有手、有脑、有眼睛”的自主 Agent。
作为探索 Agent 的大模型企业之一,智谱今天带来了多个新进展:
AutoGLM可以自主执行超过 50 步的长步骤操作,也可以跨 app执行任务
AutoGLM 开启「全自动」上网新体验,支持等数十个网站的无人驾驶
像人一样操作电脑的 GLM-PC 启动内测,基于视觉多模态模型实现通用Agent技术探索
AutoGLM挑战更复杂
新升级的 AutoGLM 可以挑战完成复杂任务:
超长任务:理解超长指令,执行超长任务。并且,在这种多步、循环任务中,AutoGLM 的速度表现超过人手动操作。?跨App:AutoGLM 支持跨 App 来执行任务。由于目前 AutoGLM 形态更像是用户和应用间的APP执行的调度层,因此跨 App 能力是里面非常关键的一步。
短口令:AutoGLM 能支持长任务的自定义短语。今天不用再给 AutoGLM 说:“帮我买一杯瑞幸咖啡,生椰拿铁,五道口店,大杯、热、微糖” ,只需要说“点咖啡”。
随便模式:我们都会陷入选择恐惧,AutoGLM 今天可以主动帮你做出决策。随便模式下所有步骤都让 AI 决策,带来有抽盲盒式的惊喜。
同时 AutoGLM 启动大规模百万内测,并将尽快上线成为面向 C 端用户的产品。AutoGLM 同时宣布启动「10个亿级 APP 免费 Auto 升级」的计划,邀请 App 伙伴联合探索自己的 Auto 新场景。
支持核心场景和核心应用的 AutoGLM 标品 API,即将上线到智谱 maas 开放平台试用。
Web 端开启「全自动」上网新体验:智谱清言插件上线 AutoGLM 功能,支持搜索、微博、知乎等数十个网站的无人驾驶。在现场demo里,清言插件自动完成了“在百度搜索芒果tv,打开小巷人家,播放最新一集,发弹幕结局打卡”。全程没有人的干预。
一次“无人驾驶”的技术探索
不只是基于手机和浏览器,智谱还带来基于 PC 的自主Agent。GLM-PC 是 GLM 团队面向「无人驾驶」PC的一次技术探索,基于智谱的多模态模型 CogAgent。目前开放第一阶段的内测场景,包括:
会议替身:帮用户预定和参与会议,发送会议总结。
文档处理:支持文档下载、文档发送、理解和总结文档。网页搜索与总结:在指定平台(如微信公众号、知乎、小红书等)搜索指定关键词,完成阅读、总结。
远程和定时操作:远程手机发指令,GLM-PC 可以自主完成电脑操作;设定一个未来时间,在开机状态下定时执行任务。
隐形屏幕:在用户工作时,GLM-PC 可以在隐形屏幕上自主完成工作,解放屏幕使用权。
与 OpenAI 有所不同,智谱定义了大模型发展的五个阶段:L1 语言能力、L2 逻辑能力(多模态能力)、L3 使用工具的能力、 L4 自我学习能力、 L5 探究科学规律。
发展至今,大模型已经初步具备了人类与现实物理世界互动的部分能力。“Agent 将极大地提升 L3 使用工具能力,同时开启对 L4 自我学习能力的探索。” 智谱 CEO 张鹏说。
张鹏表示,未来 GLM 团队将继续加速 agent 模型产品的研发,期待着一句话操作电脑和手机的范式尽快到来。
大模型从 Chat 走向 Act
如今,大模型技术正在改变机器和人的互动方式,基于理解需求、规划与决策、执行行动和自我反思,Agent 将带来符合直觉的人机交互——从人适应机器,到让机器适应人。
苹果(Apple Intelligence)、Anthropic(Computer Use)、谷歌(Jarvis)和 OpenAI(Operator)等企业也已经把 Agent 作为 2025 年的主要关注点。业内普遍认为,2025 年将是 Agent 爆发之年。Gartner 近期将 agentic AI 列为 2025 年十大技术趋势之一,并预测 2028 年至少有 15% 的日常工作决策将由 agentic AI 自主完成,而这一数字在 2024 年为 0。
与GenAI不同,Agent 是目标驱动型的,能够完全执行工作流程,适应、学习、迭代、与其他系统和人类协作,并端到端地完成任务。在张鹏看来,Agent 可以看作是大模型通用操作系统 LLM-OS 的雏形。
“现阶段,AutoGLM 相当于在人与应用之间添加一个执行的调度层,很大程度上改变人机的交互形式。更重要的是,我们看到了 LLM-OS 的可能,基于大模型智能能力(从 L1 到 L4 乃至更高),未来有机会实现原生的人机交互。将人机交互范式带向新的阶段。”
AI 时代智能设备新范式
随着大模型能力的不断进化,我们慢慢看到 AI 长出了自己的脑、眼和手,感知能力和交互带宽在不断丰富和拓展。智谱 COO 张帆表示,智能设备在大模型的加持下,将会焕发出新的机会。手机+AI 会变成随身个人智能助理,PC+AI 将会成为全新生产力工具,汽车+AI 将会让车成为人们的智能第三生活空间。从手机、PC 和汽车,再推广到各类智能设备上,眼镜、家居和各种 edge side 设备,我们看到各种 AI 原生设备正在争相涌现。
随着端侧性能及算力持续提升、为 AI 原生设备适配的模型和端云同源的协同架构出现,更意味着大模型技术更广阔的落地空间。从智能设备走向智能网络,在不久的将来,我们将看到 AI 原生设备的互联互通和无限可能。在这个过程中,智谱也将提供一系列的产品和能力,帮助智能设备们拥抱大模型,加速迈向 AI 原生设备新时代。
热门跟贴