一句话发两万块红包，一键加购几十种火锅食材，智谱Agent比人更快

新硅NewGeek

2024-11-29 13:17 ·上海

在智谱发布会上，CEO张鹏突然发了两万块的红包。

这实际上是个现场演示，尝试和AI Agent对话，通过一句话的指令，让Agent完成“面对面建群--修改群名--在群里发100个红包，总额20000元”这样一系列流程。

AI很好的完成了这一指令，然而，由于同时加群的朋友太多，硅基君没挤进去。。。痛失200元。

11月29号，智谱推出AutoGLM新升级，这个“帮人类操作手机”的Agent应用这次实现了非常大的进化。

一个月前，硅基君曾评测过这款产品，当时它已经可以完成写点评、点外卖、朋友圈点赞之类的操作，实现了一定程度的智能，但还并未做到“全能”。

硅基君这次也做了一些测试，咱们可以看下这个短视频。

一句话发两万块红包，一键加购几十种火锅食材，智谱Agent比人更快

从前面那段视频可以看出一些明显的特征，首先，它能够连续执行超长任务，在将多个食材加入购物车的过程中没有任何打断。

官方的一条演示Demo中，它甚至可以在采购火锅食材的过程中自主执行54步无打断操作，甚至由于步骤足够多，它的操作速度已经超过了人类手动操作。

其次，它表现出了跨APP的执行能力，同样以咱们开头的视频为例，它在打开小红书识别菜谱，再跳转到美团下单的过程无需手动干预。

这两者实际上展现的是AutoGLM对于任务规划和动作执行的能力升级，相较于上一代“模型理解自然语言”，如今则是“理解并能完美的执行”。

AutoGLM在大众点评中自动筛选餐厅

AutoGLM还推出了自定义短语的功能，咱们可以提前预设一些简单短语，比如你不用再给AutoGLM说：“帮我买一杯瑞幸咖啡，生椰拿铁，五道口店，大杯、热、微糖” 这类超长指令，只需要说“点咖啡”。

还有个“随便模式”，再打开这个功能后就不用担心选择困难症，比如在这一模式下让它点外卖或者点咖啡，它会像抽盲盒一样随机进行决策。

除去移动端的Agent，这次智谱还推出了PC端的GLM-PC，我们也尝试做了一个简单的测评。

一句话发两万块红包，一键加购几十种火锅食材，智谱Agent比人更快

我们在GLM-PC中输入“打开微信，点击Cubox收藏助手，选择所有文件，合并转发给小号1，把tt.pdf文件，转发给no surprise”。

这个命令的难点不在于打开微信，找到联系人，而是能否识别“所有文件”和单独文件的区别。

GLM-PC轻松地完成了任务。

人类使用电脑的过程，是从用眼看图形文字，到用脑规划，再到用手执行点击、输入等操作。从演示来看，GLM-PC的执行方式基本和人类操作的过程完全一样。

但很显然，一方面它的执行速度还有待提高，另一方面可以看到我们给它下的指令几乎精确到了每一个小步骤，这离真正代替人类办公还有点距离。

它更像是一种可能性，这种完全和人类一致的操作模式，意味着理论上只要是为人类设计的应用，在GLM-PC学习之后它都能够执行。这是一种系统级、跨平台的能力，不依赖于 HTML、API，具备更高的能力上限

智谱定义了大模型发展的五个阶段：L1 语言能力、L2 逻辑能力（多模态能力）、L3 使用工具的能力、 L4 自我学习能力、 L5 探究科学规律。

发展至今，大模型已经初步具备了人类与现实物理世界互动的部分能力。“Agent 将极大地提升 L3 使用工具能力，同时开启对 L4 自我学习能力的探索。” 张鹏说。

张鹏表示，未来 GLM 团队将继续加速 agent 模型产品的研发，期待着一句话操作电脑和手机的范式尽快到来。

如今，大模型技术正在改变机器和人的互动方式，基于理解需求、规划与决策、执行行动和自我反思，Agent 将带来符合直觉的人机交互——从人适应机器，到让机器适应人。

苹果(Apple Intelligence)、Anthropic(Computer Use)、谷歌(Jarvis)和 OpenAI(Operator)等企业也已经把 Agent 作为 2025 年的主要关注点。

业内普遍认为，2025 年将是 Agent 爆发之年。Gartner 近期将 agentic AI 列为 2025 年十大技术趋势之一，并预测 2028 年至少有 15% 的日常工作决策将由 agentic AI 自主完成，而这一数字在 2024 年为 0。

与 GenAI 不同，Agent 是目标驱动型的，能够完全执行工作流程，适应、学习、迭代、与其他系统和人类协作，并端到端地完成任务。

在张鹏看来，Agent 可以看作是大模型通用操作系统 LLM-OS 的雏形。

“现阶段，AutoGLM 相当于在人与应用之间添加一个执行的调度层，很大程度上改变人机的交互形式。更重要的是，我们看到了 LLM-OS 的可能，基于大模型智能能力(从 L1 到 L4 乃至更高)，未来有机会实现原生的人机交互。将人机交互范式带向新的阶段。”

全文完。

作者：张泽一

编辑：董道力

视觉设计：疏睿

责任编辑：张泽一

关于「新硅NewGeek」：我们以AI为圆心，追踪科技领域的方方面面，努力用最简单的方式阐述技术是如何改变世界。敬请关注。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴