智谱AI推出的AutoGLM沉思高调入场,官方直接定义它为"能探究开放式问题并根据结果执行操作的自主智能体"。这不禁让人想起Manus,同样是能干活的AI Agent,同样声称要解放人类生产力。

打开网易新闻 查看精彩图片

既然都是打工人,那就得拉出来溜溜。恰好我们手头有个真实需求——分析MCP(Model Context Protocol)方面的论文,这可是技术含量拉满的活儿。今天,我们就用这个硬核任务来一场正面PK,看看这两位"赛博打工人"到底谁更懂人类的心思。

评测机构:至顶AI实验室

测评时间:2025年3月29日

评测产品:AutoGLM沉思

主要参数:AutoGLM沉思是智谱AI最新推出的自主智能体产品。它的核心能力在于模拟人类思维过程,完成从数据检索、分析到生成报告的全链路工作。

评测主题:AutoGLM沉思能否吊打Manus?

AutoGLM沉思:智谱AI的新王牌

AutoGLM沉思是智谱AI最新推出的自主智能体产品。它的核心能力在于模拟人类思维过程,完成从数据检索、分析到生成报告的全链路工作。简单来说,就是你交代个活儿,它能自己琢磨着把事情办了。

这次我们测试的是AutoGLM沉思版本,作为智谱旗下的重点产品,它承载着与国际顶尖AI Agent一较高下的重任。

评测设计:一个真实的工作场景

为了公平起见,我们设计了一个标准化的测试任务:

任务要求:

寻找两篇关于MCP(Model Context Protocol)的论文

对每篇论文进行深度解读

生成科普报告,要求深入浅出、具有可读性

内容需适合在微信公众号传播

每篇报告约3000字

需要配图表等视觉元素

这个任务涵盖了信息检索、内容理解、创作生成等多个维度,基本能全面考察AI Agent的综合能力。

Round 1:Manus率先出击

我们先让Manus上场。输入提示词后,Manus的表现相当专业:

任务规划阶段:Manus首先给出了四条建议,要求明确:

  1. MCP的具体领域定义

  2. 论文发表时间要求

  3. 科普报告的篇幅

  4. 是否需要视觉元素

在我们补充了MCP的定义(Model Context Protocol)、3000字左右的篇幅要求,以及需要图表等视觉元素后,Manus立即开始工作。

执行过程:从虚拟机界面可以清晰看到Manus的工作流程:

  1. 准备任务

  2. 搜索MCP相关论文

  3. 从中筛选两篇适合的论文

  4. 第一篇论文的阅读与报告创建

  5. 第二篇论文的阅读与报告创建

整个过程中,Manus访问了大量网页,搜集了丰富的资料。

成果展示:

  • 用时:13分钟

  • 第一篇文章:

    《人机AI与数据的桥梁》

    • 标题精准到位

    • 内容涵盖MCP的核心架构、技术原理

    • 结构清晰,科普性强

  • 第二篇文章

    《技术实现与应用实践》

    • MCP架构详解

    • 生命周期分析

    • 代码示例与部署指南

    • 高级功能介绍

    • 内容更为详实

两篇文章都达到了"深入浅出、适合公众号传播"的标准,可以说是高质量的科普内容。

Round 2:AutoGLM沉思的挑战

接下来轮到AutoGLM沉思登场。我们输入了同样的任务要求。

初始问题:AutoGLM沉思一开始将MCP理解成了其他含义,出现了理解偏差。在我们补充正确的MCP定义后,它开始重新执行任务。

执行过程:与Manus不同的是,AutoGLM沉思的执行过程缺乏进度提示,等待时间较长且让人摸不着头脑。更关键的是:

  • 尝试访问External IP时出现网络超时

  • 多个网站(知乎、某些国外网站)访问受限

  • 由于不是虚拟环境,网络访问存在明显限制

  • 不得不转向其他中文平台获取资料

成果展示:

  • 用时:35分钟

  • 文章标题:

    《大语言模型与外部数据连接的统一标准》

    • 标题偏说明书风格,缺乏吸引力

    • 内容更像是技术介绍文档

    • 科普性和可读性明显不足

    • 缺乏我们要求的"适合公众号传播"的调性

硬核对比:数据说话 1. 生成时间
  • Manus:13分钟

  • AutoGLM沉思:35分钟

AutoGLM沉思耗时接近Manus的3倍,主要原因是网络访问受限导致的重复执行。

2. 理解能力

  • **Manus:**初始理解准确,快速进入工作状态

  • **AutoGLM沉思:**初始出现理解偏差,需要纠正

两者在纠正后都能及时调整,这方面基本打平。

3. 任务分配能力

  • Manus:任务分解清晰,每个步骤都有明确的目标和进度提示

  • AutoGLM沉思:任务执行过程不够透明,缺乏进度反馈

Manus在这一环节明显更胜一筹。

4. 内容生成质量

  • Manus:两篇文章都符合科普要求,标题吸引人,内容深入浅出,结构完整

  • AutoGLM沉思:**内容偏向技术说明书,缺乏科普文章的可读性和传播性

这是最关键的差距所在。

5. 网络访问能力

  • Manus:虚拟机环境,网络访问流畅,信息获取充分

  • AutoGLM沉思:非虚拟机环境,多个网站访问受限,信息获取受阻

技术架构的差异导致了实际使用体验的巨大差别。

结论:Manus暂时领先,但未来可期

从这次硬核评测来看,Manus在当前阶段更胜一筹。它在执行效率、任务规划、内容质量等方面都展现出了更成熟的表现。特别是虚拟机环境带来的网络访问优势,让它能够获取更全面的信息,生成更高质量的内容。

AutoGLM沉思则暴露出一些明显的问题:

  • 网络环境限制严重影响信息获取

  • 内容生成偏向技术文档,缺乏人文关怀

  • 执行过程透明度不足

但是,这并不意味着AutoGLM沉思没有前景。恰恰相反,随着智谱AI推出虚拟机版本、优化网络访问能力,AutoGLM沉思的潜力不容小觑。毕竟,它背后是国产大模型的技术积累,以及对中文场景的深度理解。

更重要的是,这场"神仙打架"的最终赢家永远是我们人类用户。当AI Agent开始内卷,意味着:

  • 更低的调用成本

  • 更精准的指令理解

  • 更聪明的数字助手

AI的进化,终将让每个人都能拥有自己的"赛博打工人"。这个未来,已经在路上了。