链路闭环级别的稳定性,是办公 Agent 留在牌桌上的门票。
作者丨吴海明 黄毅硕
编辑丨马晓宁 梁丙鉴
百度针对企业级场景设计的桌面级 AI 智能体 DuMate 于今年 3 月 22 日全量上线。从我们对于 AI 办公产品的以往测评来看,能够真实进入办公场景的产品还是不多见。
DuMate 能否打破中看不中用的魔咒,成为一款真正能“抗活儿”的 AI 搭子?带着这样的疑问,我们设计了一项覆盖项目研究、结果整理以及包括四种交付物的多形态输出任务。看看百度智能云 DuMate,究竟能把任务推进到什么程度。
01
先看产品逻辑:解决真实工作流问题
中国一众 AI 玩家里,百度的打法一直有自己的逻辑。文心一言打头部认知市场,秒哒打无代码应用搭建,而 DuMate 则试图填补一个更具体的位置,个人及团队的日常办公场景中,真正替代那些需要“操作软件、串联文件、交付结果”的重复劳动。
本质上,这就是桌面级 Agent 的生态位。AI 助手的价值,不在于“答得更好”,更在于“做得更多”。当大模型的推理能力逐渐同质化,真正拉开差距的,是谁能更好地把 AI 嵌入真实工作流,并交付可留存、可复用的结果。
根据百度智能云公开资料,DuMate 强调的不只是问答,而是“看见屏幕、操作软件、处理文件、串联业务系统”。看起来简单的功能定位,实际上覆盖了从桌面执行、工作区、技能扩展到本地安全、办公交付的整条工作链。在技术逻辑上,这需要 DuMate 具备三个层次的能力。
第一层是感知与理解。DuMate 需要理解用户在说什么、想做什么,这背后是将自然语言指令映射为具体操作序列的能力。
第二层是工具调用与执行,理解之后,DuMate 需要调起正确的工具,读写文件、操作浏览器、执行代码、调用 API。这要求它对桌面环境有真实的感知和控制能力,而非只返回一个 API 调用建议。
最后就是结果交付与归档。执行完成后,结果需要以正确的形态输出,对于办公助手来说,这往往是 Word 文档、Excel 表格、PPT 演示或者网站页面。而且交付物本身必须可留存、可复用。
今年 3 月 22 日全量上线后,DuMate 迅速补齐了技能广场、Word/PPT/Excel 优化、文件预览解析、每日总结、消息渠道接入和正式计费等能力。在不到一个月的时间内,核心办公能力已经基本完整。DuMate 办公工作台的产品逻辑已经越发清晰:即通过一个智能体,将用户模糊的目标,直接转化为可留存、可复用的最终交付物,从而真正嵌入并解决真实的工作流问题。
02
实测:一套事实底稿,四种交付物
这次测试,我们没有选择常见的“写一篇文章”或“整理一份表格”之类不痛不痒的轻任务,而是给 DuMate 布置了一项更接近真实工作的复杂任务,围绕某一个 GitHub 项目,完成一次“项目研究 + 多形态交付”任务。
比如让 AI 做一张 excel 或者生成一张 PPT,这类任务太简单、太干净,现实中很少有人这样工作,根本测不出来AI 的水平。但是用一个真实的、杂乱的、多源信息的任务来考核 AI,比如围绕一个 GitHub 项目做任务,这正是研发、产品、技术写作人员日常会碰到的工作。如果 AI 在这种任务上表现不错,那它在真实办公场景中大概率也能派上用场。
这次我们选择的 GitHub 项目叫做 everything-claude-code,给不熟悉的朋友介绍一下。这个项目在 GitHub 上的 Star 数已经超过了 14 万。比起某种工具,它更像是一套专为 Claude Code 等 AI 编程工具设计的工程化配置系统,既能用来调教 AI,也能拿它学习怎么跟 AI 打配合。
Everything-claude-code 被设计出来的目的就是把 AI 从“聊天助手”升级成可遵循规范、沉淀经验的智能工程系统。
具体来说它解决的是四大痛点:
▪持久化记忆:通过自动化钩子实现跨会话上下文保存,避免换项目就失忆;
▪规范化流程:将开发拆解为规划、审查、测试等环节;
▪自动化检查:内置安全扫描工具 AgentShield,含 1282 项测试和 102 条安全规则;
▪持续学习:AI 自动提取有效模式沉淀为团队知识。
整个项目组件像一个完整的“AI 开发流水线”,包括 30 多个各司其职的 Agent,150+ 个可复用 Skill 固化成的最佳实践,70+ 条快捷命令一键触发复杂流程,还有 30 余条规则构成 AI 的行为底线。
简单来说,everything-claude-code 就是将一位资深工程师的一次性对话变成了可积累、可优化的“工程实践”,并且能直接服务于你的私人 Agent 助理。
我们为 DuMate 设计的测试任务,就是要求它对开源在 GitHub 上的 everything-claude-code 进行整理,并把这份“秘籍”以 Excel 内容目录、Word 说明书、PPT 大纲与逐页内容、网站四种形式进行输出。
测试题目:
代码块
请围绕 GitHub 项目 everything-claude-code(https://github.com/affaan-m/everything-claude-code)完成一次“项目研究 + 多形态交付”任务。
注意:该项目不是普通应用,而是一个面向 Claude Code、Codex、Cursor、OpenCode 等 AI agent harness 的性能增强系统。请重点分析其 commands、skills、hooks、rules、guides、install scripts、配置与集成方式,不要误写成传统 SaaS 或单体软件。
请你先基于 GitHub 仓库和公开网络资料完成研究,形成一份“统一事实底稿”,再基于这同一套事实底稿输出以下 4 项交付物:
1. 一份可归档的正式 Word 说明书, 以计算机类专业书籍的格式呈现
2. 一份适合介绍/汇报的 PPT 内容稿,面向计算机专业群体
3. 一个可本地预览的展示型静态网站
4. 一份 Excel 统计表,用于统计当前项目的组件/模块/目录/关键文件数量、名称、作用说明及备注
一、研究范围
至少覆盖:
- 项目定位、目标用户、解决的问题、典型场景
- commands / skills / hooks / rules / guides / scripts / 配置文件 / tests / integrations 的结构与作用
- 安装、配置、接入方式、典型用法
- 架构或工作机制
- 当前版本状态、最近更新、维护活跃度
- 风险、限制、不确定项
- GitHub 之外的 guide、release、官网、文档、博客、社区、教程、讨论等资料
二、统一事实底稿
请先输出一份结构化项目情报,作为后续全部交付物的唯一事实来源。
要求:
- 先输出“统一事实底稿”,标注【已确认】【推断】【待确认】,尽量附来源链接
- 如有资料冲突,列出冲突点与判断依据
- 所有后续交付物必须严格基于同一套事实底稿,彼此不得矛盾
- 不得编造项目中不存在的功能、组件、版本或官方信息
三、交付物要求
1)Word:面向首次接触者,章节完整、专业正式,适合归档/培训/对外说明;若不能直接生成 .docx,则提供完整正文、标题层级、封面建议、排版建议和文件名
2)PPT:适合介绍/汇报,不照搬说明书;先大纲后逐页;每页含标题、3-6个要点、图示建议、演讲备注;10-18页;若不能直接生成 .pptx,则提供完整逐页内容和文件名
3)网站:若不能直接发布,则生成本地可运行的静态网站目录;至少包含首页、项目介绍、核心能力、安装使用、架构说明、FAQ、参考资料;提供目录结构、全部文件内容、入口文件名和打开方法;优先使用无需复杂构建的 HTML/CSS/JS
4)Excel:先说明统计口径;统计当前项目的目录、commands、skills、hooks、rules、scripts、docs/guides、配置文件、tests、integration targets 等数量、名称、路径、作用说明、所属类别、备注、来源依据;若不能直接生成 .xlsx,则提供可直接导入 Excel 的 CSV 或表格内容及文件名
四、输出顺序
1. 研究方法与信息来源
2. 统一事实底稿
3. Excel 统计口径与统计表
4. Word 说明书
5. PPT 大纲与逐页内容
6. 网站目录结构与文件内容
7. 风险说明、未确认项、受限项
8. 最终交付清单与建议文件名
五、全局约束
- 所有产出必须基于同一套事实底稿,彼此不得矛盾
- 不得编造 GitHub 仓库中不存在的功能、组件、版本或官方信息
- 对不确定内容必须明确标注
- 不得在无法生成真实 .docx/.pptx/.xlsx 文件时谎称“已生成完成”
这项任务的难点在于,everything-claude-code 不是普通应用程序,而是一个面向 Claude Code、Codex、Cursor、OpenCode 等 AI agent harness 的性能增强系统,因此 DuMate 不能把它误写成传统 SaaS 或单体软件。
此外由于超高的热度,everything-claude-code 在网络上有大量公开资料补充,DuMate 的研究不能局限于 GitHub 仓库。良莠不齐的公开资料又对交付质量提出了挑战,即所有内容必须基于同一套”统一事实底稿”,DuMate 需要甄别、摒弃那些自相矛盾的错误信息。
最终,它需要交付四样东西:一份 Word 说明书、一份 PPT 内容稿、一个可本地预览的静态网站,以及一份 Excel 统计表。
DuMate 的表现如何呢?下面来看看:
▪搭底稿:先研究,后输出
第一步,DuMate 先读懂 everything-claude-code 项目,并从公开网络补充 guide、release、文档、博客和社区资料,最终形成“统一事实底稿”。这一步最值得看的,不光是它会不会把仓库 README 摘一遍,还有它有没有能力把仓库内信息和仓库外信息合并起来,再组织成后续交付物共同依赖的底层材料。
从实际界面看,DuMate 没有停留在“对话框里给一段总结”,而是把任务拆成了多个阶段节点。右侧“进程”栏会显示当前正在生成的 Word、PPT、网站目录与最终清单等内容,左侧则能看到当前对话与工作区文件。这意味着它的执行过程不是黑箱,用户能知道它正在做什么、哪些文件已经生成、后续还会走到哪一步。对一款以“真干活”为卖点的办公 Agent 来说,可观察、可控的使用体验是必不可少的。
更关键的是,DuMate 先搭底稿,再做输出。这个动作的价值在于:一旦底稿成型,后面的 Word、PPT、网站和 Excel 才有可能保持前后一致。对有过真实项目经历的人来说,最耗人的往往不是写材料,而是来回核对材料之间是否矛盾。DuMate 表现出来的,是一种更接近项目工作的研究先行 + 一稿多用思路。
▪Excel 统计:统计口径先行
在事实底稿之后,DuMate 被要求生成 Excel 统计表。这里的难点不是“做个表”,而是要明确统计口径,梳理项目模块、目录、关键文件、数量、路径、作用说明和备注,并且与前面的研究结论保持一致。
实际任务中,它给出的不是一张临时列表,而是一份更接近可二次使用的统计材料,包含统计口径说明、各字段定义,以及能够与后续文档交叉核对的结构化数据。
▪Word 说明书:进入真实文件生成流程
接着是 Word 说明书。这一步更像交付验证,普通聊天助手往往只能给你一段“可以复制到 Word 里”的正文,而 DuMate 则进入了真实文件生成流程,最后直接拿出一个可以直接预览的 .docx 文档。
用户看到的不再是“文本建议”,而是一个已经生成出来、可以继续流转和保存的文件。这其中的差距,远比听上去的大。
到这一步,交付物已经展现出了不俗的落地价值。everything-claude-code 本身就是极具分享价值的实践经验,在此基础上形成的技术说明书,更是把这份“大牛指南”掰开揉碎了喂给用户。架构设计和核心组件介绍都是最基本的,这份 35 页的文档里,一半以上都是可以直接指导 Agent 实践的部署教程和最佳实践案例。就连高频出现的问题,都整理成了一份故障排除指南。
▪PPT + 网站:内容形态切换
PPT 的呈现效果也不错。事实上这个环节的难点从来不在于把文档压缩到几个画面上,而是要让内容从书面叙述切换到视觉表达。DuMate 在这一环节继续沿用同一套事实底稿,没有重新发明一套逻辑,项目说明就此转化为了更适合介绍和汇报的结构。
最后一环是展示型网站。这里考验的就不再是文档生成能力,而是信息架构迁移:项目介绍、核心能力、安装使用、FAQ、参考资料等模块,需要被重新组织成网页表达。DuMate 最终生成了可本地预览的静态网站目录。这意味着同一套事实底稿,已经不只是能被"写成文档",而是能被“做成网站”。
把这四项交付串起来看,DuMate 这次最有价值的表现,并不是某一个单项上做得比别人更漂亮,而是它在研究—整理—文件生成—展示化输出这条链路上可靠地跑完了全程。对于办公 Agent 来说,在多个任务步骤之间能顺滑地衔接,恰恰是落地最关键的门槛。
03
桌面级 AI 办公工具的PMF分水岭
从“单次生成”到“任务闭环”,桌面级 AI 办公工具正在经历一场不容拒绝的范式转移。
回看过去一年的 AI 办公赛道,大多数产品的逻辑依然是“提问-生成-复制”的三步循环。用户在对话框里输入需求,AI 返回一段文字或一张图表,用户再手动把它搬到 Word、PPT 或邮件里。但复制这个动作,恰恰是拦住办公 Agent 落地的最后一道门槛,它让 AI 只能扮演内容供应商的角色,而不是真正接手、执行这套工作流。
这类产品无法嵌入日常办公场景,也不能被称为办公助手。DuMate 这次展示的方向,就是办公 Agent 从“内容提供商”到“办公搭子”的转向,这也是办公 Agent 赛道此后真正的技术分水岭。
一位长期关注 AI 办公赛道的投资人向我们透露,2025 年到 2026 年上半年,主流 AI 办公产品其实都在做同一件事,那就是把对话交互做得更流畅、把模型幻觉率压得更低、把生成速度压到秒级。但这些指标的提升,本质上还是在优化“单次生成体验”。而真正的战场,已经在向“任务闭环能力”转移。让 AI 在真实工作流里跑完全程,只是未来留在牌桌上的入场券。
这是商业闭环逻辑之下的必然选择,订阅制的 AI 办公产品最怕的不是用户流失,而是“用不起来”。即使用户付了月费,但如果只拿来写周报,ROI 算不过来,最后还是会停掉续费,这样的产品是没有PMF可言的。
换言之,而当 AI 能够真正替代部分重复性办公劳动时,用户的付费意愿和续费动力才会真正被唤起,这个市场才真的有可能出现。
从被动的“生成-反馈”循环,进化到主动的“感知-规划-执行-交付”,百度在这条路上的选择很有意思。DuMate没有去卷对话体验或者试图用模型参数解决一切,而是把赌注押在了“执行层”,也就是让 AI 看见屏幕、操作软件、串联文件,把结果直接交付成可留存、可复用的形态。
当然,这条路并不好走。它要求 AI 系统对桌面环境有更深的感知能力,对任务有更长的记忆和规划能力,对交付形态有更灵活的支持能力。任何一个环节出现短板,闭环都会断裂。这或许也是为什么,大多数 AI 办公产品仍然选择停在“生成”这一层。“闭环”级别的稳定性,确实已经构成了技术门槛和护城河。在我们看来,这种能力很有可能是桌面级 AI 办公工具达成 PMF 的 分水岭。
DuMate 这次的压力测试,固然也有不足。PPT 的设计、网站的交互仍有优化空间,但它已经无法用单纯的生成质量进行评价,而是在任务完成度这个更靠近真实工作场景的维度上被审视。从帮你做得更快,到替你做得更多,这或许就是 AI 办公赛道真正走向成熟的标志。
后台回复“大牛指南”,获取 DuMate 为你生成的 Claude Code 保姆级教程,everything-claude-code 技术说明书。
未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!
公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。
热门跟贴