「AI 实习生,正式上岗了。」
不久前,阿里正式推出 QoderWork ,根据原本的 Qoder 代码 Agent 能力,整体扩展到日常办公场景之后的产物。它的核心诉求只有一个,那就是桌面 AI 不应该停留在「回答问题」,而应该开始「完成工作」。
(图源:QoderWork)
这听起来很耳熟,腾讯的 Mavis、月之暗面的 KimiWork,第三方大神做的 DeepSeek GUI 等等,其实做的都是同一件事——「干翻 Codex」。QoderWork 主打的东西也是很熟悉了,文件整理、数据分析、文档生成、研究整合、浏览器自动化,全包。
当然,相比起 Codex,这类 Agent 最大的优势自然是接地气,QoderWork 底层模型跑的是千问,目前 Qwen 3.7 Max 限时 15 天免费使用,还是非常良心的。
其实呢,这两个月时间「桌面 AI Agent」这个词已经被说烂了,都说要把自己这能干活,但到底是不是呢?以下是雷科技体验完QoderWork 后的结论。
QoderWork 长得就不像聊天机器人,这很重要
QoderWork 和大多数 AI 工具的使用方式差别比较大,比如千问的网页端,一般都是你问一句,它答一句,记录在聊天记录里。QoderWork 的逻辑是任务,你发起一个目标,它把这个目标拆成若干执行步骤,跑完之后把产物落成文件,任务全程保留在任务列表里,可以回溯、可以继续、可以监控——跟悟空更像一些。
听起来这好像也没什么区别,但实际上差别还挺大的。以我们这次实测的某个任务为例,任务模式下,「苹果 WWDC2026 文章」「雷科技商务介绍 PPT」「IFA 2026 专题网页」都作为项目挂在左侧列表,点进去可以查看执行步骤、查看产物文件,也可以在原来的对话里继续调整。如果只是 AI 聊天,那聊完就算了,你得到了一些回答,仅此而已。
(图源:雷科技制图)
QoderWork 的右边设计了「任务监控」区域,它会显示待办步骤、最终文件、工作文件,以及调用过的技能和 MCP 能力。在第一轮文章任务里,任务监控列出了「研究雷科技写作风格-搜集 WWDC 2026 信息-提出选题角度并选定方向-撰写完整文章-生成 Word 文档」这整条执行链路。至少能让用户大概知道 AI 在每个阶段干了什么。
(图源:雷科技制图)
功能层面,QoderWork 有「专家套件」「技能市场」「定时任务」「应用快照」。其中,专家套件的逻辑是面向岗位打包能力,法律、产品、合同、投研、财税,安装完整套装就能直接用,不用自己拼工具。技能市场更接近插件机制,深入研究、数据分析、PPT 生成、Notion 信息图都在里面。第二轮 PPT 测试里,QoderWork 主动调用了 PPT 技能,又在发现系统缺少 Node.js 环境时主动询问用户是否安装依赖。这个行为说明,它有主动补齐工具链的意识,会把任务推进到最终文件。
(图源:雷科技制图)
定时任务就很好理解了,它提供的案例,比如「午间充电站」「每周竞品动态追踪」「每日下载文件夹清理」「每日数据报表更新」,这些任务可以设置成定期自动执行。如果稳定可用,它比普通聊天助手更容易产生长期价值。值得注意的是,目前这些定时任务需要电脑保持唤醒才能执行,断网或者关闭屏幕,就会失效。
(图源:雷科技制图)
另外,应用快照这种新潮功能也同步上线在 QoderWork 上。简单来说,它可以把最前方的应用界面捕获为截图和可读文本上下文,让 QoderWork「看见」用户当前正在用的界面。这是桌面 Agent 真正区别于网页 AI 工具的地方,也是权限门槛最高的地方。开启后需要授予 QoderWork Computer Use、屏幕录制和辅助功能权限,macOS 上首次授权流程可能需要一段时间。
(图源:雷科技制图)
整体来看,作为版本号还在「0.5」的一个桌面级 Agent,QoderWork 该有的功能基本上都有了,技能、任务也给了很丰富的选择,任务链、思考流程也很完善。更值得赞的还是限时免费的 Qwen 3.7 Max,这可能是目前最强的代码模型之一了。
写文章、做 PPT、搞网页,这个Agent真能干活
我们给它设计了三类测试,尽量贴近科技媒体编辑部的实际工作需求。第一轮,让它学习雷科技的写作风格,完全自动化地写一篇苹果 WWDC 2026 的文章,并生成 Word 文档;第二轮,让它从 0 开始制作一份雷科技的商务介绍 PPT;第三轮,让它做一个 IFA 2026 展会报道专题网页,代码、交互、响应式一个都不能漏。
第一轮:写文章报道 WWDC,结果事实有点纰漏。
第一轮任务是让 QoderWork 研究雷科技官网最近文章的写作风格,整理苹果 WWDC 2026 的重点信息,完成一篇符合雷科技风格的稿件,并生成 Word 文档。资料搜索、风格识别、选题判断、长文写作和文档交付,基本上是一个编辑助理的完整工作链路。
QoderWork 完整跑通了,它分析雷科技写作风格,搜集 WWDC 2026 信息,给出三个选题角度,等用户确认方向之后继续撰写,最后生成 Word 文档。这个「等用户确认」的动作值得特别说,它在关键决策节点上停下来,没有擅自推进,说明它在一定程度上具备「可控执行」的意识。
(图源:雷科技制图)
最终产出的文章,标题是《Siri 换脑重生!苹果 WWDC 2026 最大的悬念:补课两年,AI 这仗还能打赢吗?》,正文约 3500 字,包含导语、小标题、观点判断和结尾互动。它努力写成了一篇有立场的科技媒体稿,有短句开头、口语化判断,也有围绕核心问题的结构。
但问题很明显。文章里出现了一些需要强来源支撑的信息,包括「每年 10 亿美元」「1.2 万亿参数 Gemini」「macOS Golden Gate」「放弃 Intel Mac 支持」「第三方 AI 模型作为默认对话引擎」。这些内容没有可靠的公开来源就写进正文,是非常典型的 AI 写稿问题,成稿看起来像样,不代表事实可靠。对科技媒体来说,这一点非常要命。
(图源:雷科技制图)
风格模仿上,「小雷哔哔」「苹果终于急了」「慢如蜗牛」「掰开揉碎了聊」这类表达密度明显偏高,更像是在刻意 cosplay 风格,而不是真正内化了那种有判断力、有信息密度的写法。真正可发的稿子,应该把口语感压一点,把判断和信息量抬高一点。
(图源:雷科技制图)
第一轮其实可以给到 7.5 分,毕竟它能完成编辑助理级别的完整工作流,但还不能当责任编辑,因为事实核验和风险判断仍然需要人工把关。
第二轮:PPT确实做出来了,但审美差强人意。
第二轮任务是让 QoderWork 从 0 开始做一份介绍雷科技的商务 PPT,假设受众是潜在合作伙伴,要求它搜索公开资料,整理媒体定位、内容方向、受众和合作价值,并生成可打开的 PPT 文件。
(图源:雷科技制图)
过程中发生了一件很能说明 QoderWork 能力边界的事:它发现系统缺少 Node.js 和 npm 环境,于是向用户请求安装 Node.js v20 LTS,获得允许后自己下载安装依赖,又继续安装 PPT 技能所需 npm 包,最后生成文件。普通 AI 聊天工具遇到环境缺失时通常停在「建议层」,告诉你该安装什么,但不会自己推进。QoderWork 会主动尝试补齐工具链,把任务真正推进到文件生成,这是一个质的差别。
(图源:雷科技制图)
最终产物是《雷科技商务介绍.pptx》,共 13 页,结构包含封面、目录、雷科技是谁、我们关注什么、内容优势与影响力、为什么值得合作、合作方式和致谢页。PPT 知道这是给合作伙伴看的商务材料,结构逻辑是对的,封面和版式也有一定设计感,卡片、章节页、数据高亮页基本完整。作为 15 分钟左右生成的初稿,效率没话说。
(图源:雷科技制图)
但它最遗憾的问题,是商务 PPT 第一页最重要的东西缺失了:雷科技真实的 logo。它用了生成插画或泛科技视觉代替。说实话,没有公司 logo 对于一份商业合作介绍 PPT 来说,还挺不专业的。
另外就是,目录页还出现了模板残留的「05 I am the chapter name」,最后一页用了英文「Thank you!」,这些是非常低级但非常明显的瑕疵,说明它虽然声称验证了 PPT,但实际上没有做到逐页检查。PPT 内使用的「全平台粉丝 600 万+」「AWE 单次报道阅读 900 万+」等数据,声称来自公开资料,但没有任何脚注或来源说明,用在商务材料里需要重新核实。
(图源:雷科技制图)
第二轮也是 7.5 分。它确实从 0 到 1 做出了可打开、结构完整、有视觉设计的文件,但距离「可以直接发给客户」,其实还是有点距离,不过考虑到目前几乎所有 Agent 做 PPT 都没办法抽一次卡就达到 100% 满意,这个效果尚可接受。
第三轮:做一个展会专题网页,这回完成度很高。
不愧是 Qwen 3.7 Max,这第三轮做一个专题页的效果,确实很牛。
第三轮任务是让 QoderWork 为雷科技做一个 IFA 2026 展会报道专题网页。要求它参考雷科技官网展会专题页,但不照搬设计,页面需要包含首屏大标题、展会导语、重点报道、现场快讯、图集、深度评论、展品分类,用 HTML、CSS 和 JavaScript 生成可本地打开的静态网页。
(图源:雷科技制图)
先检查我们的需求它有没有做到,页面包含 7 个 section:首屏、导语、重点报道、展品速览、现场快讯、图集、深度评论。导航栏可以跳转,卡片有 hover 效果,展品分类支持「全部、AI 硬件、智能汽车、智能家居、手机数码、机器人」的切换。桌面端和 390px 手机宽度下没有横向溢出,也没有控制台报错,移动端切换了汉堡菜单,页面主体能正常显示。0 出错,太完美了。
(图源:雷科技制图)
深色科技风、蓝色高亮、固定导航、几何装饰元素和卡片布局基本完整。更重要的是,它写了真实可运行的代码,功能能跑、交互能触发,而不是生成了一张截图。这一轮最接近「桌面 Agent 帮用户完成一个前端任务」的预期,也是 QoderWork 在三轮测试里表现最扎实的一次。
硬要挑刺的话,还是没有用真实 logo,用了蓝色方块加「L」代替,demo 可以接受,真实上线的版本当然不可以被接受。而且图集和产品视觉大量使用 emoji 代替,机器人、汽车、手机、耳机一排排摆着,因为目前没有上线真实的内容,所以它找了一些乱七八糟的文章来填充,做法是可以被认可的,但就是不太美观。
(图源:雷科技制图)
第三轮的话,我觉得可以给到 8 分,它证明了 QoderWork 在静态网页生成上已经比写稿和 PPT 更接近可交付状态。
这三轮体验下来,可以明显感觉到QoderWork 的确已经实现了从「只会回答」到「能干活」的阶段性跨越,但目前成品的质量可能需要多抽几次卡,多调整一下才能投入到工作流。
国产桌面 Agent,依然只是“实习生”水平
桌面 AI Agent 这件事,最近一年被说了很多次,但真正能让人觉得「它在替我完成工作,而不是在协助我工作」的产品,其实还很少。QoderWork 做到了吗?三轮测试给出的答案是,已经很接近,但完全解放双手还不可能。
这件事的本质其实是一个权力与责任的问题。普通 AI 聊天工具的逻辑是「我给你建议,你来决定」,用户拿到的是一段文字,然后自己决定要不要做。QoderWork 试图改变的是「我直接交付成品,你来使用或者调整」。这一步的跨度,比表面上看起来要大得多。因为「交付成品」意味着 AI 要对内容质量负责,事实准不准确、格式合不合规,而且一旦发生错误,很可能要推倒重来。
(图源:雷科技制图)
QoderWork 目前解决了「从 0 到有初稿」的问题,但还没有解决「从初稿到直接能用」的问题。当然,退一万步来讲,正如上文提说到,现在还没有哪个 Agent 能够说自己 100% 命中,一次抽卡就给出能用的成品。
所以,我们更愿意称 QoderWork 是桌面的「AI 实习生」,它能干活,但未必干得好,它能省去很多刚开始的时间成本,比如写一篇文章,你至少不用一点点收集资料。至于它什么时候能从「能做初稿」进化到「可以放心交付」?这或许就要交给时间去见证了。
热门跟贴