豆包会做任务了，成功帮我薅了瑞幸的羊毛

智东西

2026-06-15 22:28 ·北京 ·智东西官方网易号

AI应用风向标（公众号：ZhidxcomAI）作者｜江宇编辑｜漠影

智东西6月15日报道，近日，豆包全量上线了任务模式。打开应用后可以发现，顶部模型切换栏已经从原来的“快速、专家”两档模式，扩展为“快速、专家、任务”三档模式。

为了弄清楚任务模式到底能做什么，智东西第一时间进行了体验。我在任务模式下，直接向豆包提问：“你能完成哪些任务？”

随即，豆包列出了一长串能力清单，其中包括产品设计与开发、文档创作、数据分析、研究整理、多媒体创作、自动化工具以及浏览器网页操作等多个方向。在回答的最后，豆包给出了一个颇为直接的定义：任务模式=端到端完成任务。

可见，豆包此次上线的任务模式，也已经不再只是传统意义上的聊天机器人，而更接近腾讯Workbuddy、月之暗面Kimi Work这类桌面智能体产品。

不过体验下来发现：豆包选择了一条和不少桌面Agent不太一样的路线。

一、豆包能“动手”帮我点咖啡了

最近，瑞幸上线了My Coffee Skill，支持搜索门店、浏览商品、下单、查询订单状态等功能。于是我决定拿这个场景作为第一个测试。

我直接向豆包客户端发送了My Coffee Skill的安装地址。几秒钟后，豆包开始安装My Coffee Skill。

整个过程中，豆包没有弹出任何系统级权限申请窗口。既没有要求访问电脑，也没有要求读取本地文件，更没有申请浏览器控制权限。安装信息显示，这个Skill会被部署到独立运行目录中。

这意味着至少在目前阶段，豆包的思路并不是先获取系统权限，再去完成任务，反而是优先通过Skill机制调用能力。

安装完成后，豆包提示需要配置瑞幸MCP Token。这个Token可以直接在瑞幸AI开放平台获取。

配置完成后，豆包还专门询问是否需要保存Token。保存之后，后续使用Skill时便无需重复配置。

随后豆包开始搜索门店，这里出现了一个比较有意思的现象。它并没有主动获取我的实时位置，而是先整理出门店列表，让我自行指定去哪一家门店取餐。换句话说，即便是在下单场景里，豆包依然没有获得定位权限。

确认门店后，它开始搜索商品并生成订单。在此期间，我故意给出一个相对模糊的需求——少冰。

豆包并没有报错，并且根据商品规则重新调整配置，再次确认订单内容。

最终生成订单后，我又打开瑞幸微信小程序进行了对照。但是无论是商品价格还是优惠券使用情况，两边均不一致，甚至在豆包下单还便宜了3角钱。

完成支付后，豆包继续跟进订单状态，并成功返回取餐码。

几分钟后，我顺利拿到了这杯咖啡。

二、买完咖啡之后，我决定让它顺手做个App

既然已经完成了一次下单，我索性继续加大难度。我把一个咖啡爱好者App的需求直接扔给了豆包。

这个App需要能够记录每日咖啡、统计咖啡因摄入量、生成分享卡片，并支持查看长期数据趋势。

收到需求后，豆包直接进入任务执行状态。与普通聊天模式最大的区别在于，它会主动拆解任务，并实时展示当前执行进度。在此期间，用户可以选择追加信息，也能直接结束任务。

随后，豆包给出了一整套交付结果。除了产品方案和UI设计稿之外，它还生成了完整的SwiftUI代码，以及一个能够直接运行的网页Demo。

▲产品方案与SwiftUI代码

细看这份完整方案文档，豆包是按照一份正式产品文档的结构展开的。

文档开头就先给出产品定位，随后，豆包继续拆出了产品概述、市场定位、用户画像、核心功能、页面流程与交互设计等内容。其中，还包括：核心用户群体、用户使用场景、贴纸式记录系统、咖啡因智能统计、时间流手账首页、分享创意工坊等更细分的模块。

比较有意思的是，这份文档最后还自动写上了版本号、日期和作者信息。作者一栏显示为“SuperDoubaoAgent Product Team”，有点像豆包给自己临时组了一个产品团队。

同时，这份文档出现在一个可继续编辑的文档编辑器里，用户可以继续手动修改内容，也可以直接调用AI继续优化。

打开网页Demo后，一个手机模拟器直接出现在页面中央。

首页展示当天咖啡因摄入量；底部中央按钮用于记录咖啡；

统计页面展示趋势变化；分享页面则负责生成分享卡片。

我也很快发现了一个问题。在初始版本里，底部导航栏中央用于添加咖啡记录的“+”按钮采用了悬浮设计，但位置明显高于两侧导航按钮，看起来并不协调。

如果是传统开发流程，这时候通常需要重新修改代码、编译预览，再查看效果。不过在豆包这里，我直接进入了可视化编辑模式。

选中按钮后，我输入了一句非常简单的需求：“与下方其他按钮水平对齐。”随后豆包开始调整页面布局，并重新生成预览。

与很多AI工具依然围绕代码展开不同，豆包这里已经开始尝试把“设计修改”从代码层抽离出来。对于不会写代码的用户来说，直接描述需求，可能比修改代码更符合直觉。

另一个比较细节的设计是版本管理。每次完成修改之后，系统都会自动生成新的版本记录。用户可以在V1、V2等多个版本之间自由切换。

三、几个开发小细节，让代码小白狂喜

做完基础Demo之后，我还给豆包追加了一个需求：为每一杯咖啡添加精美贴图。

收到需求后，豆包立马分析了贴图对于产品体验的影响，随后规划了贴图设计方案、页面替换方案以及后续渲染逻辑。随后，它又进一步拆分出贴图显示优化、页面渲染更新以及功能实现等多个子任务，并逐步推进。

完成修改之后，网页Demo中的咖啡记录与选择页面直接发生了变化。原本较为简单的文字被替换成了风格统一的咖啡插画，整体视觉丰富了不少。

与此同时，贴图的配色也延续了产品原本的咖色系设计，没有出现明显的风格割裂。

完成贴图之后，我又继续追问：还能增加什么功能？这一次，豆包直接给出了25+个功能创意。

既包括咖啡因摄入预警、年度咖啡报告、咖啡地图，也包括咖啡豆收藏、好友打卡、冲煮记录等偏社区方向的功能。对于缺乏产品经验的用户来说，相当于多了一位能够持续提供创意的产品经理。

五、图片、文案、视频一起上，能调度更多工具

最后，我又加了一个更进一步的任务。豆包既然能把App做出来了，不如顺手借助其生图和生视频的能力，再生成一支宣传视频。

收到需求后，豆包开始自动规划任务。先调用生图工具生成宣传图，再匹配上广告文案，随后拆解镜头和分镜。

不过在最终的视频生成环节，工具出现了异常。最终，豆包判断当前更可能是视频工具服务异常。

随后，豆包主动给出两种替代方案：一种是利用现有素材在剪映中快速制作简单视频；另一种则是保留完整视频脚本和分镜，等待后续重新生成。

虽然最终广告片没有成功产出，但整个过程中能够明显感觉到Agent与传统聊天机器人的区别。

任务模式下，豆包已经不只是回答问题，而是能够围绕一个目标任务，调用Skill、连接MCP，并协调代码、图片、视频等不同工具共同完成工作。

同时，豆包也选择了一条相对克制的路线。

至少从本次体验来看，无论是咖啡下单还是App开发，它都没有主动获取定位权限，也没有申请电脑控制权限或本地文件访问权限。相比一些强调“接管电脑”的桌面Agent产品，豆包在有限权限下，尽可能完成更多任务。

对于拥有庞大用户规模的产品来说，这条思路或许更容易落地。

从此次上线的任务模式来看，豆包显然已经不满足于继续做一个聊天机器人，也开始向桌面Agent方向迈进。而这条赛道上已经站着Codex、Claude Code，以及积累了一定AI办公场景经验的腾讯WorkBuddy。

对于豆包来说，任务模式或许只是第一步。未来，豆包究竟能够接管多少工作，又会以什么方式接管，仍值得持续观察。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴