智东西6月15日报道,近日,豆包全量上线了任务模式。打开应用后可以发现,顶部模型切换栏已经从原来的“快速、专家”两档模式,扩展为“快速、专家、任务”三档模式。
为了弄清楚任务模式到底能做什么,智东西第一时间进行了体验。我在任务模式下,直接向豆包提问:“你能完成哪些任务?”
随即,豆包列出了一长串能力清单,其中包括产品设计与开发、文档创作、数据分析、研究整理、多媒体创作、自动化工具以及浏览器网页操作等多个方向。在回答的最后,豆包给出了一个颇为直接的定义:任务模式=端到端完成任务。
可见,豆包此次上线的任务模式,也已经不再只是传统意义上的聊天机器人,而更接近腾讯Workbuddy、月之暗面Kimi Work这类桌面智能体产品。
不过体验下来发现:豆包选择了一条和不少桌面Agent不太一样的路线。
一、豆包能“动手”帮我点咖啡了
最近,瑞幸上线了My Coffee Skill,支持搜索门店、浏览商品、下单、查询订单状态等功能。于是我决定拿这个场景作为第一个测试。
我直接向豆包客户端发送了My Coffee Skill的安装地址。几秒钟后,豆包开始安装My Coffee Skill。
整个过程中,豆包没有弹出任何系统级权限申请窗口。既没有要求访问电脑,也没有要求读取本地文件,更没有申请浏览器控制权限。安装信息显示,这个Skill会被部署到独立运行目录中。
这意味着至少在目前阶段,豆包的思路并不是先获取系统权限,再去完成任务,反而是优先通过Skill机制调用能力。
安装完成后,豆包提示需要配置瑞幸MCP Token。这个Token可以直接在瑞幸AI开放平台获取。
配置完成后,豆包还专门询问是否需要保存Token。保存之后,后续使用Skill时便无需重复配置。
随后豆包开始搜索门店,这里出现了一个比较有意思的现象。它并没有主动获取我的实时位置,而是先整理出门店列表,让我自行指定去哪一家门店取餐。换句话说,即便是在下单场景里,豆包依然没有获得定位权限。
确认门店后,它开始搜索商品并生成订单。在此期间,我故意给出一个相对模糊的需求——少冰。
豆包并没有报错,并且根据商品规则重新调整配置,再次确认订单内容。
最终生成订单后,我又打开瑞幸微信小程序进行了对照。但是无论是商品价格还是优惠券使用情况,两边均不一致,甚至在豆包下单还便宜了3角钱。
完成支付后,豆包继续跟进订单状态,并成功返回取餐码。
几分钟后,我顺利拿到了这杯咖啡。
二、买完咖啡之后,我决定让它顺手做个App
既然已经完成了一次下单,我索性继续加大难度。我把一个咖啡爱好者App的需求直接扔给了豆包。
这个App需要能够记录每日咖啡、统计咖啡因摄入量、生成分享卡片,并支持查看长期数据趋势。
收到需求后,豆包直接进入任务执行状态。与普通聊天模式最大的区别在于,它会主动拆解任务,并实时展示当前执行进度。在此期间,用户可以选择追加信息,也能直接结束任务。
随后,豆包给出了一整套交付结果。除了产品方案和UI设计稿之外,它还生成了完整的SwiftUI代码,以及一个能够直接运行的网页Demo。
▲产品方案与SwiftUI代码
细看这份完整方案文档,豆包是按照一份正式产品文档的结构展开的。
文档开头就先给出产品定位,随后,豆包继续拆出了产品概述、市场定位、用户画像、核心功能、页面流程与交互设计等内容。其中,还包括:核心用户群体、用户使用场景、贴纸式记录系统、咖啡因智能统计、时间流手账首页、分享创意工坊等更细分的模块。
比较有意思的是,这份文档最后还自动写上了版本号、日期和作者信息。作者一栏显示为“SuperDoubaoAgent Product Team”,有点像豆包给自己临时组了一个产品团队。
同时,这份文档出现在一个可继续编辑的文档编辑器里,用户可以继续手动修改内容,也可以直接调用AI继续优化。
打开网页Demo后,一个手机模拟器直接出现在页面中央。
首页展示当天咖啡因摄入量;底部中央按钮用于记录咖啡;
统计页面展示趋势变化;分享页面则负责生成分享卡片。
我也很快发现了一个问题。在初始版本里,底部导航栏中央用于添加咖啡记录的“+”按钮采用了悬浮设计,但位置明显高于两侧导航按钮,看起来并不协调。
如果是传统开发流程,这时候通常需要重新修改代码、编译预览,再查看效果。不过在豆包这里,我直接进入了可视化编辑模式。
选中按钮后,我输入了一句非常简单的需求:“与下方其他按钮水平对齐。”随后豆包开始调整页面布局,并重新生成预览。
与很多AI工具依然围绕代码展开不同,豆包这里已经开始尝试把“设计修改”从代码层抽离出来。对于不会写代码的用户来说,直接描述需求,可能比修改代码更符合直觉。
另一个比较细节的设计是版本管理。每次完成修改之后,系统都会自动生成新的版本记录。用户可以在V1、V2等多个版本之间自由切换。
三、几个开发小细节,让代码小白狂喜
做完基础Demo之后,我还给豆包追加了一个需求:为每一杯咖啡添加精美贴图。
收到需求后,豆包立马分析了贴图对于产品体验的影响,随后规划了贴图设计方案、页面替换方案以及后续渲染逻辑。随后,它又进一步拆分出贴图显示优化、页面渲染更新以及功能实现等多个子任务,并逐步推进。
完成修改之后,网页Demo中的咖啡记录与选择页面直接发生了变化。原本较为简单的文字被替换成了风格统一的咖啡插画,整体视觉丰富了不少。
与此同时,贴图的配色也延续了产品原本的咖色系设计,没有出现明显的风格割裂。
完成贴图之后,我又继续追问:还能增加什么功能?这一次,豆包直接给出了25+个功能创意。
既包括咖啡因摄入预警、年度咖啡报告、咖啡地图,也包括咖啡豆收藏、好友打卡、冲煮记录等偏社区方向的功能。对于缺乏产品经验的用户来说,相当于多了一位能够持续提供创意的产品经理。
五、图片、文案、视频一起上,能调度更多工具
最后,我又加了一个更进一步的任务。豆包既然能把App做出来了,不如顺手借助其生图和生视频的能力,再生成一支宣传视频。
收到需求后,豆包开始自动规划任务。先调用生图工具生成宣传图,再匹配上广告文案,随后拆解镜头和分镜。
不过在最终的视频生成环节,工具出现了异常。最终,豆包判断当前更可能是视频工具服务异常。
随后,豆包主动给出两种替代方案:一种是利用现有素材在剪映中快速制作简单视频;另一种则是保留完整视频脚本和分镜,等待后续重新生成。
虽然最终广告片没有成功产出,但整个过程中能够明显感觉到Agent与传统聊天机器人的区别。
任务模式下,豆包已经不只是回答问题,而是能够围绕一个目标任务,调用Skill、连接MCP,并协调代码、图片、视频等不同工具共同完成工作。
同时,豆包也选择了一条相对克制的路线。
至少从本次体验来看,无论是咖啡下单还是App开发,它都没有主动获取定位权限,也没有申请电脑控制权限或本地文件访问权限。相比一些强调“接管电脑”的桌面Agent产品,豆包在有限权限下,尽可能完成更多任务。
对于拥有庞大用户规模的产品来说,这条思路或许更容易落地。
从此次上线的任务模式来看,豆包显然已经不满足于继续做一个聊天机器人,也开始向桌面Agent方向迈进。而这条赛道上已经站着Codex、Claude Code,以及积累了一定AI办公场景经验的腾讯WorkBuddy。
对于豆包来说,任务模式或许只是第一步。未来,豆包究竟能够接管多少工作,又会以什么方式接管,仍值得持续观察。
热门跟贴