你有没有这种感觉——用AI干活,刚开始很爽,越用越不对劲。
让它帮你写方案,它把上周另一个项目的风格混进来了。让它整理数据,它忘了你之前说过要用什么格式,又从头问一遍。最崩溃的是月底一看账单——Token烧了几百块,效果还不如自己干。
这不是你的问题,是现在几乎所有AI Agent的通病。
清华THUNLP实验室、面壁智能和OpenBMB这几天开源了一个叫PilotDeck的东西,在开发者圈已经传疯了。
不是因为又搞了个炫酷的演示,而是因为它试图解决上面这三个最让人头疼的底层问题。
小龙虾凉了吗?不,是它暴露了真问题
2026年初,OpenClaw(小龙虾)火遍全网,GitHub星标24万,国内大厂几乎一夜之间集体"养虾"——腾讯出了QClaw和WorkBuddy,字节出了ArkClaw,阿里出了Qoder,智谱出了AutoClaw,阶跃出了StepClaw。
但半年过去了,身边最早折腾小龙虾的朋友,很多已经不用了。
不是小龙虾不好,是它完成了一个重要的历史使命——让所有人知道AI不只是聊天机器人,它能动手干活——但没来得及解决"长期干活"的问题。
问题出在哪?三个字:记不住。
OpenClaw的记忆是会话级的。对话结束,记忆清零。你教了它三遍怎么排版PPT,第四遍它还是一脸懵。项目做多了,记忆还串台——A项目的配色跑到B项目里,C项目的数据逻辑混进D项目。
更别提Token账单了。有人用小龙虾跑了一周,Token花费比打车还贵。评论区一句大实话:"OpenClaw普通人根本烧不起Token"。
PilotDeck不是又一只虾,思路完全不一样
PilotDeck没有在OpenClaw的框架上修修补补,而是换了一个底层逻辑:以"项目"为最小单元来组织Agent。
这听起来没什么,但你想一想——你真实工作中的基本单位是什么?不是某一次对话,也不是某个Agent,而是一个个项目。
你在做小红书运营,那是一个项目。你在写季度报告,那是另一个项目。你在搞代码重构,那又是第三个项目。
每个项目有自己的上下文、自己的风格、自己的进度。它们不该共享同一团乱糟糟的记忆。
PilotDeck给每个项目建了一个独立的"工作舱"(WorkSpace),里面有专属文件系统、专属记忆、专属技能。你同时开5个项目,5个舱互不干扰,记忆不会串台。
小红书运营舱的记忆里存的是"种草文风格、emoji偏好、发布节奏";数据报告舱的记忆里存的是"表格格式、数据来源、老板习惯"。各有各的,清清楚楚。
这跟Cursor的Workspace或者Claude Cowork的Projects有什么区别?后者的隔离本质上是"文件夹+规则",记忆看不见改不了,技能不会越用越进化,成本分不清哪个项目花了多少。
PilotDeck是把项目当成了一个完整的智能体生存环境,不是把文件夹换了个名字。
最实在的:Token省70%,效果没掉
这是我最想说的部分,因为跟每个人的钱包有关。
AI Agent有个公开的秘密——用起来爽,账单吓人。很多人的应对办法是手动切模型,简单问题用便宜的,复杂问题换贵的。但这个切换本身就很烦,而且频繁切换会打断KV-cache,每次换模型相当于重新"读档",效率反而下降。
PilotDeck的路由方案跟别人不一样——它是在子Agent层面切,不是按每次请求切。
什么意思?一个复杂任务拆成多个子任务后,整个子Agent分配给一个模型跑到底,内部的上下文缓存是连续的。省的不只是Token钱,还有来回切换的性能损耗。
调度规则也很灵活,不是写死的"贵模型做难题、便宜模型做简单题"。
你可以自己定义路由策略,甚至用自然语言告诉它"代码相关走Claude Opus,文本处理走便宜模型"。
实测数据(来源:新智元):
程序员人格测试应用:不开路由10.97美元,开路由1.42美元,省75%
小红书内容生成:不开路由12.58美元,开路由2.83美元,省70%
复杂任务(播客多语言+金融分析+代码文档):主Sonnet 4.6配子MiniMax-M2.7花3.15美元、得分70.6,单体Sonnet 4.6花18.36美元、得分69.1——1/6的价格,效果还略好一点。
而且每个WorkSpace独立算账,"写自媒体文章花了80,邮件花了120,日报花了300",每一分钱都有去处。
还可以接本地部署的模型做子Agent,敏感数据不出本机。
云端负责思考,本地负责执行,省钱和隐私一起解决。
打开AI的脑子改一改
PilotDeck的Memory面板让我觉得最有意思。
每条记忆标着时间戳、来源路径和类型。Project Memory记项目核心定义和进度,Collaboration Feedback记你的偏好。
记错了,点进去改。记忆冲突了,直接删掉错的那条。不用重启对话,不用重新喂一遍偏好。
这解决了一个很烦的问题——AI越用越"不听话"。
之前用别的Agent,你纠正它一次偏好,它记住了,但下次换个会话又忘了。或者更糟糕,它自作主张记了一堆没用的信息,上下文越来越长,推理越来越慢。
PilotDeck还有个很浪漫的功能叫Dream——空闲时段,AI在后台自动回顾整理自己的记忆,就像人类睡觉时整理白天的记忆一样。
如果Dream整理出错了,还能一键回滚。
用人话说:以前的Agent是勤快但健忘的实习生,PilotDeck是想做个越干越默契的老搭档。
但它也不是万能的
说实话,PilotDeck目前也有短板。
上手门槛比那些"开箱即用"的大厂产品高。你需要自己部署、配置模型、理解WorkSpace的组织逻辑。对于纯小白来说,字节ArkClaw那种"打开网页就能用"的体验还是更友好。
评论区也有人质疑:"没觉得比WorkBuddy好,大厂稳定性会更强。"
这话不是没道理——清华是学校,面壁智能是创业公司,在7×24小时稳定运行、企业级支持这些方面,跟腾讯阿里比确实有差距。
而且,整个Agent赛道2026年已经卷成了"百虾大战"。腾讯同时铺了WorkBuddy(办公)和CodeBuddy(编程)两条线,字节的UI-TARS走了纯视觉GUI路线完全不依赖OpenClaw框架,阿里有Qoder和CoPaw双产品——这些大厂产品的工程化成熟度,不是开源项目短期内能比的。
PilotDeck的优势在架构理念——项目级隔离、白盒记忆、智能路由——这些是底层思路的差异。但理念先进不等于产品好用,最终还要看迭代速度和社区生态能不能跟上。
真正值得关心的事
从更大的视角看,PilotDeck解决的那三个问题——记忆隔离、Token成本、白盒可控——恰好是AI Agent从"极客玩具"变成"生产力工具"必须跨越的门槛。
国投证券3月的行业周报显示,字节、阿里、腾讯、智谱等头部厂商已密集发布Claw类Agent产品。
中国Token日均调用量从2024年初到2026年3月激增约1400倍,规模突破140万亿。
当Token变成AI时代的"水电煤",谁能把成本打下来、把可靠性提上去,谁就是下一个阶段的赢家。
PilotDeck是开源的,代码全放在GitHub上。
不管你用不用它,它提出的三个问题值得每个用AI干活的人想想:
你的AI记得住你的偏好吗?你的Token钱花得明白吗?你能打开AI的脑子改改它记错的东西吗?
如果答案都是否,那不管用的是小龙虾还是什么别的,你可能只是在用一种更贵的方式加班而已。
热门跟贴