用AI干活为什么总是"越用越贵还越笨"？清华这波开源可能治了病根

豆腐脑观察局

2026-05-31 14:05 ·广西

你有没有这种感觉——用AI干活，刚开始很爽，越用越不对劲。

让它帮你写方案，它把上周另一个项目的风格混进来了。让它整理数据，它忘了你之前说过要用什么格式，又从头问一遍。最崩溃的是月底一看账单——Token烧了几百块，效果还不如自己干。

这不是你的问题，是现在几乎所有AI Agent的通病。

清华THUNLP实验室、面壁智能和OpenBMB这几天开源了一个叫PilotDeck的东西，在开发者圈已经传疯了。

不是因为又搞了个炫酷的演示，而是因为它试图解决上面这三个最让人头疼的底层问题。

小龙虾凉了吗？不，是它暴露了真问题

2026年初，OpenClaw（小龙虾）火遍全网，GitHub星标24万，国内大厂几乎一夜之间集体"养虾"——腾讯出了QClaw和WorkBuddy，字节出了ArkClaw，阿里出了Qoder，智谱出了AutoClaw，阶跃出了StepClaw。

但半年过去了，身边最早折腾小龙虾的朋友，很多已经不用了。

不是小龙虾不好，是它完成了一个重要的历史使命——让所有人知道AI不只是聊天机器人，它能动手干活——但没来得及解决"长期干活"的问题。

问题出在哪？三个字：记不住。

OpenClaw的记忆是会话级的。对话结束，记忆清零。你教了它三遍怎么排版PPT，第四遍它还是一脸懵。项目做多了，记忆还串台——A项目的配色跑到B项目里，C项目的数据逻辑混进D项目。

更别提Token账单了。有人用小龙虾跑了一周，Token花费比打车还贵。评论区一句大实话："OpenClaw普通人根本烧不起Token"。

PilotDeck不是又一只虾，思路完全不一样

PilotDeck没有在OpenClaw的框架上修修补补，而是换了一个底层逻辑：以"项目"为最小单元来组织Agent。

这听起来没什么，但你想一想——你真实工作中的基本单位是什么？不是某一次对话，也不是某个Agent，而是一个个项目。

你在做小红书运营，那是一个项目。你在写季度报告，那是另一个项目。你在搞代码重构，那又是第三个项目。

每个项目有自己的上下文、自己的风格、自己的进度。它们不该共享同一团乱糟糟的记忆。

PilotDeck给每个项目建了一个独立的"工作舱"（WorkSpace），里面有专属文件系统、专属记忆、专属技能。你同时开5个项目，5个舱互不干扰，记忆不会串台。

小红书运营舱的记忆里存的是"种草文风格、emoji偏好、发布节奏"；数据报告舱的记忆里存的是"表格格式、数据来源、老板习惯"。各有各的，清清楚楚。

这跟Cursor的Workspace或者Claude Cowork的Projects有什么区别？后者的隔离本质上是"文件夹+规则"，记忆看不见改不了，技能不会越用越进化，成本分不清哪个项目花了多少。

PilotDeck是把项目当成了一个完整的智能体生存环境，不是把文件夹换了个名字。

最实在的：Token省70%，效果没掉

这是我最想说的部分，因为跟每个人的钱包有关。

AI Agent有个公开的秘密——用起来爽，账单吓人。很多人的应对办法是手动切模型，简单问题用便宜的，复杂问题换贵的。但这个切换本身就很烦，而且频繁切换会打断KV-cache，每次换模型相当于重新"读档"，效率反而下降。

PilotDeck的路由方案跟别人不一样——它是在子Agent层面切，不是按每次请求切。

什么意思？一个复杂任务拆成多个子任务后，整个子Agent分配给一个模型跑到底，内部的上下文缓存是连续的。省的不只是Token钱，还有来回切换的性能损耗。

调度规则也很灵活，不是写死的"贵模型做难题、便宜模型做简单题"。

你可以自己定义路由策略，甚至用自然语言告诉它"代码相关走Claude Opus，文本处理走便宜模型"。

实测数据（来源：新智元）：

程序员人格测试应用：不开路由10.97美元，开路由1.42美元，省75%

小红书内容生成：不开路由12.58美元，开路由2.83美元，省70%

复杂任务（播客多语言+金融分析+代码文档）：主Sonnet 4.6配子MiniMax-M2.7花3.15美元、得分70.6，单体Sonnet 4.6花18.36美元、得分69.1——1/6的价格，效果还略好一点。

而且每个WorkSpace独立算账，"写自媒体文章花了80，邮件花了120，日报花了300"，每一分钱都有去处。

还可以接本地部署的模型做子Agent，敏感数据不出本机。

云端负责思考，本地负责执行，省钱和隐私一起解决。

打开AI的脑子改一改

PilotDeck的Memory面板让我觉得最有意思。

每条记忆标着时间戳、来源路径和类型。Project Memory记项目核心定义和进度，Collaboration Feedback记你的偏好。

记错了，点进去改。记忆冲突了，直接删掉错的那条。不用重启对话，不用重新喂一遍偏好。

这解决了一个很烦的问题——AI越用越"不听话"。

之前用别的Agent，你纠正它一次偏好，它记住了，但下次换个会话又忘了。或者更糟糕，它自作主张记了一堆没用的信息，上下文越来越长，推理越来越慢。

PilotDeck还有个很浪漫的功能叫Dream——空闲时段，AI在后台自动回顾整理自己的记忆，就像人类睡觉时整理白天的记忆一样。

如果Dream整理出错了，还能一键回滚。

用人话说：以前的Agent是勤快但健忘的实习生，PilotDeck是想做个越干越默契的老搭档。

但它也不是万能的

说实话，PilotDeck目前也有短板。

上手门槛比那些"开箱即用"的大厂产品高。你需要自己部署、配置模型、理解WorkSpace的组织逻辑。对于纯小白来说，字节ArkClaw那种"打开网页就能用"的体验还是更友好。

评论区也有人质疑："没觉得比WorkBuddy好，大厂稳定性会更强。"

这话不是没道理——清华是学校，面壁智能是创业公司，在7×24小时稳定运行、企业级支持这些方面，跟腾讯阿里比确实有差距。

而且，整个Agent赛道2026年已经卷成了"百虾大战"。腾讯同时铺了WorkBuddy（办公）和CodeBuddy（编程）两条线，字节的UI-TARS走了纯视觉GUI路线完全不依赖OpenClaw框架，阿里有Qoder和CoPaw双产品——这些大厂产品的工程化成熟度，不是开源项目短期内能比的。

PilotDeck的优势在架构理念——项目级隔离、白盒记忆、智能路由——这些是底层思路的差异。但理念先进不等于产品好用，最终还要看迭代速度和社区生态能不能跟上。

真正值得关心的事

从更大的视角看，PilotDeck解决的那三个问题——记忆隔离、Token成本、白盒可控——恰好是AI Agent从"极客玩具"变成"生产力工具"必须跨越的门槛。

国投证券3月的行业周报显示，字节、阿里、腾讯、智谱等头部厂商已密集发布Claw类Agent产品。

中国Token日均调用量从2024年初到2026年3月激增约1400倍，规模突破140万亿。

当Token变成AI时代的"水电煤"，谁能把成本打下来、把可靠性提上去，谁就是下一个阶段的赢家。

PilotDeck是开源的，代码全放在GitHub上。

不管你用不用它，它提出的三个问题值得每个用AI干活的人想想：

你的AI记得住你的偏好吗？你的Token钱花得明白吗？你能打开AI的脑子改改它记错的东西吗？

如果答案都是否，那不管用的是小龙虾还是什么别的，你可能只是在用一种更贵的方式加班而已。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴