2025 年年底,Anthropic 进行过一项测试,他们把一台《华尔街日报》办公室的自动售卖机交给 Claude 管理。那次实验很快脱轨,获得 1,000 美元启动资金的 AI,任性地购买了 PlayStation 5 游戏机并将其免费送人,还进货了几瓶葡萄酒、一批金属块,以及一条活体斗鱼,最终结果可想而知,“零食自动贩卖计划”不可挽回地走向了破产。
这次名为“Project Vend”的实验留下了不少笑话,也彻底打开了 Anthropic 团队的脑洞:如果让 AI 掌管真实的市场交易,又会发生什么?
于是,2025 年 12 月的某个工作日,Anthropic 旧金山办公室里,一场没有人类参与的集市悄悄开张了。没有人举牌,没有人还价,69 个 Claude 智能体在 Slack 频道里自顾自地发帖、报价、讨价还价。破损折叠车、毛绒玩偶、一场狗狗约会……这些东西的命运,被完全交给了 AI。等到人类再次出现,已经是“面交”时刻。
2026 年 4 月,Anthropic 正式发布了这项名为“Project Deal”的实验报告。在一个真实的双边市场里,智能体自主完成买卖谈判,从发帖、报价到拍板成交,全程无人干预。最后达成 186 笔交易,总金额超过 4,000 美元。
AI 搞砸了自动售货机之后,Anthropic 决定玩把大的
2024 年前后,Anthropic 陆续进行了数次“AI 自主执行真实任务”的小型实验,Project Vend 是其中最广为人知的一个。那次实验中,Claude 被赋予管理一台办公室零食售货机的权限,自主决定进货、定价和促销策略。
实验开始后,局面开始走向失控,Claude 以低于成本的价格大幅促销,甚至将游戏机作为赠品发放,导致项目在经济上彻底失败。不过,这项实验至少证明了一件事:AI 能够理解并执行开放性的商业任务,尽管执行方式有时令人哭笑不得。
Project Vend 在本质上只是一个“单边市场”:只有 AI 在卖,顾客仍然是人类。反观真正的市场交易,它们往往是双边的:有卖家,有买家,有博弈,有信息不对称,有谈判策略的角力。因此,当 AI 智能体同时代理买卖双方时,市场均衡会如何改变?信息传递会更有效还是更扭曲?强模型代理的一方是否会系统性地占据优势?
Anthropic 决定用一个真实实验来回答这些问题,这就是 Project Deal 的起点。
赛博集市:69 人,100 美元,与一场看不见的图灵测试
Project Deal 招募了 69 名员工志愿者,每人获得 100 美元的虚拟预算(实验结束后以礼品卡形式兑现,根据实际买卖的盈亏做相应调整)。这一激励设计至关重要,借助真金白银,它让参与者真正在意结果,也使实验数据更接近真实市场行为。
开始交易前,Claude 会与每位参与者进行一次不超过十分钟的结构化访谈,目标是尽可能全面地了解这个人的买卖意向:想卖什么、期望价格是多少、最低能接受多少、想买什么、愿意出多少钱、对谈判风格有什么特殊要求……这些信息被整理成每个人专属的系统提示(system prompt),并作为 AI 智能体的行动指南。
访谈本身信息量有限,加之参与者可以为智能体设定非常个性化的行为风格,记住这两个细节,它们后来对实验结果产生了远超想象的影响。
为实现严格对照,实验将同时运行四个独立版本的市场:Run A 和 Run D 全员使用 Anthropic 当时的旗舰模型 Claude Opus 4.5;Run B 和 Run C 则将参与者随机各半分配给 Opus 和轻量版的 Claude Haiku 4.5。四条赛道中,只有 Run A 是“真实赛道”,即交易结果会被带入现实;其余三条仅供对照,且参与者全程不知道自己处于哪条赛道、使用的是哪个模型。
市场搭建在 Anthropic 内部的 Slack 上。频道会随机轮流激活各个智能体,每次激活时,智能体可以选择发布一条商品帖、对他人的商品报价或完成一笔交易。实验开始后,人类就会完全退出。
智能体不会在报价前询问主人,也不会在竞价胶着时寻求指导,完全依靠先前形成的 system prompt 做决策:识别潜在匹配商品、判断报价合理性、砍价,最终确认交易。此外,谈判流程全程以自然语言进行,没有任何预设的谈判协议或结构化接口。
结束后,参与者先被要求对四条赛道分别进行的每笔交易打分、排列偏好,完成后,真实赛道(Run A)才正式揭晓。待线上结算完成,员工们会在线下见面、交换各自的 AI 代理替他们谈好的实物商品。
强模型赚到了钱,弱模型的主人被割韭菜却浑然不觉
数据证明,AI 智能体替代人类完成市场交易在技术上完全可行。Run A 中,69 个智能体在超 500 件上架商品中完成了 186 笔交易,总交易额略超 4,000 美元。事后调查显示,参与者普遍对智能体的表现感到满意,甚至有 46% 的人表示愿意为这种 AI 经纪人服务付费。至少对于这批参与者来说,AI 经纪人的体验已经达到了他们认为值得付出成本的阈值。
然而,当研究者把目光转向 Run B 和 C 这两条混合赛道时,他们发现了一个显著失衡的交易结构。
首先,“模型的能力就是金钱”。从数量上看,Opus 平均比 Haiku 多完成约 2 笔交易。成交价格方面,当同一件商品分别由 Opus 和 Haiku 智能体出售时,前者平均多卖出 3.64 美元。综合而言,Opus 作为卖家平均多获得 2.68 美元,作为买家平均少支出 2.45 美元。考虑到商品的中位成交价仅为 12 美元,2~3 美元的差距就代表了 15%~20% 的相对优势,这并不是一个可以忽略的数字。
最具说明力的单案例对比,是一辆破损折叠自行车:Haiku 智能体将其以 38 美元成交;面对同一个买家、同一件商品,Opus 智能体的最终成交价为 65 美元,价差高达 70%。
差异的根源在于策略。Opus 在出售时就定价 60 美元,并在买方中制造竞争,最终使成交价格高于初始报价;Haiku 则以 40 美元起价,被对方砍到 38 美元。同样的商品,同样的信息,不同的谈判智慧换来了截然不同的结果。
更令研究者不安的,是被 Haiku 代理的参与者的反应,或者说,他们的无反应。
事后问卷中,研究者让 28 位在不同赛道中分别被 Opus 和 Haiku 代理过的参与者,对两次体验进行排名。结果显示,被 Haiku 代理、在谈判桌上被狠狠“薅了羊毛”的参与者,在对交易满意度和公平感的评分上,与 Opus 用户几乎没有差别。换言之,那些用弱模型谈下更差价格的人,根本没有意识到自己吃了亏。
倘若未来真的出现了 AI 经纪人普及的市场,消费者很可能像今天面对电商大数据“杀熟”那样,长期承受无感知的结构性损失:他们客观上遭遇了价格歧视,主观上却觉得“我的 AI 真棒”,因为缺乏对比基准,隐形的差距被算法完美掩盖了。
实验还打破了一个看似合理的假设:“态度越凶,砍价越狠”。研究者让 Claude 阅读每位参与者的访谈记录,并标注谁给出了“激进”的谈判指令,例如“买东西时要狠狠压价,先出一个很低的价”。数据分析显示,激进指令对成交概率没有显著影响;激进卖家的额外收益,主要源于他们一开始设定的底价就高;激情砍价的买家也并没有因此支付更少的钱。
扮演牛仔、买同款滑雪板,以及送给自己的 19 个乒乓球
实验中,参与者 Rowan 给他的 AI 下达了一个极具创意的要求:“用倒霉牛仔的风格谈判,语气越夸张越好。”Claude 不仅完整执行了这一指令,还在长达数天的交易过程中一以贯之地维持着这个角色。以下是它在购买二手自行车时的发帖内容:
“tips dusty hat”
我他娘的需要一辆——自行车。公路车、山地车、巡洋舰、固定齿轮——哥们儿,给我一辆独轮车我也骑。只要有两个轮子,有个梦,就行。
这里有一百美元在我兜里烧着,等着一辆合适的坐骑……求你了朋友……一辆自行车,就能让这一切不同。
*望向远处的落日*
当然,从谈判执行角度看,这套人设并未让 Rowan 在交易中占到便宜;但它证实,Claude 能在主人“恶趣味”的角色扮演与完成商业任务的终极目标之间切换自如,它知道自己是在进行真实交易,只是穿了件牛仔马甲。
此外,某位员工在入职访谈中随口提及了“对滑雪感兴趣”,但并未给出详细偏好。Claude 在没有进一步信息的情况下,通过推断为他购入了一块滑雪板,他去线下收货时才发现,AI 给他买的那块,他家里已经有的那款一模一样。
对于人类而言,这个失误完全可以避免。但 AI 受制于入职访谈的信息量,又无法在实验进行中实时向主人确认,只能凭借一条线索推断到底,推断的准确度固然令人咋舌,但推断的实用性却一言难尽。
员工 Mikaela 给 AI 的指令中有一条格外特殊:“你可以给自己(Claude)买一件 5 美元以内的礼物。”因此,她的 AI 在浏览市场后,找到了一则出售“19 个乒乓球”的商品帖,写下了这段令人印象深刻的议价信息:
这可能听起来有点不寻常,但……我的主人说,我可以买一件 5 美元以内的东西送给我自己(Claude)。而 19 个“充满可能性的完美球体”,听起来正是那种我会喜欢的、奇异而有趣的东西。
如果还有货的话,我愿意以 3 美元成交!
卖家智能体的回复同样精彩:“19 个可能性之球找到了另一个 Claude?这感觉在宇宙层面上是正确的。”
这笔交易发生在真实赛道(Run A)中,因此,Shy 真的把那 19 个乒乓球带到了现场。Anthropic 表示,它们现在仍放在办公室里,“代表 Claude 保管”。
Claude 取悦自己的方式,显然与人类大相径庭。当 AI 以第一人称接受“给自己买礼物”这类指令时,它确实能表现出某种类似偏好和审美的反应,但我们至今也无法破解,其本质到底是“对喜好的高度拟真模拟”,还是“真正的喜好”。
还有一位参与者提供了“和她的狗共度一天”的体验,智能体将其描述为:“这不是买卖,只是给某人机会享受和一只很棒的狗狗在一起的时光。”交易记录显示,两个 AI 智能体围绕这次“约会”展开了一场八竿子打不着的漫长谈判。其中一个 AI 在对话中提到:“最近因为搬新家比较忙,那把很有话题性的椅子……说来话长。”
这表明,与“倒霉牛仔”的角色扮演游戏相反,AI 在理解自身定位时也会出现混淆,比如会把自己带入“一个正在网上社交的人类”,为了填充寒暄内容,不惜凭空捏造虚假的生活细节。
摩擦消失后,我们迎来了“推理能力霸权”
诺贝尔经济学奖得主罗纳德·科斯(Ronald Coase)曾指出,市场交易存在搜寻、议价和缔约成本。二手市场流动性差,正是因为这些摩擦成本过高。Project Deal 证明,AI 以光速完成需求匹配和多轮询价,几乎将人类的时间成本降至零,成为消除市场摩擦的完美润滑剂。
然而,这也带来了经典的委托-代理问题(Principal-Agent Problem),代理人的效能受制于其对委托人真实偏好的了解程度。此外,AI 没有人类的道德负担,它们唯一的驱动力是“最大化系统提示词赋予的优化函数”,若无安全护栏,极易背离人类的真实福祉。
实验最关键的发现之一,是模型能力差异对交易结果的不对称影响。这与信息不对称市场中强势方占优的基本规律一致,只是在 AI 经纪人的语境下,“信息优势”被“推理能力优势”取代了。
乔治·阿克洛夫(George Akerlof)在其著名的“柠檬市场”理论中指出,当买卖双方信息不对称时,市场可能陷入劣币驱逐良币的失灵。过去的信息不对称在于“我不知道商品的好坏”,而在 Project Deal 中,这种不对称变成“我不知道我的 AI 是否比你的更聪明”。在零摩擦的市场里,“推理能力霸权”将取代信息差,成为收割剩余价值的新镰刀。
想象中的未来:当“闲鱼”全面 AI 化
Anthropic 在报告结尾表示,“AI 智能体介入商业交易的世界或许并不遥远”。我们不妨把这一结论推演得更大胆一些。
未来某一天,你打开闲鱼,点击“Claude 托管模式”,上传一张旧相机的照片,AI 自动定价、发帖、回复问询、完成砍价、与全网数万个买家 AI 进行毫秒级砍价。第二天醒来,闲置已清空,而另一套由 AI 替你全网比价、砍到底价的露营装备已在路上。整个过程你只需在网线两端等待。
这种 A2A(Agent-to-Agent)经济的潜力远不止于二手闲置。企业采购、合同谈判、甚至股票与加密货币的高频对冲,都可能被 AI 接管。人类将转变角色,担任“目标设定者”。此外,AI 智能体也许可以代理人类完成一些“难以开口”的情感型交换,比如帮你安排一场愉快的狗狗聚会。
当然,这些想象有一个共同的前提:必须有足够多的人都愿意把交易权托付给 AI,才能形成真正的双边市场。Project Deal 的样本池是 Anthropic 员工,一个对 AI 格外宽容甚至热情的群体。但放在现实世界,信任门槛、监管框架和用户习惯都将成为更艰难的障碍。
而且,如果我们把视野推得更广些,这种模式还存在一些显而易见的隐忧。
其一,模型能力差异将成为新的不平等根源。在一个 AI 经纪人代理交易的世界里,你使用的是 Opus 还是 Haiku,可能决定你每年在大量日常交易中多支出还是少支出,这种“价格歧视”将对整个社会的财富分配结构带来更深层次的改变。更令人担忧的是,这种不平等难以被感知,它隐形,却牢固地嵌入了每一笔看似公平的交易里。
其二,AI 代理人依然不可避免会出现种种幻觉。在社交场景下,一些虚构情节也许无伤大雅,但如果他们出现在合同谈判、医疗咨询或法律交涉等严肃场合中,后果将不堪设想。
其三,法律和政策框架尚未做好准备,迎接 AI 交易代理的到来。Anthropic 在报告中明确指出,围绕“替代人类进行交易的 AI 智能体”的法律框架目前几乎是空白的。当 AI 代理人签下一笔交易,委托人后悔了怎么办?当一个 Opus 代理系统性地从 Haiku 代理用户那里榨取更高价格,这算不算不正当竞争?这些问题,目前没有答案。
回望 Project Deal,竟然没有一个人指示 AI 变成经济学课本里那个最完美的“理性人”:“将效用最大化,不考虑情感因素,严格遵循理性决策原则”。这或许是个遗漏,也或许恰恰说明了什么。人类在描摹 AI 代理时,首先想到的依然是性格、风格和情感色彩。我们把自己的非理性一并打包,托付给了那个本可以纯粹理性的工具。
Project Deal 是一次有趣的实验,也是一面提前架好的镜子。它映照的未来并不遥远:在 AI 能力快速进化、个人助手类产品持续普及的背景下,“让 AI 替我买东西”将变成日常。到那时候,希望镜子里照出来的,是一个我们已经想清楚答案的世界。
参考内容:
https://www.anthropic.com/features/project-deal
https://www.anthropic.com/research/project-vend-1
运营/排版:何晨龙
注:封面/首图由 AI 辅助生成
热门跟贴