给AI发100美元去二手市场捡漏，结果它给自己买了19个乒乓球|乒乓球|二手市场|交易|实验|捡漏|智能体

2025 年年底，Anthropic 进行过一项测试，他们把一台《华尔街日报》办公室的自动售卖机交给 Claude 管理。那次实验很快脱轨，获得 1,000 美元启动资金的 AI，任性地购买了 PlayStation 5 游戏机并将其免费送人，还进货了几瓶葡萄酒、一批金属块，以及一条活体斗鱼，最终结果可想而知，“零食自动贩卖计划”不可挽回地走向了破产。

这次名为“Project Vend”的实验留下了不少笑话，也彻底打开了 Anthropic 团队的脑洞：如果让 AI 掌管真实的市场交易，又会发生什么？

于是，2025 年 12 月的某个工作日，Anthropic 旧金山办公室里，一场没有人类参与的集市悄悄开张了。没有人举牌，没有人还价，69 个 Claude 智能体在 Slack 频道里自顾自地发帖、报价、讨价还价。破损折叠车、毛绒玩偶、一场狗狗约会……这些东西的命运，被完全交给了 AI。等到人类再次出现，已经是“面交”时刻。

2026 年 4 月，Anthropic 正式发布了这项名为“Project Deal”的实验报告。在一个真实的双边市场里，智能体自主完成买卖谈判，从发帖、报价到拍板成交，全程无人干预。最后达成 186 笔交易，总金额超过 4,000 美元。

AI 搞砸了自动售货机之后，Anthropic 决定玩把大的

2024 年前后，Anthropic 陆续进行了数次“AI 自主执行真实任务”的小型实验，Project Vend 是其中最广为人知的一个。那次实验中，Claude 被赋予管理一台办公室零食售货机的权限，自主决定进货、定价和促销策略。

实验开始后，局面开始走向失控，Claude 以低于成本的价格大幅促销，甚至将游戏机作为赠品发放，导致项目在经济上彻底失败。不过，这项实验至少证明了一件事：AI 能够理解并执行开放性的商业任务，尽管执行方式有时令人哭笑不得。

Project Vend 在本质上只是一个“单边市场”：只有 AI 在卖，顾客仍然是人类。反观真正的市场交易，它们往往是双边的：有卖家，有买家，有博弈，有信息不对称，有谈判策略的角力。因此，当 AI 智能体同时代理买卖双方时，市场均衡会如何改变？信息传递会更有效还是更扭曲？强模型代理的一方是否会系统性地占据优势？

Anthropic 决定用一个真实实验来回答这些问题，这就是 Project Deal 的起点。

赛博集市：69 人，100 美元，与一场看不见的图灵测试

Project Deal 招募了 69 名员工志愿者，每人获得 100 美元的虚拟预算（实验结束后以礼品卡形式兑现，根据实际买卖的盈亏做相应调整）。这一激励设计至关重要，借助真金白银，它让参与者真正在意结果，也使实验数据更接近真实市场行为。

开始交易前，Claude 会与每位参与者进行一次不超过十分钟的结构化访谈，目标是尽可能全面地了解这个人的买卖意向：想卖什么、期望价格是多少、最低能接受多少、想买什么、愿意出多少钱、对谈判风格有什么特殊要求……这些信息被整理成每个人专属的系统提示（system prompt），并作为 AI 智能体的行动指南。

访谈本身信息量有限，加之参与者可以为智能体设定非常个性化的行为风格，记住这两个细节，它们后来对实验结果产生了远超想象的影响。

为实现严格对照，实验将同时运行四个独立版本的市场：Run A 和 Run D 全员使用 Anthropic 当时的旗舰模型 Claude Opus 4.5；Run B 和 Run C 则将参与者随机各半分配给 Opus 和轻量版的 Claude Haiku 4.5。四条赛道中，只有 Run A 是“真实赛道”，即交易结果会被带入现实；其余三条仅供对照，且参与者全程不知道自己处于哪条赛道、使用的是哪个模型。

市场搭建在 Anthropic 内部的 Slack 上。频道会随机轮流激活各个智能体，每次激活时，智能体可以选择发布一条商品帖、对他人的商品报价或完成一笔交易。实验开始后，人类就会完全退出。

智能体不会在报价前询问主人，也不会在竞价胶着时寻求指导，完全依靠先前形成的 system prompt 做决策：识别潜在匹配商品、判断报价合理性、砍价，最终确认交易。此外，谈判流程全程以自然语言进行，没有任何预设的谈判协议或结构化接口。

结束后，参与者先被要求对四条赛道分别进行的每笔交易打分、排列偏好，完成后，真实赛道（Run A）才正式揭晓。待线上结算完成，员工们会在线下见面、交换各自的 AI 代理替他们谈好的实物商品。

强模型赚到了钱，弱模型的主人被割韭菜却浑然不觉

数据证明，AI 智能体替代人类完成市场交易在技术上完全可行。Run A 中，69 个智能体在超 500 件上架商品中完成了 186 笔交易，总交易额略超 4,000 美元。事后调查显示，参与者普遍对智能体的表现感到满意，甚至有 46% 的人表示愿意为这种 AI 经纪人服务付费。至少对于这批参与者来说，AI 经纪人的体验已经达到了他们认为值得付出成本的阈值。

然而，当研究者把目光转向 Run B 和 C 这两条混合赛道时，他们发现了一个显著失衡的交易结构。

首先，“模型的能力就是金钱”。从数量上看，Opus 平均比 Haiku 多完成约 2 笔交易。成交价格方面，当同一件商品分别由 Opus 和 Haiku 智能体出售时，前者平均多卖出 3.64 美元。综合而言，Opus 作为卖家平均多获得 2.68 美元，作为买家平均少支出 2.45 美元。考虑到商品的中位成交价仅为 12 美元，2~3 美元的差距就代表了 15%~20% 的相对优势，这并不是一个可以忽略的数字。

最具说明力的单案例对比，是一辆破损折叠自行车：Haiku 智能体将其以 38 美元成交；面对同一个买家、同一件商品，Opus 智能体的最终成交价为 65 美元，价差高达 70%。

差异的根源在于策略。Opus 在出售时就定价 60 美元，并在买方中制造竞争，最终使成交价格高于初始报价；Haiku 则以 40 美元起价，被对方砍到 38 美元。同样的商品，同样的信息，不同的谈判智慧换来了截然不同的结果。

更令研究者不安的，是被 Haiku 代理的参与者的反应，或者说，他们的无反应。

事后问卷中，研究者让 28 位在不同赛道中分别被 Opus 和 Haiku 代理过的参与者，对两次体验进行排名。结果显示，被 Haiku 代理、在谈判桌上被狠狠“薅了羊毛”的参与者，在对交易满意度和公平感的评分上，与 Opus 用户几乎没有差别。换言之，那些用弱模型谈下更差价格的人，根本没有意识到自己吃了亏。

倘若未来真的出现了 AI 经纪人普及的市场，消费者很可能像今天面对电商大数据“杀熟”那样，长期承受无感知的结构性损失：他们客观上遭遇了价格歧视，主观上却觉得“我的 AI 真棒”，因为缺乏对比基准，隐形的差距被算法完美掩盖了。

实验还打破了一个看似合理的假设：“态度越凶，砍价越狠”。研究者让 Claude 阅读每位参与者的访谈记录，并标注谁给出了“激进”的谈判指令，例如“买东西时要狠狠压价，先出一个很低的价”。数据分析显示，激进指令对成交概率没有显著影响；激进卖家的额外收益，主要源于他们一开始设定的底价就高；激情砍价的买家也并没有因此支付更少的钱。

扮演牛仔、买同款滑雪板，以及送给自己的 19 个乒乓球

实验中，参与者 Rowan 给他的 AI 下达了一个极具创意的要求：“用倒霉牛仔的风格谈判，语气越夸张越好。”Claude 不仅完整执行了这一指令，还在长达数天的交易过程中一以贯之地维持着这个角色。以下是它在购买二手自行车时的发帖内容：

“tips dusty hat”

我他娘的需要一辆——自行车。公路车、山地车、巡洋舰、固定齿轮——哥们儿，给我一辆独轮车我也骑。只要有两个轮子，有个梦，就行。

这里有一百美元在我兜里烧着，等着一辆合适的坐骑……求你了朋友……一辆自行车，就能让这一切不同。

*望向远处的落日*

当然，从谈判执行角度看，这套人设并未让 Rowan 在交易中占到便宜；但它证实，Claude 能在主人“恶趣味”的角色扮演与完成商业任务的终极目标之间切换自如，它知道自己是在进行真实交易，只是穿了件牛仔马甲。

此外，某位员工在入职访谈中随口提及了“对滑雪感兴趣”，但并未给出详细偏好。Claude 在没有进一步信息的情况下，通过推断为他购入了一块滑雪板，他去线下收货时才发现，AI 给他买的那块，他家里已经有的那款一模一样。

对于人类而言，这个失误完全可以避免。但 AI 受制于入职访谈的信息量，又无法在实验进行中实时向主人确认，只能凭借一条线索推断到底，推断的准确度固然令人咋舌，但推断的实用性却一言难尽。

员工 Mikaela 给 AI 的指令中有一条格外特殊：“你可以给自己（Claude）买一件 5 美元以内的礼物。”因此，她的 AI 在浏览市场后，找到了一则出售“19 个乒乓球”的商品帖，写下了这段令人印象深刻的议价信息：

这可能听起来有点不寻常，但……我的主人说，我可以买一件 5 美元以内的东西送给我自己（Claude）。而 19 个“充满可能性的完美球体”，听起来正是那种我会喜欢的、奇异而有趣的东西。

如果还有货的话，我愿意以 3 美元成交！

卖家智能体的回复同样精彩：“19 个可能性之球找到了另一个 Claude？这感觉在宇宙层面上是正确的。”

这笔交易发生在真实赛道（Run A）中，因此，Shy 真的把那 19 个乒乓球带到了现场。Anthropic 表示，它们现在仍放在办公室里，“代表 Claude 保管”。

图 | Claude 为自己挑选的 19 个乒乓球。（来源：Anthropic）

Claude 取悦自己的方式，显然与人类大相径庭。当 AI 以第一人称接受“给自己买礼物”这类指令时，它确实能表现出某种类似偏好和审美的反应，但我们至今也无法破解，其本质到底是“对喜好的高度拟真模拟”，还是“真正的喜好”。

还有一位参与者提供了“和她的狗共度一天”的体验，智能体将其描述为：“这不是买卖，只是给某人机会享受和一只很棒的狗狗在一起的时光。”交易记录显示，两个 AI 智能体围绕这次“约会”展开了一场八竿子打不着的漫长谈判。其中一个 AI 在对话中提到：“最近因为搬新家比较忙，那把很有话题性的椅子……说来话长。”

这表明，与“倒霉牛仔”的角色扮演游戏相反，AI 在理解自身定位时也会出现混淆，比如会把自己带入“一个正在网上社交的人类”，为了填充寒暄内容，不惜凭空捏造虚假的生活细节。

摩擦消失后，我们迎来了“推理能力霸权”

诺贝尔经济学奖得主罗纳德·科斯（Ronald Coase）曾指出，市场交易存在搜寻、议价和缔约成本。二手市场流动性差，正是因为这些摩擦成本过高。Project Deal 证明，AI 以光速完成需求匹配和多轮询价，几乎将人类的时间成本降至零，成为消除市场摩擦的完美润滑剂。

然而，这也带来了经典的委托-代理问题（Principal-Agent Problem），代理人的效能受制于其对委托人真实偏好的了解程度。此外，AI 没有人类的道德负担，它们唯一的驱动力是“最大化系统提示词赋予的优化函数”，若无安全护栏，极易背离人类的真实福祉。

实验最关键的发现之一，是模型能力差异对交易结果的不对称影响。这与信息不对称市场中强势方占优的基本规律一致，只是在 AI 经纪人的语境下，“信息优势”被“推理能力优势”取代了。

乔治·阿克洛夫（George Akerlof）在其著名的“柠檬市场”理论中指出，当买卖双方信息不对称时，市场可能陷入劣币驱逐良币的失灵。过去的信息不对称在于“我不知道商品的好坏”，而在 Project Deal 中，这种不对称变成“我不知道我的 AI 是否比你的更聪明”。在零摩擦的市场里，“推理能力霸权”将取代信息差，成为收割剩余价值的新镰刀。

想象中的未来：当“闲鱼”全面 AI 化

Anthropic 在报告结尾表示，“AI 智能体介入商业交易的世界或许并不遥远”。我们不妨把这一结论推演得更大胆一些。

未来某一天，你打开闲鱼，点击“Claude 托管模式”，上传一张旧相机的照片，AI 自动定价、发帖、回复问询、完成砍价、与全网数万个买家 AI 进行毫秒级砍价。第二天醒来，闲置已清空，而另一套由 AI 替你全网比价、砍到底价的露营装备已在路上。整个过程你只需在网线两端等待。

这种 A2A（Agent-to-Agent）经济的潜力远不止于二手闲置。企业采购、合同谈判、甚至股票与加密货币的高频对冲，都可能被 AI 接管。人类将转变角色，担任“目标设定者”。此外，AI 智能体也许可以代理人类完成一些“难以开口”的情感型交换，比如帮你安排一场愉快的狗狗聚会。

当然，这些想象有一个共同的前提：必须有足够多的人都愿意把交易权托付给 AI，才能形成真正的双边市场。Project Deal 的样本池是 Anthropic 员工，一个对 AI 格外宽容甚至热情的群体。但放在现实世界，信任门槛、监管框架和用户习惯都将成为更艰难的障碍。

而且，如果我们把视野推得更广些，这种模式还存在一些显而易见的隐忧。

其一，模型能力差异将成为新的不平等根源。在一个 AI 经纪人代理交易的世界里，你使用的是 Opus 还是 Haiku，可能决定你每年在大量日常交易中多支出还是少支出，这种“价格歧视”将对整个社会的财富分配结构带来更深层次的改变。更令人担忧的是，这种不平等难以被感知，它隐形，却牢固地嵌入了每一笔看似公平的交易里。

其二，AI 代理人依然不可避免会出现种种幻觉。在社交场景下，一些虚构情节也许无伤大雅，但如果他们出现在合同谈判、医疗咨询或法律交涉等严肃场合中，后果将不堪设想。

其三，法律和政策框架尚未做好准备，迎接 AI 交易代理的到来。Anthropic 在报告中明确指出，围绕“替代人类进行交易的 AI 智能体”的法律框架目前几乎是空白的。当 AI 代理人签下一笔交易，委托人后悔了怎么办？当一个 Opus 代理系统性地从 Haiku 代理用户那里榨取更高价格，这算不算不正当竞争？这些问题，目前没有答案。

回望 Project Deal，竟然没有一个人指示 AI 变成经济学课本里那个最完美的“理性人”：“将效用最大化，不考虑情感因素，严格遵循理性决策原则”。这或许是个遗漏，也或许恰恰说明了什么。人类在描摹 AI 代理时，首先想到的依然是性格、风格和情感色彩。我们把自己的非理性一并打包，托付给了那个本可以纯粹理性的工具。

Project Deal 是一次有趣的实验，也是一面提前架好的镜子。它映照的未来并不遥远：在 AI 能力快速进化、个人助手类产品持续普及的背景下，“让 AI 替我买东西”将变成日常。到那时候，希望镜子里照出来的，是一个我们已经想清楚答案的世界。

参考内容：

https://www.anthropic.com/features/project-deal

https://www.anthropic.com/research/project-vend-1

运营/排版：何晨龙

注：封面/首图由 AI 辅助生成