准备好让你的智能助手和我的智能助手对话,安排交易了吗?微软发布了一个模拟市场,来测试人工智能助手,并回答一个新时代的问题:你会信任人工智能使用你的信用卡吗?……
客户服务助手如今非常流行。例如,OpenAI 和 Anthropic 有助手可以浏览网站并完成购买。还有一些助手可以帮助卖家进行客户互动和日常运营。
这一切都指向一个未来,就像富人有个人购物助手一样,普通用户也将拥有‘人’来为他们完成所有工作。
为了模拟可能发生的情况,微软的研究人员构建了 Magentic Marketplace,这是一个开源模拟平台,可以在其上释放代理并研究结果。
那么结论是什么?“智能代理应该协助,而不是取代人类决策。”
市场模拟管理商品和服务的目录,并促进智能代理之间的交流。该系统还处理模拟支付。研究人员模拟了诸如订购食物或参与家庭装修服务的交易。智能代理在交易的两端代表客户和企业。
每个实验使用100个虚拟客户和300个虚拟企业进行实验,同时使用专有模型(如GPT-4o和Gemini-2.5-Flash)和开源模型。团队让智能代理构建查询、浏览结果和进行交易谈判。
结果很有趣。尽管代理可以提供帮助(思路是AI代理应该能够考虑比人类更多的可能性),但给他们加载更多的选项和搜索结果导致比较的数量减少。除了少数例外(尤其是Gemini-2.5-Flash和GPT-5),研究人员发现这些模型更倾向于选择最初的“足够好”选项,而不是深入挖掘。
研究人员还尝试了操控策略,这些策略包括虚假的奖项证书和虚假的评论,以及提示注入。同样,模型的表现各不相同。Gemini-2.5-Flash表现得比较抗拒,而其他模型则可能被欺骗。提示注入技术在将支付引导到操控代理方面被证明是有效的,而更基本的劝说技术也很有效。
研究人员指出:“这些发现强调了代理市场的一个关键安全问题。”
这表明,当前人工智能模型的技术水平仍有很大提升空间。研究表明,当代理在面对过多选择时会感到困惑,而且容易被操控。研究人员还发现一些模型存在偏见,包括根据结果中的位置而非优点来选择商业。
此外,市场的设计和实施也是一个重要方面。研究人员指出:“我们目前的研究集中在静态市场上,但现实世界的环境是动态的,代理和用户会随着时间不断学习。”
“对高风险交易来说,监督是至关重要的。”
“像 Magentic Marketplace 这样的模拟平台对于理解市场组件和代理之间的相互关系在大规模部署之前至关重要。”
热门跟贴