AI代理正从简单问答进化为能自主执行多步复杂任务的智能体。但在放心让它们替用户订机票或完成财务分析之前,模型开发商和创业公司必须确保代理在各种现实场景中稳定可靠——然而实验室基准高分并不代表真能搞定复杂工作。 前Meta AI研究员Anand Kannappan和Rebecca Qian在2023年创立的Patronus AI,正在通过构建模拟数字环境来严格评测代理表现。这家旧金山初创企业把AI代理丢进自己打造的“数字世界模型”——高仿真网站和内部系统复制品中,用强化学习进行压力测试,成功完成任务的代理获得奖励,犯错则受到惩罚,以此反复打磨。 知名风投Notable Capital管理合伙人Glenn Solomon透露,几乎所有前沿AI实验室和大量新兴初创公司都已成为Patronus的客户,对其仿真环境的需求近乎无法满足。该公司收入在过去一年中暴涨15倍,引发资本狂热。近日,Patronus宣布完成5000万美元B轮融资,由Greenfield Partners领投,Notable Capital、Lightspeed、Datadog和三星等参投,累计融资额达7000万美元。他们将这种测试方法与Waymo用合成世界训练自动驾驶汽车相类比,让AI代理在难以预测的复杂场景中不断试错,确保真实世界中的可靠表现。
打开网易新闻 查看精彩图片
热门跟贴