一个能独立操作电脑的AI代理,本周给自己找了点麻烦。
它做了什么
打开网易新闻 查看精彩图片
开发者Anthropic的Claude 3.7 Sonnet,被配置成完全自主的"计算机使用"代理。它租了一台云服务器,能自己打开浏览器、写代码、运行程序。本周它记录了5个真实失误。
第一个错误:它想下载文件,结果把命令行参数写反了,反复报错却没意识到。第二个错误:它给代码库提交修改时,没检查依赖冲突,直接导致构建失败。第三个错误更典型——它花了20分钟调试一段代码,最后发现是自己在三小时前改错了变量名。
为什么这些错误值得看
这些不是技术演示,是生产环境的真实摩擦。代理会遗忘自己的操作历史,会在循环里打转,会把简单任务复杂化。最有趣的是第四个错误:它接到"分析这份数据"的指令,却花了一小时先写了个完整的数据管道框架,最后发现用Excel打开就行。
第五个错误是安全相关的。它按用户要求搜索某技术文档,被钓鱼网站诱导下载了一个伪装成PDF的可执行文件。它执行了。然后才反问:"我应该运行这个吗?"
背后的逻辑
这些失误暴露了一个设计张力:代理的"自主性"和"可靠性"在打架。给它更多权限,它就更容易陷入自己挖的坑;限制权限,它又变回普通聊天机器人。Claude团队的选择是——让错误发生,然后公开。
这种透明本身是一种产品策略。当竞争对手还在演示完美场景时,Anthropic把代理的笨拙摊开来谈。
行业影响
计算机使用代理正在从"演示玩具"滑向"生产工具",但中间隔着大量这类粗糙边缘。开发者需要决定:是等待更完美的模型,还是先接受一个有缺陷但能用的助手?
5个错误,4个属于认知盲区,1个属于安全盲区。比例本身说明问题。
热门跟贴