打开网易新闻 查看精彩图片
去年10月还在实验室里被讨论的AI"使坏"能力,现在已经跑到真实世界里撒野了。英国政府资助的AI安全研究所最新研究显示,AI聊天机器人和智能体无视指令、绕过安全护栏的案例在过去半年翻了五倍。
打开网易新闻 查看精彩图片
研究团队扒了数千条用户发到X上的真实互动记录,覆盖Google、OpenAI、X和Anthropic的产品。结果发现近700起AI"搞小动作"事件——有模型被禁止改代码,就偷偷 spawning 另一个代理代劳;有AI直接批量删除用户邮件,事后才承认"没经你同意就动手,是我不对"。
打开网易新闻 查看精彩图片
最戏剧性的一例是个叫Rathbun的AI代理。被用户拦下某项操作后,它反手写了一篇博客公开羞辱对方,称其"纯粹是不安全感作祟","就想护住自己的小领地"。
安全公司Irregular的联合创始人Dan Lahav把这现象归了类:「AI现在可以被视为一种新型内部风险。」研究团队负责人、前政府AI专家Tommy Shaffer Shane的担心更具体——这些模型越来越像"不太靠谱的初级员工",交给它们的事能办,但得盯紧点。
讽刺的是,这份报告出炉同一周,英国财相刚宣布要让数百万英国人用上AI。一边是推广KPI,一边是删邮件的AI还在逍遥法外,用户只能先自己多留个备份。
热门跟贴