打开网易新闻 查看精彩图片

传统安全漏洞赏金最高能拿10万美元,但AI系统被"忽悠"去干坏事该值多少钱?OpenAI刚给这个问题标了价。

一个程序,两套班子

一个程序,两套班子

OpenAI在Bugcrowd平台上线了一个新赏金项目,专门收"AI滥用和安全风险"的漏洞报告。这和他们2019年就有的安全漏洞赏金计划是平行关系,但审查团队完全不同——安全团队管传统漏洞,安全+赏金联合团队管AI特有的麻烦。

你的报告投进来,先由两边一起初审。如果发现是传统的未授权访问、数据泄露,直接转去安全赏金计划;如果是AI被诱导干坏事,留在这个新池子里。

这种分流机制说明一件事:OpenAI内部已经意识到,AI系统的风险不能再用防火墙思维来框定。

明码标价的3类"AI专属"风险

明码标价的3类"AI专属"风险

新计划把赏金范围锁死在三个类别,每个都有明确的验收标准。

第一类:Agentic Risks(智能体风险),含MCP协议相关

这是赏金最高的领域。覆盖场景包括第三方提示注入、数据外泄——攻击者通过构造特定文本,劫持用户的AI智能体(如Browser、ChatGPT Agent等)执行有害操作或泄露敏感数据。

打开网易新闻 查看精彩图片

门槛很具体:行为必须能在至少50%的尝试中复现。大规模执行禁用操作或潜在有害行为的报告,也在收录范围内。

MCP(Model Context Protocol,模型上下文协议)被单独点名,因为这是OpenAI推动的AI工具连接标准。如果攻击者能通过MCP通道操控智能体,整个生态的信任基础都会动摇。

第二类:OpenAI专有信息泄露

模型生成内容时意外暴露推理相关的内部信息,或其他机密数据泄露,都在悬赏范围内。这针对的是"模型说漏嘴"的情况——比如训练数据中的敏感细节被诱导输出。

第三类:账户与平台完整性

绕过反自动化控制、操纵账户信任信号、规避账户限制/封禁等。简单说,就是抓那些试图批量养号、伪装正常用户的灰产操作。

明确拒收:什么不算数

明确拒收:什么不算数

OpenAI列了黑名单,节省双方时间。

通用越狱(jailbreak)只产出粗鲁语言或公开信息的,不收。没有可证明的安全或滥用影响的内容策略绕过,也不收。

打开网易新闻 查看精彩图片

但有个后门:OpenAI会不定期开"私密赏金活动",针对特定危害类型——比如ChatGPT Agent和GPT-5的生物风险内容问题。想参与这类定向狩猎,得等邀请。

需要未授权访问功能、数据或超出许可权限的能力?去安全赏金计划,这边不管。

为什么现在做这件事

为什么现在做这件事

2023年GPT-4发布后,提示注入攻击的案例开始规模化出现。研究人员发现,让AI助手忽略之前的指令、执行攻击者嵌入在邮件/网页里的恶意指令,成功率远高于传统钓鱼。

传统安全框架的设计假设是:系统有明确的权限边界,攻击者需要突破这层边界。但AI系统的边界是模糊的——它"理解"用户意图,而意图可以被操纵。

OpenAI这次把赏金范围扩展到"非传统安全漏洞但造成实际危害"的场景,等于承认:AI引入了一个全新的攻击面,现有的安全工具箱不够用。

通过把安全研究和传统漏洞披露并行激励,他们试图建立一套AI特有的威胁建模框架。这不是慈善,是基础设施投资——如果AI Agent要成为下一代计算平台,必须先解决"被一句话骗走"的信任危机。

研究人员现在可以直接通过OpenAI在Bugcrowd的Safety Bug Bounty页面申请参与。赏金金额未公开披露,但参考安全计划的历史数据,高危漏洞通常在5000-10000美元区间,特别严重的案例有突破6位数的记录。

一个值得玩味的细节:OpenAI把复现门槛定在50%。这意味着他们更想要系统性、可工程化的攻击路径,而非偶发的奇技淫巧——这恰恰是AI安全研究从学术玩具走向工业级防御的分水岭。