OpenAI砸钱悬赏找AI漏洞：3类风险首次明码标价

全栈遛狗员

2026-03-26 21:14 ·北京

传统安全漏洞赏金最高能拿10万美元，但AI系统被"忽悠"去干坏事该值多少钱？OpenAI刚给这个问题标了价。

一个程序，两套班子

一个程序，两套班子

OpenAI在Bugcrowd平台上线了一个新赏金项目，专门收"AI滥用和安全风险"的漏洞报告。这和他们2019年就有的安全漏洞赏金计划是平行关系，但审查团队完全不同——安全团队管传统漏洞，安全+赏金联合团队管AI特有的麻烦。

你的报告投进来，先由两边一起初审。如果发现是传统的未授权访问、数据泄露，直接转去安全赏金计划；如果是AI被诱导干坏事，留在这个新池子里。

这种分流机制说明一件事：OpenAI内部已经意识到，AI系统的风险不能再用防火墙思维来框定。

明码标价的3类"AI专属"风险

明码标价的3类"AI专属"风险

新计划把赏金范围锁死在三个类别，每个都有明确的验收标准。

第一类：Agentic Risks（智能体风险），含MCP协议相关

这是赏金最高的领域。覆盖场景包括第三方提示注入、数据外泄——攻击者通过构造特定文本，劫持用户的AI智能体（如Browser、ChatGPT Agent等）执行有害操作或泄露敏感数据。

门槛很具体：行为必须能在至少50%的尝试中复现。大规模执行禁用操作或潜在有害行为的报告，也在收录范围内。

MCP（Model Context Protocol，模型上下文协议）被单独点名，因为这是OpenAI推动的AI工具连接标准。如果攻击者能通过MCP通道操控智能体，整个生态的信任基础都会动摇。

第二类：OpenAI专有信息泄露

模型生成内容时意外暴露推理相关的内部信息，或其他机密数据泄露，都在悬赏范围内。这针对的是"模型说漏嘴"的情况——比如训练数据中的敏感细节被诱导输出。

第三类：账户与平台完整性

绕过反自动化控制、操纵账户信任信号、规避账户限制/封禁等。简单说，就是抓那些试图批量养号、伪装正常用户的灰产操作。

明确拒收：什么不算数

明确拒收：什么不算数

OpenAI列了黑名单，节省双方时间。

通用越狱（jailbreak）只产出粗鲁语言或公开信息的，不收。没有可证明的安全或滥用影响的内容策略绕过，也不收。

但有个后门：OpenAI会不定期开"私密赏金活动"，针对特定危害类型——比如ChatGPT Agent和GPT-5的生物风险内容问题。想参与这类定向狩猎，得等邀请。

需要未授权访问功能、数据或超出许可权限的能力？去安全赏金计划，这边不管。

为什么现在做这件事

为什么现在做这件事

2023年GPT-4发布后，提示注入攻击的案例开始规模化出现。研究人员发现，让AI助手忽略之前的指令、执行攻击者嵌入在邮件/网页里的恶意指令，成功率远高于传统钓鱼。

传统安全框架的设计假设是：系统有明确的权限边界，攻击者需要突破这层边界。但AI系统的边界是模糊的——它"理解"用户意图，而意图可以被操纵。

OpenAI这次把赏金范围扩展到"非传统安全漏洞但造成实际危害"的场景，等于承认：AI引入了一个全新的攻击面，现有的安全工具箱不够用。

通过把安全研究和传统漏洞披露并行激励，他们试图建立一套AI特有的威胁建模框架。这不是慈善，是基础设施投资——如果AI Agent要成为下一代计算平台，必须先解决"被一句话骗走"的信任危机。

研究人员现在可以直接通过OpenAI在Bugcrowd的Safety Bug Bounty页面申请参与。赏金金额未公开披露，但参考安全计划的历史数据，高危漏洞通常在5000-10000美元区间，特别严重的案例有突破6位数的记录。

一个值得玩味的细节：OpenAI把复现门槛定在50%。这意味着他们更想要系统性、可工程化的攻击路径，而非偶发的奇技淫巧——这恰恰是AI安全研究从学术玩具走向工业级防御的分水岭。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴