由于不可抗力的限流导致无法接收推送文章的问题,我们迫切需要以下操作:
点击标题下方蓝字 “一半杯 ” → 点击右上角“...” → 点选“设为星标★”,这样就更容易找到我们和收到推送文章!
保持爱读文章,保持领先!
人工智能领域的网络安全竞赛正进入白热化阶段。上个月,人工智能企业Anthropic对其名为Mythos Preview(预览版)的大语言模型进行了高调宣传,声称该模型在网络安全方面构成了巨大的威胁,并以此为由决定将其初始版本仅限“关键行业合作伙伴”使用。然而,这一“神话”的独特性似乎已被打破。根据英国人工智能安全研究所(AISI)发布的最新研究结果表明,OpenAI于上周公开发布的GPT-5.5模型在网络安全评估中,已经达到了与Mythos Preview相似的性能水平。
评估数据曝光:GPT-5.5在极高难度挑战中表现抢眼
自2023年以来,英国人工智能安全研究所(AISI)一直致力于通过95项不同的“夺旗赛”挑战来测试各类前沿AI模型的网络安全能力。这些复杂的测试涵盖了逆向工程、网络漏洞利用以及密码学等多个关键的专业领域。
在最高级别的“专家(Expert)”难度任务中,测试数据揭示了令人瞩目的结果:新近推出的GPT-5.5平均通过率达到了71.4%,这一成绩甚至略高于Anthropic公司Mythos Preview模型所取得的68.6%的平均通过率(尽管研究人员指出该差距仍在误差范围之内)。
在其中一项极其困难的特定任务中,AI需要构建一个反汇编程序来解码一段Rust二进制代码。AISI的研究报告特别指出,GPT-5.5在没有任何人类协助的情况下,仅耗时10分钟零22秒就成功解决了这项挑战,并且在此过程中产生的API调用成本仅为微乎其微的1.73美元。这一惊人的效率和低廉的成本充分展示了其在自动化代码解析和逆向工程方面的深厚实力。
深度渗透与破坏测试:突破防线与尚存的技术瓶颈
除了基础的任务外,模型们还接受了更为复杂和贴近实战的模拟攻击测试。在一个名为“The Last Ones (TLO)”的AISI测试靶场中,研究人员设置了一个针对企业网络的32步数据提取攻击模拟。在以往的测试中,没有任何一个早期的AI模型能够成功完成过哪怕一次这样的测试。
然而,在此次较量中,GPT-5.5在10次尝试中成功了3次,不仅打破了以往零成功的记录,还与Mythos Preview的表现(10次尝试中成功2次)旗鼓相当,甚至略胜一筹。
尽管如此,这并不意味着这些顶级AI已经可以在网络世界中为所欲为。在AISI设计的难度更高的“冷却塔”模拟测试中——该测试旨在模拟对发电厂控制软件的破坏企图——GPT-5.5同样未能成功实施破坏,这也是此前所有接受测试的AI模型共同面临的技术瓶颈。
业界观察:这是“特定模型突破”还是“行业整体进化”?
面对GPT-5.5交出的这份亮眼答卷,AISI在报告中给出了他们的专业洞察。研究人员指出,这些新的结果表明,在网络安全风险方面,Mythos Preview之前展现出的强大能力可能并非是“特定于某一个模型的突破”。相反,这反映出前沿AI技术在“长期自主性、推理能力和编程能力方面普遍提升的副产品”。这说明整个大模型行业的基础能力正在全面进化。
恐惧营销”惹争议:OpenAI CEO萨姆·奥特曼的犀利回应
伴随着模型能力的跃升,业界对于“模型过于危险而不能公开发布”的讨论也日益激烈。OpenAI首席执行官萨姆·奥特曼(Sam Altman)在最近接受《Core Memory》播客采访时,对这种现象表达了明确的看法。他严厉批评了某些公司在推广有限发布的AI模型时所采用的“基于恐惧的营销”策略。
奥特曼在采访中坦言,他“确信Mythos在网络安全方面是一个伟大的模型”,但他一针见血地指出:“说‘我们制造了一颗炸弹。我们打算把它扔到你的头上。然后我们将以1亿美元的价格卖给你一个防空洞’,这显然是令人难以置信的营销手段。”
奥特曼进一步预测,“未来将会有更多关于模型过于危险而不能发布的言论出现。”但他同时也承认了客观存在的行业风险,表示“确实也会有一些非常危险的模型,必须以不同的方式进行发布。”
受限发布的未来:OpenAI的“网络防御者”专属模型计划
事实上,虽然批评了同行的营销话术,OpenAI自身也在积极推进针对高风险网络安全模型的受控制发布机制。今年2月,OpenAI推出了“网络可信访问”试点计划。该机制允许安全研究人员和企业验证其身份,并注册他们研究OpenAI前沿模型以进行“合法的防御性工作”的意向。
利用这份可信访问名单,OpenAI在上个月严格控制了GPT-5.4-Cyber模型的有限发布。据OpenAI官方介绍,这是一个专为增强网络能力而有意进行微调的模型变体,并且减少了部分能力限制。
这一安全防御战略正在进一步延续。本周四,OpenAI首席执行官萨姆·奥特曼在社交媒体上正式宣布,GPT-5.5-Cyber的初始版本也将采取类似的受限发布策略,在接下来的几天内“仅限于关键的网络防御者”使用。
这场关于AI与网络安全的博弈,显然才刚刚拉开序幕。
热门跟贴