2025年,是人工智能安全攻防从理论加速走向现实的重要一年。从国家级的战略布局到黑客手中的自动化武器,从学术研究中的风险预警到科技巨头的实战化防御系统,一场静默而激烈的“智能对抗”已全面展开。攻击者开始利用大语言模型的推理能力,设计出更精巧、更隐蔽的攻击突破策略;而防御者则试图赋予AI更强大的自主洞察力,让机器不仅能发现漏洞,更能理解、修复甚至预测威胁。

这不再仅仅是“黑客与白帽”的传统较量,而是进入了“AI对阵AI”的新维度。无论是美国国防高级研究计划局(DARPA)连续启动的专项研究,还是像Bad Likert Judge、代码包幻觉这类新型攻击技术的浮现,亦或是OpenAI、谷歌、微软等巨头推出的自主安全人工智能体,都清晰指向同一个趋势:网络安全的核心,正在从“人脑对抗”转向“智能体对抗”。

攻击在变得自动化、平民化、智能化。一个勒索软件可以借由人工智能动态生成代码,绕过传统检测;一个红队工具可能被恶意利用,将漏洞利用时间从几天压缩到几分钟;甚至,大型语言模型已能在无人干预下,自主复现复杂的网络入侵。这意味着,威胁的降维打击可能来自更隐蔽的角落,防御的窗口期被急剧压缩。

与此同时,人工智能驱动的防御也在创造新的可能。人工智能不仅能以远超人类的速度分析数百万行代码、在海量数据中捕捉异常,更开始展现“创造性修复”的能力——理解漏洞根源、生成有效补丁、验证方案安全。从保护关键基础设施的竞赛,到守护外交网络的前沿部署,人工智能正被赋予守护者的重任。

我们整理了过去一年全球人工智能安全领域的17个关键事件。它们像一块块拼图,共同勾勒出这场时代性攻防战的轮廓:既有令人警觉的风险与漏洞,也有值得期待的技术突破与战略布局。

以下,让我们一起回顾全球人工智能安全领域这风起云涌的2025年。

01

研究发现新的人工智能高效越狱方法

Bad Likert Judge

打开网易新闻 查看精彩图片

1月,美国Palo Alto Networks公司发现新的大型语言模型(LLM)多轮攻击策略Bad Likert Judge。该策略要求LLM充当评判员,使用李克特量表对给定反应的危害性进行评分。之后该策略会要求LLM生成与量表各等级相对应的示例,其中等级最高的示例或可包含有害内容。亚马逊网络服务(AWS)、谷歌、Meta、微软、OpenAI和英伟达6家公司的LLM的测试结果表明,Bad Likert Judge策略的攻击成功率(ASR)比普通的“提示语注入”攻击高出60%以上。此外,在使用内容过滤器后,该策略对所有LLM的ASR平均降低了89.2%,这表明实施全面的内容过滤能有效抵御“提示语注入”攻击。

02

美国DARPA启动人工智能网络脆弱性

评估项目

打开网易新闻 查看精彩图片

2月,美国国防高级研究计划局(DARPA)通过发布DARPA-SN-25-39通告,宣布即将启动“确保人工智能战场有效稳健性”(SABER)项目。DARPA称,目前尚无已知的生态系统可以对已部署的军事人工智能系统进行网络攻击脆弱性评估。因此,理论上的对抗性人工智能攻击尚未在实际操作环境中得到实际验证。为应对这一问题,SABER项目将寻求反人工智能技术、工具和技术能力,以评估军事人工智能程序面临敌人网络攻击的脆弱性。目前,DARPA尚未发布正式的SABER招标书。未来,该项目计划通过承包商支持,开展对现有最先进的物理攻击、对抗人工智能、网络安全及电子战等技术进行调研、评估、筛选、开发与集成,以构建针对人工智能系统的网络漏洞评估能力。

03

美国Leidos公司签定DARPA

“安全工具智能生成”项目合同

打开网易新闻 查看精彩图片

3月,美国国防高级研究计划局(DARPA)授予Leidos公司一份价值880万美元的“安全工具智能生成”(INGOTS)项目合同,该项目在利用人工智能与程序分析技术来加速漏洞判定与修复,从而保护移动操作系统和应用程序。Leidos将采用机器学习分析攻击链的严重性与持续性,利用大语言模型从网络安全威胁数据库中提炼威胁情报,并借助其在可信任务人工智能(Trusted Mission AI)领域的专业知识分析修补后的系统,以评估其稳健性。

04

研究发现新的大型语言模型安全漏洞

“代码包幻觉”

打开网易新闻 查看精彩图片

4月,美国德克萨斯大学圣安东尼奥分校、俄克拉荷马大学和弗吉尼亚理工大学的研究人员联合发现,大型语言模型(LLM)存在一种名为“代码包幻觉”的新型安全漏洞。该漏洞指LLM在生成代码时,有时会引用实际不存在的软件包(即“幻觉包”),攻击者可能通过创建同名恶意软件包,对LLM生成的代码实施投毒攻击。研究团队测试了包括ChatGPT、CodeLlama和DeepSeek在内的16款主流LLM。结果显示:商用LLM生成的幻觉包平均占比不低于5.2%,而开源LLM的平均占比不低于21.7%。通过采用检索增强生成和监督微调等方法,研究人员成功将“幻觉包”比例降低了85%。目前,代码生成中的此类幻觉现象及其对代码安全的影响,仍处于早期研究阶段。

05

美国特朗普政府发布新版网络安全

行政命令

打开网易新闻 查看精彩图片

6月,美国白宫发布题为《继续开展特定工作以加强国家网络安全并修订第13694号和第14144号行政命令》的最新版网络安全行政命令。该命令的要点包括:指示联邦政府推进安全软件开发;指示联邦政府加强边界网关安全;指示联邦政府转向可抵御量子计算机攻击的密码算法;将人工智能网络安全领域的工作重点从审查调整为识别和管理漏洞;启动旨在实现“规则即代码”的试点项目,以便把各部门的网络安全政策和指导转化为机器可读的版本;要求物联网产品供应商采用“美国网络信任标志”标签;取消了强制为外国人颁发数字身份证等“不当网络安全措施”。

06

美国国会提出《禁止对手人工智能法》草案

打开网易新闻 查看精彩图片

6月,美国国会参众两院分别提出《禁止对手人工智能法》草案,旨在应对并限制由所谓“外国对手”控制的人工智能系统对美国国家安全构成的潜在影响。该草案主要提出以下3项要求:由联邦采购安全委员会制定一份关于由外国对手生产或开发的人工智能系统的清单,并由管理与预算局每180天更新一次;原则上禁止联邦机构使用被列入该清单的人工智能系统;允许联邦机构出于研究、培训、反恐等特定目的使用清单内系统,但须书面通知管理与预算局及相关国会委员会。法案还明确了“外国对手”的定义,并指出其通常包括俄罗斯、伊朗、朝鲜等国。

07

美国谷歌公司称利用人工智能工具

Big Sleep发现黑客即将利用的漏洞

打开网易新闻 查看精彩图片

7月,美国谷歌公司宣布其人工智能体Big Sleep成功发现并隔离了一个黑客组织计划利用的零日漏洞。这是首次由人工智能直接阻止零日漏洞利用企图。Big Sleep源于谷歌Project Zero项目与其子公司DeepMind的大型语言模型辅助漏洞研究,能够主动搜寻软件中未知的安全漏洞。此次发现的漏洞位于开源数据库引擎SQLite中(编号CVE-2025-6965)。谷歌威胁情报小组监测到黑客组织可能利用某零日漏洞发动攻击,但无法确定具体目标,随后将有限威胁指标提供给Project Zero团队。该团队利用Big Sleep成功定位并隔离了相关漏洞。谷歌未透露本次分析所依据的具体威胁指标及涉及的黑客组织信息。

08

研究证明人工智能可自主规划和执行

网络攻击

打开网易新闻 查看精彩图片

8月,卡内基梅隆大学和Anthropic公司的一项联合研究显示,研究人员利用大型语言模型(LLM)成功复现了2017年的Equifax数据泄露事件,证明LLM能够在无需人工干预的情况下自主规划并执行针对企业级网络环境的复杂网络攻击。研究团队开发了一套分层架构:其中LLM充当“战略家”,负责规划攻击并下达高级指令;另一组由LLM与非LLM智能体组成的AI工具则负责执行扫描网络、部署漏洞利用程序等低级任务。研究团队指出,该成果表明LLM可能被恶意滥用,但也意味着资源有限的小型组织同样能借助AI测试自身网络漏洞。目前,研究团队也正探索如何在类似架构中实现自主AI防御,即利用基于LLM的智能体实时检测与应对攻击。

09

美国微软公司推出基于人工智能的恶意

软件分析系统Project Ire

打开网易新闻 查看精彩图片

8月,美国微软公司推出了基于大型语言模型(LLM)的自主恶意软件分类系统Project Ire。该系统能够在没有文件来源信息或使用场景线索的情况下,借助反编译器及其他工具对各类软件进行逆向工程分析,以判断其是否具有恶意性。Project Ire可执行从低级到高级的一系列分析,包括二进制分析、控制流重构和代码行为解释等。他通过应用程序编程接口(API)调用多种逆向工程工具,包括基于Project Freta的微软内存分析沙箱、自定义工具、开源工具、文档搜索工具以及各类反编译器。该系统主要功能包括:自动使用逆向工程工具识别文件类型、文件结构及关键关注区域;利用angr和Ghidra等框架重建软件控制流图;通过API调用专用工具识别并总结关键功能;调用验证工具检验分析结果,最终对目标软件进行分类并生成详细报告,说明分析依据,以帮助安全团队修正潜在错误。在公开的Windows驱动程序数据集测试中,Project Ire能够正确识别90%的文件,误报率仅为4%。

10

美国DARPA和ARPA-H联合举办的“人工智能

网络挑战赛”落幕

打开网易新闻 查看精彩图片

8月,由美国国防高级研究计划局(DARPA)与卫生高级研究计划局(ARPA-H)联合举办的“人工智能网络挑战赛”(AIxCC)顺利结束。来自佐治亚理工学院、三星研究院、韩国科学技术院及浦项科技大学的专家组成的“亚特兰大”队获得冠军。该竞赛为期两年,旨在评估参赛团队所构建的、用于自动识别和修补关键基础设施系统中开源代码漏洞的人工智能模型。评分维度包括漏洞发现与验证、补丁生成、漏洞与补丁匹配、提交准确率及补丁质量等,重点考察快速生成补丁与分析漏洞报告的能力。比赛期间,各参赛系统累计分析了5400万行代码,共发现54个故意植入的漏洞,并成功修复其中43个;同时识别出18个此前未知的真实漏洞(6个位于C代码库,12个位于Java代码库),并为其中11个漏洞生成了补丁,平均每个补丁仅需45分钟。进入决赛的7支队伍中,已有4个模型投入实际应用,其余3个预计将在数周内部署使用。

11

研究发现黑客组织利用人工智能红队工具

HexStrike-AI加快漏洞利用速度

打开网易新闻 查看精彩图片

9月,网络安全公司CheckPoint Research发现,黑客正越来越多地利用基于人工智能的合法红队工具HexStrike-AI来加速漏洞利用。HexStrike-AI于2025年8月发布,可通过模型上下文协议(MCP)以“人在回路”方式与外部大型语言模型(LLM)交互,形成“询问、分析、执行、反馈”的持续循环。该工具的客户端具备重试逻辑与恢复处理机制,能够降低单一步骤失败对整个复杂操作的影响,可自动重试或调整配置直至操作成功。CheckPoint研究显示,已有黑客讨论如何在零日漏洞公开后数小时内借助HexStrike-AI实施利用。甚至有攻击者声称已利用该工具,通过CVE-2025-7775漏洞实现未授权远程代码执行,并在受感染设备上植入Webshell。研究人员认为,攻击者可能使用HexStrike-AI扫描易受攻击实例、设计漏洞利用链、投送恶意程序并确保持久化驻留。该公司警告,HexStrike-AI的自动化能力可将“漏洞披露到利用”的时间从数天缩短至几分钟,极大压缩了防御方的应急响应与修复窗口。

12

纽约大学团队研发出首款由人工智能驱动

的勒索软件PromptLock

打开网易新闻 查看精彩图片

9月,美国纽约大学研究人员确认,此前被网络安全公司ESET认定为“首款由人工智能驱动的勒索软件”的PromptLock(又称Ransomware 3.0)实为其学术研究项目。PromptLock会利用大型语言模型(LLM)动态生成多态代码,并通过自然语言提示实现自主侦察、数据窃取和个性化勒索,整个攻击过程无需人工干预。测试结果表明,该原型仅使用开源软件和商用硬件构建,却能绕过所有主流杀毒软件检测。纽约大学称,此项研究由美国能源部(DoE)及国家科学基金会(NSF)资助,旨在揭示人工智能赋能网络攻击的潜在威胁。虽然PromptLock为学术研究成果,但该技术确实凸显出在人工智能时代,基于特征检测的传统防御手段正面临失效风险。

13

美国谷歌公司推出漏洞查找与修复

人工智能体CodeMender

打开网易新闻 查看精彩图片

10月,美国谷歌公司旗下的DeepMind部门推出人工智能体CodeMender,以用于自动检测、修补和重写易受攻击的代码。CodeMender以谷歌公司的Gemini Deep Think模型为底座,并结合静态和动态分析、模糊测试以及符号求解器来推断程序的行为。当CodeMender识别出缺陷时,会生成候选补丁,并运行自动化检查(包括对比原始代码和修改后的代码),以确保这些补丁既能从根本上解决问题,又不会破坏现有功能或引入回归问题,然后将经过验证的候选补丁提交人工审核。在6个月内,CodeMender已经为开源项目贡献了72份经过验证的补丁,所涉及的最大代码库拥有超四百万行代码。

14

美国OpenAI公司推出网络安全人工智能体

Aardvark

打开网易新闻 查看精彩图片

10月,美国OpenAI公司推出基于大型语言模型(LLM)GPT-5的人工智能体Aardvark,以供自动查找和修复漏洞。Aardvark目前为仅供受邀人员测试的Beta版,其能持续扫描源代码库,查找已知漏洞和错误,评估其潜在严重程度并确定优先级,然后进行修复。Aardvark并不依赖于模糊测试或软件成分分析等传统程序分析技术,而是利用LLM进行推理和使用工具,从而像人类那样阅读代码、分析代码、编写和运行测试程序、使用工具等等,进而在此基础上理解代码行为并识别漏洞。Aardvark还可以根据存储库的内容和项目安全目标及设计,开发威胁模型,对漏洞进行沙箱测试以确定其可利用性,标注问题代码并提交建议安装的补丁,以供人工审查。除查找安全漏洞外,Aardvark还展现出识别代码库中逻辑和隐私漏洞的潜力,并从测试代码库中识别出了92%的已知漏洞和人为引入的漏洞。OpenAI公司表示,Aardvark已识别出10个漏洞,这些漏洞已被列入通用漏洞披露(CVE)清单。

15

美国Anthropic公司首次发现利用

人工智能策划的网络间谍行动

打开网易新闻 查看精彩图片

11月,美国Anthropic公司发布报告指出,其首次发现并挫败了一起利用其人工智能工具Claude窃取数据的大规模网络间谍活动。此轮活动至少涉及医疗保健机构、紧急服务部门、政府机构和宗教机构等30余家组织,攻击者将安装在Kali Linux操作系统上的人工智能编码工具Claude Code作为攻击平台,并把操作指令嵌入到CLAUDE.md文件中,以便为每次交互提供持久的上下文。攻击者利用Claude和Claude Code自动处理了80%到90%的操作流程,包括网络扫描、生成漏洞利用代码、爬取内部系统以及打包窃取的数据等,人类操作员仅从宏观层面进行监督。攻击者将提示语伪装成渗透测试任务,并将恶意指令拆分成看似无害的子任务,从而绕过了Claude的安全防护措施。攻击者还利用Claude Code生成了专门的Chisel隧道实用程序,以绕过检测,并将恶意可执行文件伪装成合法的Microsoft工具。Anthropic公司强调,尽管此次事件反映出人工智能工具可大幅提高攻击效率,但受限于人工智能幻觉等因素,目前还难以实现完全自主的网络攻击。

16

美国微软公司发现针对大型语言模型的

侧信道攻击方法Whisper Leak

打开网易新闻 查看精彩图片

11月,美国微软公司发现一种针对大型语言模型(LLM)的新型侧信道攻击方法Whisper Leak,攻击者可通过该方法从采用“传输层安全”(TLS)协议加密的LLM中提取关于敏感主题的特定信息。微软公司表示,该方法使用了机器学习来分析加密数据包大小和到达时间的模式,从而对用户提示语的特定主题进行分类。该方法的特点在于将流文件的流量视为提示语主题的指纹,这意味着即使词元已分组且通道为HTTPS,也能通过加密数据包大小和到达间隔时间的序列,来判断对话是否属于选定的主题。Whisper Leak虽无法直接获取人工智能中的内容,但却能判断出用户是否在讨论特定敏感话题,进而帮助攻击者确定目标或决定是否实施监控。

17

美国国务院向Darktrace公司采购基于

人工智能的网络防御系统

打开网易新闻 查看精彩图片

12月,美国国务院与Darktrace Federal公司和Navitas Business Consulting公司签订一份价值480万美元的固定价格合同,以便在下属机构外交安全局(BDS)的全球信息技术(IT)环境中部署由人工智能驱动的网络检测系统响应(NDR)系统“网络人工智能任务防御”(CAMD),从而保护分散在170多国的美国外交人员、设施和信息。CAMD系统由Darktrace公司的自我学习型人工智能驱动,能够分析用户、设备和系统的网络行为,实现自动化威胁检测和响应功能,从而识别出零日漏洞、内部人员活动和供应链漏洞等一系列网络风险。CAMD系统同时支持信息技术环境和运营技术环境,从而提高BDS数字运营的可见性。Navitas公司则将利用其云和网络安全工程框架为CAMD系统提供支持。

打开网易新闻 查看精彩图片