文 / 陈艳姣

1 大模型赋能网络安全背景

目前,网络安全攻击日益严峻,其大型事件频发,影响医疗、交通等关键信息基础设施。首先,由于云计算、物联网、移动设备等快速发展,有了更多的网络攻击入口;其次,攻击复杂性和隐蔽性提升,包括高级持续性威胁 APT、无感知攻击等;并且,威胁情报隐藏在大量的良性、无害数据下,存在碎片化与信息过载问题。当前,虽然有很多网络入侵检测工具,但是也会出现较高的误检率和漏检率,造成海量安全日志下的安全专家告警疲劳。

大模型出现之前,网络安全专家已经开始尝试用 AI 做网络安全方面的一些实践,比如垃圾邮件过滤、网络入侵检测、恶意软件分类、密码分析等。但传统 AI 赋能网络安全依赖训练数据,泛化能力有限、解释性差。2022 年大模型元年之后,AI 新范式崛起。不同于传统的 AI 模型强依赖训练数据,大模型具有通用理解和生成能力,以及少样本和零样本的学习能力,并且还具备涌现能力,大模型实现了从“特定任务模型”到“通用智能基座”的转变。

近几年,大模型凭借其强大的通用理解、推理、生成能力和海量数据处理能力,正逐步成为应对复杂网络威胁的新一代利器。由图 1 可见,大模型安全攻防的论文呈现一个爆炸式发展,大模型赋能网络安全的论文数量逐年上升。

打开网易新闻 查看精彩图片

图1 大模型赋能网络安全论文数量和分布

2 大模型辅助网络入侵检测

我们团队与蚂蚁集团和阿里云合作,在大模型赋能网络安全方面已有初步成果。

2.1 网络入侵检测

网络入侵检测通过分析网络数据包、日志和流量模式,识别潜在的安全威胁。其中,日志是分析的一个重要方面,包括网络设备(如交换器、路由器等)、操作系统、应用程序等在运行过程中自动生成的记录文件,藏有攻击者蛛丝马迹。操作系统 Linux/Unix 中的 Shell 命令是网络攻击的常用命令,涵盖了网络攻击生命周期的各阶段,包括侦察与信息收集、系统权限提升、窃取和外泄受害者数据,以及执行恶意载荷。

网络入侵检测系统给网络专家的报警信息中就可能有疑似恶意 Shell 命令,但 Shell 日志分析并非易事。如图 2 所示,Shell 日志本身格式不统一缺乏标准化,语法复杂难理解攻击隐蔽检测难,如果是初级的网络专家,乍看到图 2 所示的命令肯定觉得太复杂。并且很多正常操作也会常用 shell 命令,而恶意的 shell 命令隐藏在大量正常信息之下,导致噪声和低价值信息过多。现有的 shell 日志分析主要依赖有经验的网络安全专家,自动化程度低。

打开网易新闻 查看精彩图片

图2 反向 shell 命令示例

2.2 如何得到一个智能、专业、可靠的 shell 命令解释大模型

由于大模型的训练数据中包含了大量代码,所以大模型本身具有一定的代码能力。但 shell 命令解释需要大模型执行更专业的任务,首先,大模型应该分步解释 shell 命令中每一步在做什么,也就是“所作所为”;然后大模型应该识别意图,也就是分析 shell 命令想要做什么,比如试图建立一个反向的 shell 连接;最后,判断这条 shell 命令到底是不是恶意的。总的来说,疑似的恶意 shell 命令被入侵检测系统报告给人类专家后,人类专家就可以查询 shell 命令解释大模型,来详解这个 shell 命令。

我们构建的 shell 命令解释大模型包含行为解释器、威胁识别器和知识增强器三部分。

(1)行为解释器。行为解释器用于解释 shell 命令中每一步在做什么。 在用户输入关于 shell 命令的问题 后,大模型给出这 shell 命令的分步解释。我们构建了一个有监督的微调数据集,对 ChatGLM2-6B 进行全量微调。数据集考虑了用户提问的多样性,保证大模型输出的解释专业性,避免大模型幻觉。

(2)威胁识别器。威胁识别器用于识别 shell 命令的意图,判断其是否是恶意的。MITRE ATT&CK 是一个网络攻击标准知识库,对网络攻击的战术和技术进行了分类。 战术(tactics)指的是攻击者的高层次目标,即“为什么”这么做。技术 Techniques 指的是攻击者具体、可观察的行为,即“怎么做”。在 shell 命令分步解释的基础上,利用大模型对 shell 命令的战术和技术进行判断。

(3)知识增强器。知识增强器是为大模型提供私有或不常见 shell 命令的知识,主要是用 RAG 技术进行实现的,即根据用户提示词在知识库中搜索相关的文本,将相关文本和用户提示词一起输入大模型,得到更专业的解释。我们构建知识增强器面临的挑战是行为解释器 输出的描述和 MITREATT&CK 对战术和技术的标准描述不匹配。为了解决这个问题,我们微调一个类似于翻译器的模型,将行为解释器 输出的描述翻译成符合 MITREATT&CK 战术和技术的标准描述(见图 3)。

打开网易新闻 查看精彩图片

图3 威胁识别解决方案

3 大模型辅助网络协议测试

3.1 网络基础服务

域名系统 (DNS) 支撑多种网络协议和上层服务正常运转,被称为“互联网基石”。现在我们可以自己运营网站,但不一定会运营自己的 DNS 服务。因为要进行层层的域名解析,其中还有很多递归部分,所以,很多用户将 DNS 的管理和维护外包给第三方服务提供商。比如,阿里云每天处理 DNS 的查询请求超过 3 万亿。

云平台 DNS 服务通常共用域名解析基础设施,大量用户、不同托管域名使用相同软硬件配置,一旦云平台共基础设施遭受安全威胁,影响范围大,后果严重。有研究显示,超过 10% 的 DNS 请求都会出现错误,如输入一个网址返回显示“此网址不可查”,这种情况有可能是网址确实没有,也有可能是 DNS出现错误。2016 年 Dyn 遭受 DDoS 攻击导致北美大量网站和应用受影响。各类域名劫持、地址封堵现象屡见不鲜,解析出现异常后,根因定位排查困难。例如2021年 10 月 Facebook DNS 服务宕机,故障定位调试直至服务恢复,耗费超过 6 小时。

DNS 标准数量庞大,实现不规范问题普遍存在。截至 2022 年,与 DNS 协议相关的 RFC 文档数量已经至少 285 个。RFC 文档部分语义上存在模糊,各厂商对 RFC 歧义的理解存在差异,实际解析行为与 RFC 的一致性难以保证。人工提取 RFC 中的规则信息,并对 DNS 软件进行 RFC 合规性测试越发困难,需要自动化更高、人工成本更低的解决方案。为此,我们使用 LLM 与 Fuzzing 技术分析 DNS 编程语言规范一致性。

3.2 如何利用大模型进行云平台 DNS 软件质量和安全测试

在大语言模型出现以前,软件测试包括传统手动测试、搜索型测试、符号执行等。早期的大语言模型辅助软件测试的方法主要采用遗传算法等优化方法生成测试用用例,但是其生成的测试用例可能编译不通过或出现执行错误等,因为大模型输出的程序软件测试用例很有可能不符合代码规范,尤其是针对复杂软件。

DNS 软件是超大规模软件,复杂软件项目中可能存在 6000 多个函数,并且多数函数存在深层依赖,其深度超过 5 层。为此,我们开发了大模型赋能的 DNS 软件测试系统,利用大模型生成大量的高覆盖率且能通过编译的测试用例。

为了实现这个目标,首先,我们给大模型提供足够信息,让模型“看懂”复杂软件项目;其次,给大模型提供模块关系、依赖结构等上下文,使其具备代码库意识;最后融入高层设计信息,如协议标准文档、开发文档、模块说明等。

(1)测试行为决策。首先是依赖关系提取,跨文件提取函数依赖与结构体定义,构建上下文树并控制最大依赖深度,防止上下文溢出。其次是目标函数确定,对目标函数行为进行概括生成函数摘要(summary);融合 RAG(retrieval-augmented generation)机制,引入现有测试代码、标准辅助规划行为逻辑,减少模型生成错误测试用例的概率。

(2)测试用例生成。使用贝叶斯优化方法,自动搜索提示词组合(指令 + 示例)以最大化测试质量指标(如覆盖率、错误检测率),适应不同函数或模块的个性化提示风格,减少试错次数,实现高效的测试用例生成。

(3)测试反馈分析。运行测试用例,评估构建状态与覆盖率提升。

LLM 赋能的 DNS 软件测试性能初步的结果显示,在两个大规模复杂软件工程中都能达到较高的编译成功率和代码覆盖率。

4 展望

网络安全未来发展将从被动响应到主动防御,包括:①更深层次的语义理解与上下文感知,能理解攻击意图、攻击链的深层逻辑;结合多源异构数据(网络流量、系统日志、应用行为、人员行为),构建更完整的攻击图谱。②更强的自主学习与演进能力。根据最新威胁情报、攻击样本和防御实践,持续自我更新和优化;减少对人工规则的依赖,适应快速变化的威胁环境。③人类-AI 协同的深度融合。AI 承担大量重复性、低级分析任务;AI 协助网络安全专家进行高级分析、决策支持和战略规划。

此外,大模型本身存在隐私和安全问题。大模型需要海量敏感数据训练,模型输出可能泄露训练数据信息;在关键安全决策中,无法解释的 AI 决策可能带来风险和责任问题;此外,攻击者可能利用对抗样本、模型中毒等技术攻击大模型自身。因此,数据隐私与合规性、可解释性与透明度,以及对抗性攻击与模型安全也是未来我们探索方向。

(参考文献略)

打开网易新闻 查看精彩图片

陈艳姣

浙江大学百人计划研究员。主要从事人工智能安全研究,发表论文 170 余篇。获浙江省科学技术进步奖一等奖、中国电子学会自然科学奖一等奖、达摩院“青橙奖最具潜力奖”等,入选国际计算机网络学会 N2Women“十大学术新星”和中国科协青年人才托举工程。ACM CCS、USENIX Security、NDSS、IEEE INFOCOM 等国际会议程序委员会成员和 IEEE TIFS 等国际期刊编委。

选自《中国人工智能学会通讯》

2025年第15卷第12期

大模型与安全