佛罗里达大学团队让AI写芯片安全代码，准确率比GPT-5高61%

码上闲叙

2026-04-04 08:05 ·北京

芯片设计越复杂，安全漏洞越难找。一个被忽视的事实：全球每年因硬件安全漏洞造成的损失，远超软件漏洞——但芯片公司还在用人工写安全断言，效率堪比手抄《百科全书》。

人工写安全断言，正在成为芯片设计的"卡脖子"环节

人工写安全断言，正在成为芯片设计的"卡脖子"环节

现代系统级芯片（SoC）的复杂度已经爆炸。一颗手机芯片里可能塞着上百亿个晶体管，安全验证需要检查数千条属性。传统做法是工程师手动编写SystemVerilog断言（一种硬件验证语言），逐条定义"什么情况下算违规"。

佛罗里达大学的研究团队算过一笔账：一个中等规模的SoC设计，安全断言的编写周期常以月计。更麻烦的是，工程师得同时熟读三种"外语"——硬件描述语言（RTL）、常见弱点枚举（CWE）数据库、以及具体设计的威胁模型。稍有遗漏，漏洞就从指缝溜走。

2023年Arm的Mali GPU漏洞、2024年某大厂服务器芯片的侧信道漏洞，事后复盘都指向同一个根因：人工断言覆盖不全。这不是工程师能力不足，是任务本身的复杂度超过了人类工作记忆的极限。

Assertain：把LLM训练成"懂硬件的安全审计员"

Assertain：把LLM训练成"懂硬件的安全审计员"

这篇4月发表于arXiv的论文提出了Assertain框架，核心思路是让大语言模型（LLM）自动完成"翻译"工作。输入是RTL代码，输出是可执行的SystemVerilog安全断言。

但直接扔给GPT-5不行。研究团队发现，通用大模型生成的断言语法错误率高，且经常" hallucinate "（幻觉）出设计里不存在的信号名。Assertain的解法是做三层封装：

第一层是RTL静态分析，自动提取设计的接口、状态机和数据通路，生成结构化的设计摘要。第二层是CWE映射引擎，把硬件设计特征与MITRE的硬件安全弱点库做关联，锁定需要重点验证的攻击面。第三层是威胁模型推理，结合具体应用场景判断哪些漏洞真有利用价值，避免"为了安全而安全"的无效断言。

最关键的创新是"自反思精炼机制"。Assertain会让LLM生成初稿后，再用一个验证器检查语法正确性和语义一致性——发现矛盾就回炉重造，最多迭代三轮。这相当于给AI配了个"代码审查搭档"，而不是放任它单干。

实测数据：11个真实芯片设计上的碾压式胜出

实测数据：11个真实芯片设计上的碾压式胜出

研究团队在11个代表性硬件设计上做了对比测试，对手是GPT-5。三个核心指标，Assertain全面领先：

正确断言生成率高出61.22%。GPT-5经常生成语法通顺但逻辑错误的断言，比如把"当A为高时B必须为低"写成"当A为高时B必须为高"。Assertain通过自反思机制把这类错误压到极低。

独特CWE覆盖率高出59.49%。这意味着Assertain能发现更多类别的潜在漏洞，而不是反复检查同一类问题。在开源的RISC-V处理器核上，它额外揪出了3个此前人工断言遗漏的侧信道漏洞。

架构级缺陷检测率高出67.92%。这是最难的指标——不是检查某个门级信号，而是识别设计架构本身的逻辑缺陷。比如某密码学加速器的设计中，Assertain发现密钥调度模块与主运算模块的握手协议存在时序窗口，可能被故障注入攻击利用。

论文作者之一、佛罗里达大学硬件安全实验室主任Mark Tehranipoor提到，团队正在与两家EDA工具商洽谈集成，"目标是让Assertain成为芯片设计流程的默认选项，而不是额外插件"。

从论文到产线，还有多远？

从论文到产线，还有多远？

研究团队公开了部分开源设计的测试数据集，但商业IP的验证结果尚未披露。一个现实的障碍是：高端芯片的RTL代码属于核心机密，企业愿不愿意把设计细节喂给LLM？

论文提出的折中方案是本地化部署。Assertain的架构允许在私有服务器上运行开源LLM（如Llama 3），无需调用云端API。但这会牺牲一部分能力——GPT-5级别的模型目前还没法完全本地化。

另一个悬念是成本。自反思机制虽然提升了质量，但三轮迭代意味着3倍算力消耗。对于亿门级的设计，这笔账能不能算得过来，还得看实际部署后的优化空间。

如果明年流片的芯片里，安全断言有三分之一出自AI之手，你会更放心，还是更担心？

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴