芯片设计越复杂,安全漏洞越难找。一个被忽视的事实:全球每年因硬件安全漏洞造成的损失,远超软件漏洞——但芯片公司还在用人工写安全断言,效率堪比手抄《百科全书》。
人工写安全断言,正在成为芯片设计的"卡脖子"环节
现代系统级芯片(SoC)的复杂度已经爆炸。一颗手机芯片里可能塞着上百亿个晶体管,安全验证需要检查数千条属性。传统做法是工程师手动编写SystemVerilog断言(一种硬件验证语言),逐条定义"什么情况下算违规"。
佛罗里达大学的研究团队算过一笔账:一个中等规模的SoC设计,安全断言的编写周期常以月计。更麻烦的是,工程师得同时熟读三种"外语"——硬件描述语言(RTL)、常见弱点枚举(CWE)数据库、以及具体设计的威胁模型。稍有遗漏,漏洞就从指缝溜走。
2023年Arm的Mali GPU漏洞、2024年某大厂服务器芯片的侧信道漏洞,事后复盘都指向同一个根因:人工断言覆盖不全。这不是工程师能力不足,是任务本身的复杂度超过了人类工作记忆的极限。
Assertain:把LLM训练成"懂硬件的安全审计员"
这篇4月发表于arXiv的论文提出了Assertain框架,核心思路是让大语言模型(LLM)自动完成"翻译"工作。输入是RTL代码,输出是可执行的SystemVerilog安全断言。
但直接扔给GPT-5不行。研究团队发现,通用大模型生成的断言语法错误率高,且经常" hallucinate "(幻觉)出设计里不存在的信号名。Assertain的解法是做三层封装:
第一层是RTL静态分析,自动提取设计的接口、状态机和数据通路,生成结构化的设计摘要。第二层是CWE映射引擎,把硬件设计特征与MITRE的硬件安全弱点库做关联,锁定需要重点验证的攻击面。第三层是威胁模型推理,结合具体应用场景判断哪些漏洞真有利用价值,避免"为了安全而安全"的无效断言。
最关键的创新是"自反思精炼机制"。Assertain会让LLM生成初稿后,再用一个验证器检查语法正确性和语义一致性——发现矛盾就回炉重造,最多迭代三轮。这相当于给AI配了个"代码审查搭档",而不是放任它单干。
实测数据:11个真实芯片设计上的碾压式胜出
研究团队在11个代表性硬件设计上做了对比测试,对手是GPT-5。三个核心指标,Assertain全面领先:
正确断言生成率高出61.22%。GPT-5经常生成语法通顺但逻辑错误的断言,比如把"当A为高时B必须为低"写成"当A为高时B必须为高"。Assertain通过自反思机制把这类错误压到极低。
独特CWE覆盖率高出59.49%。这意味着Assertain能发现更多类别的潜在漏洞,而不是反复检查同一类问题。在开源的RISC-V处理器核上,它额外揪出了3个此前人工断言遗漏的侧信道漏洞。
架构级缺陷检测率高出67.92%。这是最难的指标——不是检查某个门级信号,而是识别设计架构本身的逻辑缺陷。比如某密码学加速器的设计中,Assertain发现密钥调度模块与主运算模块的握手协议存在时序窗口,可能被故障注入攻击利用。
论文作者之一、佛罗里达大学硬件安全实验室主任Mark Tehranipoor提到,团队正在与两家EDA工具商洽谈集成,"目标是让Assertain成为芯片设计流程的默认选项,而不是额外插件"。
从论文到产线,还有多远?
研究团队公开了部分开源设计的测试数据集,但商业IP的验证结果尚未披露。一个现实的障碍是:高端芯片的RTL代码属于核心机密,企业愿不愿意把设计细节喂给LLM?
论文提出的折中方案是本地化部署。Assertain的架构允许在私有服务器上运行开源LLM(如Llama 3),无需调用云端API。但这会牺牲一部分能力——GPT-5级别的模型目前还没法完全本地化。
另一个悬念是成本。自反思机制虽然提升了质量,但三轮迭代意味着3倍算力消耗。对于亿门级的设计,这笔账能不能算得过来,还得看实际部署后的优化空间。
如果明年流片的芯片里,安全断言有三分之一出自AI之手,你会更放心,还是更担心?
热门跟贴