打开网易新闻 查看精彩图片

187篇顶会论文,30个开源项目,最终能跑通的只有7个。德国鲁尔大学波鸿分校和马克斯·普朗克安全与隐私研究所刚发布的这份系统综述,把硬件逆向工程(Hardware Reverse Engineering, HRE)领域的底裤扒了个干净。

这个数字不是 typo。4%的复现率,放在任何工程领域都堪称灾难。

研究团队花了两个月,按学术圈最严格的 artifact evaluation 标准逐一代码验证。结果触目惊心:超过四分之三的项目连编译环境都没写清楚,有些依赖的硬件设备早已停产,还有些代码仓库干脆是空的——作者可能自己都忘了上传。

芯片安全的第一道门,锁芯是锈的

芯片安全的第一道门,锁芯是锈的

硬件逆向工程是什么?简单说,就是把成品芯片"拆开读心"。从物理层面的硅片图像,到逻辑层面的门级网表(netlist),再到功能层面的电路行为——这套流程是现代计算安全的基础设施。

设计验证需要它:你买的芯片是不是真货?有没有被植入后门?供应链审计需要它:代工厂有没有偷偷改你的设计?漏洞挖掘更需要它:Meltdown、Spectre 这类硬件级漏洞,没有逆向工程根本无从发现。

但问题在于,这个"根信任"(root of trust)本身的研究基础,烂得像筛子。

论文第一作者 Zehra Karadağ 在团队博客中写道:「知识碎片化到荒谬的程度。做集成电路(IC)逆向的、做现场可编程门阵列(FPGA)逆向的、做网表分析的,三个圈子几乎不互相引用。有人重复造轮子,有人轮子造完就扔,没人知道全局长什么样。」

她打了个比方:就像三个工匠分别在造汽车的方向盘、发动机和轮胎,彼此不知道对方存在,最后拼出来的东西能跑才是奇迹。

时间线拉出来,问题更扎心

时间线拉出来,问题更扎心

2005年到2025年,这187篇论文的分布曲线很有意思。前十年缓慢爬坡,2015年后陡然上升——恰好是物联网爆发、芯片供应链安全成为政治议题的节点。但数量膨胀的同时,质量管控几乎原地踏步。

研究团队把技术流程拆成四段:图像采集、图像处理、网表提取、网表分析。每个环节都有大量"一次性"研究:提出一个新算法,在自家数据集上跑个漂亮数字,发完 paper 就再无下文。

最典型的是图像处理环节。扫描电子显微镜(SEM)拍回来的硅片图像,需要去噪、对齐、分层识别。过去二十年诞生了至少17种不同的特征提取方法,但公开数据集只有3个,且互不兼容。新来的研究者想对比前人工作?先花半年重建实验环境。

Christof Paar 教授——密码硬件领域的元老级人物,也是这篇论文的通讯作者——在采访中直言:「我们批评的不是某个具体工作,而是整个生态的激励扭曲。审稿人看的是新颖性,不是可复现性;会议要的是 headline 数量,不是工程扎实度。」

打开网易新闻 查看精彩图片

结果就是一个怪圈:论文越写越多,工具链越来越碎,真正能用上的越来越少。

那7个能复现的项目,做对了什么

那7个能复现的项目,做对了什么

研究团队没有只泼冷水。他们详细分析了7个"幸存者"的共同点,结论对国内从业者同样有参考价值。

首先是容器化交付。不是简单丢个 GitHub 链接,而是提供预配置好的 Docker 镜像,里面连特定版本的 CUDA 驱动都锁死。其次是硬件清单透明化:用了哪年的 SEM、什么型号的探针台、采样参数多少,全部列明。最后是测试用例的"降级"设计——哪怕你没有百万级的专业设备,也能用公开数据集跑通基础流程。

这些听起来都是工程常识,但在学术圈属于"额外劳动"。作者 Steffen Becker 算过一笔账:按德国研究助理的时薪,把一个项目做到可复现标准,平均要多花120-150工时。而会议审稿几乎不会为此加分。

换句话说,做好工程是负收益。这个结构性问题不解决,4%的复现率还会持续。

论文给出的三条建议,矛头直指制度层面。对学术界:把 artifact evaluation 从"加分项"变成"门槛项",像软件工程顶会那样强制要求。对工业界:开放更多脱敏的"问题芯片"作为基准测试集——目前公开可用的硬件漏洞样本,一只手数得过来。对政府:厘清法律边界,研究人员拆解商用芯片做安全分析,在很多国家仍处灰色地带。

一个被忽视的细节

一个被忽视的细节

综述附录里有个小表格,列出了30个 artifact 的具体"死因"。排名最高的不是"代码缺失",而是"依赖硬件已停产"——有6个项目绑定了特定型号的 FPGA 开发板,而该型号在论文发表后三年内就退市了。

这比单纯的学术懒惰更值得警惕。硬件迭代速度远超软件,逆向工程工具如果不能跨平台、跨代际,本质上是在制造技术债。

研究团队把完整数据集和复现脚本开源在了 Zenodo 平台,包括那7个能跑通项目的"抢救版"环境配置。Karadağ 在 release note 里写了一句:「我们花了三个月让别人的代码跑起来,希望下一个研究者不需要重复这个过程。」

这句话的点赞数,目前是该团队 Twitter 账号过去一年最高的。评论区有人问:如果187篇里只有7篇值得信任,你们怎么确定自己的方法论没问题?

作者回复了一个 emoji:

然后补了一句:「这就是为什么我们需要更多人来做复现,而不是写新 paper。」