每一秒,科学实验都会产生海量数据——数据量如此之大,以至于传输和分析这些数据,即使是最先进的研究也可能被拖慢。为了帮助科学家更好地应对这场数据洪流,美国能源部(DOE)阿贡国家实验室(ANL)的研究人员开发了一种新型计算机芯片,能够快速压缩和处理先进X射线探测器产生的海量数据,例如位于阿贡的DOE科学用户设施先进光子源(APS)的探测器

通过在源头直接压缩数据——就像压缩电影或歌曲以便更容易传输一样——这项技术使实验变得比以往任何时候都更快、更高效、更具洞察力。

打开网易新闻 查看精彩图片

这种硅芯片集成了成像传感器和数据压缩功能,与美国一分钱硬币大小差不多。该芯片由阿贡和SLAC共同设计。

当X射线或电子击中样品时,探测器会捕捉产生的信号——就像数码相机捕捉光线来生成照片一样。这些信号被转换成电脉冲,然后数字化为计算机可以处理的数字。但对于现代探测器而言,产生的数据量是巨大的。每一帧,即使那些包含很少有用信息的帧,也会被发送出去进行存储和分析。这可能会使计算机系统不堪重负,拖慢研究进度,使科学家更难找到最重要的内容。

"我们的目标是将更多计算能力直接带到数据生成的地方,"阿贡实验室兼芝加哥大学的物理学家Antonino Miceli表示。"在我们之前的工作中,我们展示了先进的数学技术如何在保留用于分析的重要部分的同时压缩数据。现在,利用新的芯片技术和微电子技术的改进,我们构建了一款将数学运算直接植入探测器内部的芯片。利用在APS 8-ID光束线收集的数据,探测器可以在采集数据的同时即时压缩数据。"

这意味着科学家可以直接对压缩后的数据进行关键计算,而无需先解压。因此,他们可以更快地分析结果并获得反馈,甚至在实验仍在进行时就能做到。

打开网易新闻 查看精彩图片

数据引导:从实验中学习的芯片

在他们工作的基础上,团队现在将快速、紧凑的矩阵数学处理器直接集成到探测器芯片中。芯片不会将每个像素都发送出去,而是将每张图像提炼为一组紧凑的数字,保留科学家最重要的特征。输出大小始终相同,并且实时流式传输,使其更容易管理和发送。

为了使芯片更加有用和灵活,它可以针对每个实验进行定制。在实验之前或期间,科学家可以上传预设的"权重"——这些设置告诉芯片要保留哪些特征。这个过程类似于训练人工智能(AI)模型。利用样本数据,芯片可以被编程为专注于每个实验最相关的内容。

"从本质上讲,这些芯片可以在实验中最重要的事物上进行训练,因此它可以即时压缩和减少数据,"在APS和阿贡纳米材料中心(CNM)共享光束线工作的阿贡科学家Tao Zhou解释道。"硬件是灵活的,可以适应不同类型的压缩或数据减少,例如径向积分。"CNM是位于阿贡的DOE科学用户设施。

测试和设计研究表明,这种片上方法可以将数据减少约100到200倍,同时以高达每秒100万帧的速度运行。这意味着需要移动的数据更少,功耗更低,电缆更少,使实验更便宜、更高效、更容易扩展。

通过将智能数据压缩与快速硬件相结合,科学家可以实时获得答案并立即调整他们的实验。这有助于加快发现周期,并充分利用光束线上的每一分钟。

阿贡团队现在正致力于将这款芯片从设计阶段转移到大规模制造和在实际实验中应用。

"APS的实验将从这项技术中受益匪浅,"Miceli说。"通常,探测器而不是X射线源是限制因素。要充分利用光源的能力,我们需要这样的技术。这项工作也展示了探测器开发人员和领域科学家之间的协作可以产生巨大影响。"

打开网易新闻 查看精彩图片

这项研究成果发表在《仪器仪表杂志》(Journal of Instrumentation)上。这项工作的其他贡献者包括:Rami Rasheedi、Mohamed Adel Gharib和Salma Abdelzaher(阿贡实验室、伊利诺伊大学芝加哥分校);Nicholas Contini(阿贡实验室、俄亥俄州立大学);Mike Hammer和Henry Shi(阿贡实验室、芝加哥大学);Senthil Gnanasekaran、Sebastian Strempfer、Tejas Guruswamy、Kazutomo Yoshii和Angelo Dragone(阿贡实验室);Yu-Sheng Chen(芝加哥大学);Lorenzo Rota、Dionisio Doering和Angelo Dragone(DOE的SLAC国家加速器实验室)。

这项研究由DOE科学办公室、先进科学计算研究和基础能源科学(BES)资助。这项工作主要由AUREIS项目支持,该项目是微电子能效先进技术研究中心的一部分,以及Morpheus项目,该项目由DOE BES/科学用户设施司的加速器和探测器研发计划支持。