打开网易新闻 查看精彩图片

2月24日至26日,第24届USENIX文件与存储技术会议(USENIX Conference on File and Storage Technologies, FAST)在美国圣克拉拉举办。清华大学计算机系存储实验室发表的论文“GPU检查点保存和恢复的快速和轻量级方案”(GPU Checkpoint/Restore Made Fast and Lightweight)获得杰出技术贡献奖(Distinguished Artifact Award)。该论文第一作者为计算机系2021级博士生曾少勋(南大本科校友),导师为清华大学计算机系副教授陆游游

清华大学存储研究组是国内最早从事网络存储系统研究单位之一,隶属于清华大学计算机系高性能所,由舒继武教授(南大博士校友、国家杰青、闽江学院校长陆游游副教授(南大本科校友、国家优青)带领从事存储系统方面的研究。自本团队成立以来,团队在包括OSDI, SOSP, FAST, MICRO, SC等顶级会议以及ACM/IEEE Trans. 权威期刊发表学术论文近百篇,此外,在存储系统方面,清华大学存储研究组还获得了国家科技进步二等奖、国家技术发明二等奖及省部级奖项等多项奖励。

打开网易新闻 查看精彩图片

  • Shaoxun Zeng, Tingxu Ren, Jiwu Shu, Youyou Lu.GPU Checkpoint/Restore Made Fast and Lightweight.The 24th USENIX Conference on File and Storage Technologies (FAST'26), 2026.

【论文介绍】

该论文提出了一种快速且轻量级的GPU检查点保存和恢复方案GCR,通过分离数据路径与控制路径提高保存和恢复过程中的带宽利用率,并提出高效的GPU增量式检查点技术。GCR支持vLLM、DeepSpeed、Transformers等主流框架和多种型号的GPU。该论文因高质量的开源工作获得本次大会奖项,其在功能完备性、性能可复现性等方面均展现出了高水准。

基于该论文,我们构建并开源了项目GPU-CR(https://github.com/gpu-os/GPU-CR),并在大模型推理场景进行了系统评估。实验选取了多个主流模型进行测试,包括 Llama-8B、Qwen3-1.7B 等。实验分别在 NVIDIA GPU 环境 和 AMD GPU 环境 下进行,对比方案为 cuda-checkpoint 和 CRIU。

实验结果表明,GPU-CR 在 Checkpoint 和 Restore 两个阶段均取得了显著的性能提升。

在 CUDA 平台上,相比传统 CUDA Checkpoint 方案:

·Checkpoint 阶段实现 3.1 – 3.2 倍的加速

·Restore 阶段实现 2.3 – 3.3 倍的加速

打开网易新闻 查看精彩图片

图一:GPU-CR与cuda-checkpoint实验结果图

在 AMD 平台上,相较于CRIU:

·Checkpoint 阶段获得 2.7 – 3.2 倍的加速

·Restore 阶段获得 1.6 – 2.2 倍的加速

打开网易新闻 查看精彩图片

图二:GPU-CR与CRIU实验结果图

GCR能高效支撑多种现代GPU负载的关键应用场景,包括弹性GPU任务快速扩展、GPU多任务切换、容错的GPU计算等,对于提升GPU集群整体利用率具有重要意义。

编辑、审核:胡大可

版权声明:本文由“TOP大学来了”综合自“清华大学计算机系、清华大学存储研究组”,文章转摘只为学术传播,如涉及侵权问题,请联系我们,我们将及时修改或删除。