说出来你可能不信,PoE2新赛季上线刚一周,服务器被一个打包漏掉的文件搞到集体崩溃。GGG自己都说:"我们从来没见过这种故障,完全没准备。"

事情发生在6月4日,新西兰那边(GGG工作室所在地)推送了一个热修复补丁。结果补丁上线仅仅9分钟,团队就收到大量玩家反馈——掉线、崩溃、延迟爆炸。当时技术那边还不确定到底影响了多少人,但15分钟后他们决定立刻回滚这个热修复。

打开网易新闻 查看精彩图片

然后,更离谱的事来了。

回滚没生效。因为崩溃产生的"crash dump"文件太多了。

这里稍微解释一下,crash dump就是游戏崩了之后系统自动保存的进程内存快照,用来给开发人员排查问题的。因为要完整记录崩溃那一刻的内存状态,所以这类文件通常体积不小。但问题是——谁也没想到它们会多到直接把服务器磁盘的剩余空间全部占满。磁盘一满,服务器性能直接雪崩,回滚操作根本部署不进去。

GGG原话是这么说的:"我们从未经历过这种类型的故障,对此完全没有准备。"

从尝试回滚失败到发现crash dump文件是罪魁祸首,中间隔了15分钟。然后又花了整整30分钟,后端工程师才把服务器恢复到稳定状态。全程算下来,1小时10分钟——这段时间里大量玩家要么登不进去,要么顶着严重的延迟和丢包硬撑着玩。

打开网易新闻 查看精彩图片

那到底这个热修复补丁为什么会触发这么离谱的连锁反应?根源竟然只是一个漏掉的数据文件,而且跟天赋树有关。

按照GGG的说明,打包系统在测试环境和生产环境之间存在"微小差异",导致一个本该被打包进生产环境热修复的文件被漏掉了。如果有玩家在天赋盘上使用了覆盖新节点区域的"范围珠宝",服务器读到那个区域对应的数据发现文件缺失,就直接崩。崩了之后系统自动生成crash dump,一个玩家崩一次就一个文件,成百上千个玩家同时崩——磁盘直接塞满。

说实话,这波新赛季整体开局其实相当不错。终局大改、主线流程精简,内容层面玩家是买账的。但bug数量也比往常多了一些。好在GGG反应够快,第一周内就修掉了绝大部分问题,包括这次服务器灾难。

现在他们已经给出了两个应对措施:一是加了一个保护机制,防止crash dump文件再塞满整个服务器磁盘;二是今后更新前会采取前置措施,确保一旦需要回滚,速度能更快。

顺带提一下,这个赛季是PoE2在1.0版本正式上线前(计划是2026年末)的最后一次大调整。赛季数据到目前为止依然坚挺,玩家没被这70分钟劝退太多——毕竟谁还没见过几个首发周修bug修到手忙脚乱的游戏呢。只是"磁盘被崩出来的日志塞满"这种翻车姿势,确实够新鲜。