打开网易新闻 查看精彩图片

阿里云的软文,透漏了很多魔兽世界国服服务器的内幕和压力测的内部故事。

时间倒回2024年初。李林强和阿里云同事们从网易技术团队处接到一款保密游戏的技术对接。

之后半年里,阿里云投入数支技术队伍,与暴雪技术团队、网易发行团队紧密合作。三方分工明确,暴雪专注于重启游戏服务,网易全力接入运营功能,阿里云则致力于为产品团队提供优质服务,并配合部署调试服务器,希望能以最快的速度为玩家们带回艾泽拉斯。

网易团队经过紧锣密鼓的验证,最终确定了《魔兽世界》国服回归技术测试选用阿里云ECS云服务器的g8a机型,基于全新AMD第四代处理器Genoa ,在单核算力、性价比、核密度等方面有明显提升,可胜任更多、更高阶的任务;同时,阿里云为国服重启设计了ECS弹性扩展、云原生数据库、DDOS无感防护等技术方案,为这款20年的经典车换上新轮子。

此外,网易携手阿里云的技术团队重建了技术环境,并对数十项功能及能力进行了提升优化,还通过TerraForm实现了百余款云产品及全量资源的自动化管理。

因为时差,暴雪美国团队往往会在北京时间凌晨集中提出优化需求。阿里云技术团队均具备双语沟通能力,为了及时响应还建立了两班倒的工作机制。团队所有人养成了早上起床先看工作平台 Slack、再看钉钉的习惯,最终保障三方交付界面清晰、异地配合流畅。

技术选型已敲定,技术环境已搭建好,服务器也以最快的速度上架,此时,距离正式回归只差一个练兵的机会。

对于《魔兽世界》这样一款玩家众多的游戏而言,实战测试是更有效率的测试方式。2024年5月,《魔兽世界》沉寂许久的官网发出一则重启技术测试公告。

打开网易新闻 查看精彩图片

当一个游戏面临“重启”这样的重要节点时,技术测试相当于一次“大考”之前的“模拟考”。只有玩家集中涌入进行高强度压力测试,才能评估服务器的承载能力和稳定性,加快正式服回归的速度。

测试的必要性不仅是源于使用了新服务器,也因为过去一年里游戏前端、后端都经历了许多更新,每一次更新的推出都需要测试,国服缺失的这些测试也都需要“补课”。

为期7天的技术测试对所有玩家开放,不限号,专属测试服务器“抗压一号”、“抗压二号”和后续加开的“抗压三号”服务器都将在阿里云上运行。

这对阿里云技术团队提出了两个挑战:

第一,云资源要能经受住开服瞬间考验。虽然不是新游戏上线,但《魔兽世界》拥有庞大的玩家群体,这可能导致某些服务器上的登录压力远超常规,甚至超过其他新游戏首次上线时的服务器压力。为此,阿里云提前做好了ECS储备和弹性优化,支撑阿里巴巴集团双11流量洪峰的经历,也让技术团队积累了丰富的技术经验。

第二,延时情况要达标。网易要求所使用的阿里云杭州的3AZ延迟均低于2毫秒。阿里云技术团队进行了历时1个月的网络基础建设改造,通过ECR的就近转发优化转发路径,提供更近距离、更低延迟的网络访问,最终达到了要求。

创造新纪录的一天

人们屏气凝神,等待着6月11日开服时刻的到来。

10:45,《魔兽世界》提前开服,仅仅一瞬间服务器负载接近打满。

北郡修道院人山人海,大家热络地打着招呼,感叹“有家的感觉真好”;每一秒钟都能刷新出许多新玩家;其他新手村也挤满了浩浩荡荡的牛头人大军、亡灵大军和血精灵大军。

11:40,抗压一号排队人数突破一万人,同时,进入游戏的玩家数不断攀升,超过了国服单服务器的容载上限,但服务器依然坚挺。

打开网易新闻 查看精彩图片

中午12时许,因过于火爆,魔兽世界官博宣布服务器重启,并且新增了一组服务器,“抗压三号”上线,此时服务器的状态稳定下来。

项目组技术团队经受住了开服的考验。在提升玩家游戏体验上,他们同样付出了许多努力。

魔兽世界分为两个阵营:部落和联盟。其中经典的玩法是部落和联盟两个阵营的玩家分别组织本阵营的几百号人,去攻打另一个阵营的主城。

攻城时,多名玩家会集中在同一个地图上相互甩技能,用技术术语来说,用的是CPU的同一个线程。如果CPU单核跟不上,玩家就会卡顿。早年服务器单线程性能有限,有时100多人同屏战斗就可能出现卡顿。

但任何一款MMORPG都是人多才好玩,这就导致了小服没人、大服要排队。以前魔兽世界单服能支撑的玩家较少,高峰期玩家多,大量玩家往往要排队很久才能进入游戏。如果一个玩家长时间停留在队伍中长期不动,会被系统判定为下线,需要重新排队。

为了不被强制下线,玩家需要保持游戏角色微小的运动,因此在王进这些资深魔兽玩家中,流传着一个“地板烫脚”的梗——“你永远不知道一个魔兽世界玩家在原地跳,背后是什么东西在操纵”。王进一度跟着网上教程,在转动的风扇上系上黄瓜,如果自己有事要忙,就用黄瓜按压键盘的起跳键。

打开网易新闻 查看精彩图片

王进曾在转动的风扇上系上黄瓜,用于按压键盘的起跳键

此次《魔兽世界》国服架构进行了全新技术改造,再配合ECS云服务器g8a实例,实现了弹性扩展,玩家同屏团战体验大幅提升,最大限度避免排队,这也是AMD支撑下的超高性能的g8a云服务器在游戏场景下的首次超大规模实践。

影响游戏体验的,还有“顽固”的延迟问题。MMORPG游戏的技能释放、走位等对延迟要求很高,技术上每1毫秒的延迟降低,都能带来玩家体验的极大提升。王进说:“我们十年前都是几十毫秒级别的卡顿。打boss时如果boss攻击你,你几十毫秒后才反应,已经被伤害了。”

对此,李林强介绍,ECR专线网关拥有单地域百Gbps量级带宽支持,并且使得游戏服与游戏服、游戏服与平台服间延迟有了较大降低。有浙江地区的玩家在帧数高达896fps(画面每秒帧数)的环境下,延迟仅有4毫秒。有网友表示“这个延迟不可思议,这是蹲在网易的机房上面有线直连打游戏吧?”

打开网易新闻 查看精彩图片

896fps下,延迟仅4毫秒;还有玩家实测526fps下,延迟仅2毫秒

到了晚上21点,服务器达到测试服首日在线峰值,单服务器在线上线再次刷新记录。暴雪、网易携手阿里云共同作战,创下了单一服务器容纳超12万名在线玩家的全球新纪录。在高负载下,玩家的游戏体验也没有出现明显的卡顿。

最早期的魔兽世界服务器单服约容纳数千人,到了魔兽世界怀旧服上线,单服容量增加到2~3万人,这个意味着本次抗压技术测试的数据是以前数据的4倍!

王进的游戏群里,群友们对这次测试的表现十分满意:“我饭都准备好了,打算先排着队吃完饭回来刚好开打,结果刚登录就进游戏了。再看看满屏的人山人海,没错就是这个国服独有的味儿。”

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

游戏玩家评论

项目组对于《魔兽》压力测试有个不成文的评价标准:“玩家越无感,我们越成功。最好的开服体验,就是大家一起喝喝茶,服就开了。”

6月18日,技术测试保障顺利结束,大家聚在办公室里,一起煮了杯龙井。

打开网易新闻 查看精彩图片

对于王进来说,当年和他一起攻城掠地的朋友大多结婚生子,他的重心也从游戏副本转到了生活这个副本。他每天最重要的护送任务,逐渐从游戏里的护送运载目标,变成了护送自家女儿去上学。

但数百万像王进这样的玩家的游戏数据,仍被完好无损地存储着。玩家的每次战绩、每次攻城的荣誉、每个角色的服饰和符文石、投注其中的每一秒时间,艾泽拉斯都记得。这些数据已被项目组从IDC仓库取回、逐一校验、推动数据上云,为游戏正式开服做好准备。

打开网易新闻 查看精彩图片

存储魔兽玩家数据的服务器,被项目组戏称为“电子骨灰盒”

为了加速国服回归,钟爱《魔兽世界》的项目组甚至把魔兽NPC的经典台词“时间就是金钱,我的朋友”设为工作群名,以互相激励。

在暴雪、网易和阿里云技术团队的共同努力下,国服全面开服时间几度提前至6月27日。回归后的魔兽国服将从传统线下IDC服务器全量升级到阿里云上,为国内数百万玩家提供更稳定、更顺畅的游戏体验。

打开网易新闻 查看精彩图片

“复活吧,我的勇士”

白银之手骑士提里奥·佛丁曾说过:“要做的事情还很多呢——如果你很想找些事情做的话。”

要做的事情确实还很多,王进想着,等正式服回归时,他要约上老友,再去西部荒野看看灯塔,去湖畔镇钓鱼,去冬泉谷看雪,去藏宝海湾的屋顶看日落,在雷霆崖仰望星空,再见一面在十字路口给他面包的法师,在风的指引下续写他们的勇士故事。

打开网易新闻 查看精彩图片

打开网易新闻 查看精彩图片