早在好几年前,我就在天翼云服务器上部署了Zabbix,用于监测客户的服务器,以及关键的网络设备,比如防火墙、路由器、核心交换机等等。
并且也部署了堡垒机,以便于安全地远程管理客户的服务器和网络设备。
应该说,还是相当有用的,很多次都提前发现了问题,并妥善处理了。
这不,前天它又给我来活了——突然收到好几封邮件警告,仔细一看,每封邮件就是一条内存坏,一共三条内存,都坏了!
其实这台服务器上,原来有4条16G内存,去年已经坏了一条,因为不影响使用,我跟客户讲了一声,也就没采购,估计这回是真不行了。
赶紧远程登录iDRAC看一下,果然是“严重”警告。
点开“内存”查看详细信息;
好家伙,三条内存都是一样的“检测到存在严重错误”,直接在控制台重启服务器,并没有用,再看日志,还是报错
而且,服务器也是无法启动的,说明内存故障严重。
我前几年也遇到过,同样是戴尔服务器,其中一条16G的内存变成4G了,服务器还在跑呢,重启也能起来,只是反复提示要更换内存条,想来,不是严重问题,系统还是能启动的。
但,这次显然不行了,只能换内存了。
iDRAC控制台关闭服务器,开着也没用了,就省一晚上的电吧。
给客户发截图,报价,由于是金蝶服务器,停一天都不行,客户很快确认了,第二天早上,一路赶去更换内存。
因为原来就是64G内存,所以这次直接换了两条32G的,算是恢复到原来的内存容量了。
更换完成后,再次登录 iDRAC,查看系统状态,内存告警没了,一切都正常了,另外两个报错,重启后也就消失了,可能不是什么实质性的问题,也可能就是由内存引起的,总之,现在恢复正常就行了。
赶紧提醒客户,测试金蝶。
任务完成,赶往下一站,20多年IT运维外包,不就是这么过来的,嘿嘿。
热门跟贴