欢迎来到《值班记录》的又一期内容,这是The Register每周发布的读者投稿专栏,分享您在技术支持工作中遇到的奇异而精彩的故事。
本周,我们要介绍一位读者,我们称他为"卡勒姆"。他向我们讲述了自己在英格兰北部一家公司工作时的经历。这家公司运行着一台8-CPU的Sun服务器,其处理器成对存储在可拆卸的卡片上。
卡勒姆解释说:"这台服务器运行着支撑他们销售平台的Oracle数据库,被认为是极其重要的,因此公司花费了五位数的费用租用了一条专线连接到支持供应商,供应商'持续监控'服务器的问题,并承诺在一小时内派遣工程师。"附近还有一个备件缓存库,这意味着替换硬件通常会在支持技术人员到达之前就送到!
这种安排是明智的,因为服务器很老,偶尔会出现故障。
卡勒姆写道:"我们时不时会遇到问题,通常是CPU卡出现故障。但没问题,这就是支持合同存在的意义!"
这种安排也有两个缺陷。
一个是指定的合同值班支持人员住得很远,只要有一点恶劣天气——而北方的恶劣天气很多——路况就会变得很糟糕,他无法按要求在一小时内安全到达。
第二个问题是监控系统在服务器宕机时并不擅长察觉,但在检测启动时表现出色。
卡勒姆告诉我们,这些问题意味着事故通常按以下顺序展开:
CPU卡出现故障;
服务器的操作系统因失去四分之一的CPU而重启;
服务器无法重启,因为其中一张CPU卡坏了;
联系中心向IT部门投诉;
卡勒姆或其他值班的IT工作人员开车进来移除故障卡并重启服务器;
服务器恢复运行;
支持承包商打电话报告服务器故障,并承诺在一小时内派人。
卡勒姆说,在这个流程重复了两三次后,他们告诉合同IT支持人员不要冒险匆忙赶来修理服务器。
卡勒姆写道:"大多数时候我们可以自己让设备启动并运行,而且无论如何,如果我们几个小时不能销售东西,世界也不会末日。所以我们告诉他不要冒着杀死自己和/或他人的风险试图在一小时内到达我们这里。"
支持供应商也配合了,免除了两年的专线费用,承认它没有履行职责!
Q&A
Q1:这台Sun服务器为什么如此重要?
A:这台8-CPU的Sun服务器运行着支撑公司销售平台的Oracle数据库,被认为极其关键,因此公司花费五位数费用租用专线进行24小时监控,并要求支持供应商在一小时内派遣工程师。
Q2:为什么外包支持总是比内部团队慢?
A:主要有两个原因:一是支持人员住得很远,遇到恶劣天气时无法在一小时内安全到达;二是监控系统在服务器宕机时检测能力差,但在检测启动时表现出色,导致他们总是在服务器已经修复后才发现问题。
Q3:最终如何解决这个问题?
A:内部团队告诉外包支持人员不要冒险匆忙赶来修理服务器,因为大多数时候内部团队可以自己解决问题,而且短时间的系统停机不会造成严重后果。支持供应商也配合免除了两年的专线费用。
热门跟贴