2020年6月
一、应急背景与范围
1、应急预案背景
XX公司服务器硬件应急预案泛指XX公司机房地址,202机房、203机房、204机房(华为合营云)内的服务器设备硬件故障导致业务中断或业务受到影响时,按预警分级启动本预案并按本方案进行人员角色组织或转换进行对故障问题分析、结果预测、故障处理方案等保障性工作和业务恢复。
2、预案适用范围与数量
本方案涉及9.2期后续服务器设备,目前9.2期XX公司服务器总共1140台;其中烽火F1200V5 60台,华三R4900 120台,R6900 72台,浪潮NF5466M5 140台,NF8460M5 8台,曙光H320 100台,H320G30 230台,中兴R5300G4 30台,R5300G4 280台,R5500G4 100台。服务器均采用双路电源具有高可用冗余,业务系统具有备份节点。服务器硬件(包括cpu\\内存\\电源\\光模块\\硬盘等)厂商包括不限于;浪潮、中兴、曙光、峰火、华三等。
二、预案启动条件
1、预警分级
按影响范围,将通信预警划分为特别严重(Ⅰ级)、严重(Ⅱ级)、较严重(Ⅲ级)和一般(Ⅳ级)四个等级,依次标为红色、橙色、黄色和蓝色:
Ⅰ级(红色):业务核心全断,出口网络(国干,省干)全部中断。
Ⅱ级(橙色):出口网络国干或省干中断, IP承载网中断,AZ互联链路中断,核心HA设备中断。
Ⅲ级(黄色):出口,AZ互联,IP承载网主备链路中断一条 ,接入HA设备一起中断。
Ⅳ级(蓝色):机房内接入或者汇聚设备主备中断一台或者主备链路中断一条。
发生特殊情况,可结合实际,适当调整预警相应级别。
2、响应分级与启动标准
如发生Ⅰ级(红色)事件,且影响虚机业务超过50%,启动Ⅰ级响应,
如发生Ⅱ级(橙色)事件,且影响虚机业务超过50%,启动Ⅱ级响应
如发生Ⅱ级(橙色)事件,且影响虚机业务超过20%,启级Ⅲ响应
如发生Ⅲ级(黄色)事件,且影响虚机业务超过20%,启动Ⅲ级响应
如发生Ⅲ级(黄色)事件,且影响虚机业务超过10%,启动Ⅳ级响应,
如发生Ⅳ级(蓝色)事件,启动Ⅳ级响应。
三、方案执行原则
1、故障及时反馈
出现故障后,根据故障持续时间和故障严重程度,通知不同上级。
2、统一领导
出现故障后,需要有人统筹整体处理进度,合理分工,确保各部门密切合作,快速响应。
3、多人协同
出现故障后,原因不确认的情况下,需要同时协调多部门人员包括厂商人员一起推进故障处理 。
4、硬件故障恢复优先
在出现故障后,若是故障短时间无法解决,可通过其他方案临时恢复业务,优先保证金银牌客户业务恢复,恢复业务后再解决故障。
5、故障回顾
故障恢复后,需要分析故障原因,评估损失,提出改进建议。
四、应级保障分工界面
1、应急小组成员
2、职责与分工界面
省公司接口人:于杭、周远
负责统一指挥作战,负责协助协调备用服务器硬件资源,包括不限于板卡、cpu、内存、存储硬盘、电源等硬件设备。
现场组长:吴杰
负责现场牵头应急预案工作开展,故障通报上级领导和云能力中心,主导现场硬件故障处理,结果分析、故障原因分析,协助备件协调等。
服务器工程师:欧阳为 丁鹏飞
负责现场服务器故障定位排查、故障处理、服务器硬件更换、预期坏结果和业务影响分析、事故原因追溯。
备件调度员:邹志明 吴杰
负责服务器备件准备;包括不限于板卡、cpu、内存、存储硬盘、电源等硬件设备等,上报备件情况,与厂商联系备件更换,第三方借用等。
信息通报员:欧阳为 吴杰
负责现场故障预案通报;服务器故障数量,故障原因。与省中心第1时间进行汇报故障规模和预期坏结果,与云能力中心进行确认业务影响程度,负责现场信息传达。
五、故障原因及结果分析
1、服务器批量宕机
形成原因:空调故障导致服务器宕机;电力故障(包括UPS故障)导致服务器电源下电;机房湿度异常导致服务器宕机;机房火灾导致服务器批量宕机;
破坏结果:服务器批量宕机。
2、服务器硬件故障
形成原因:硬盘故障;内存故障;RAID卡故障;电源故障;CPU故障;网卡故障;
破坏结果:服务器状态异常,影响承载的业务,严重可导致宕机。
六、预防保障措施
1、开展日常检查和月度巡检
为保障机房服务器、网络设备等稳定、安全、高效运行,规范机房的操作过程,故需要对机房的设备进行日常的巡检工作,掌握设备运行状况及周围环境的变化,发现服务器、网络设备和线路故障,发现设施缺陷和危及安全的隐患,及时采取有效措施,以此保障设备的安全和系统稳定运行。
2、日常检查内容
检查电源指示灯、系统运行指示灯是否正常,硬盘指标灯、网卡指示灯是否规律性正常闪烁,检查风扇是否正常运行(包括异响),电源连接线和网线、光纤及其它线路是否松动和整洁。
七、应急资源配备
1、备用服务器;包括集群应急服务器、双机备用服务器。
2、备用主机备件;包括硬盘、网卡、内存、RAID卡、电源、CPU等服务器零部件。
3、及时联系厂商提供备用服务器或零部件,包括硬盘、网卡、内存、RAID卡、电源、CPU等服务器零部件。
4、应急联系人员表;