
一:背景介绍
随着实验室的业务越来越广泛,云平台具有高可用性、可伸缩性和灵活性等优势,但也面临着一定的风险和挑战,为了应对突发事件和保障业务的连续性,制定一份完善的云平台应急预案至关重要。
本文档旨在指导运维人员在云脑上指定应急预案,帮助运维人员面对各种突发情况时能够及时、有效的应对,最大限度的减少损失和影响。
二:应急响应准备
2.1. 定期备份和恢复测试
定期备份云平台的重要数据和配置信息,包括了快照备份,并进行恢复测试,确保备份的完整性和可用性。同时,为了确保备份数据的存储安全,数据全部存放在云脑II 上,并设置严格的访问控制权限,确保数据安全和避免数据泄露、丢失的风险。
2.2. 安全监控和漏洞扫描
建立了安全监控系统,在企业主机安全模块中,每台ECS都安装对应的agent,及时发现和响应云平台中的安全威胁,定期进行漏洞扫描和安全评估,发现潜在的安全漏洞并及时修复,防止黑客攻击。
三:突发事件应急响应
3.1. 虚拟机故障处置
当用户报告业务系统无法正常访问,或从云平台监控平台上看到异常事件告警时,初步判断为虚拟机故障,可按照以下步骤进行恢复:
1)登陆虚拟机检查虚拟机资源占用情况及网络连接情况;
2)步骤一检查正常时,征得客户同意后,可以通过重启云服务器服务的方式,对缓存等进行重新初始化,消除故障;
3)步骤二无法恢复时,建议用户联系业务软件提供商,协助检查是否由于软件问题引起的虚拟机异常;
4)利用虚拟机快照功能,尝试对用户业务虚拟机进行恢复;
5)利用备份软件,尝试对虚拟机进行恢复。
3.2. BMS故障处置
Bms裸金属是云平台的基础,所有的业务虚拟机都运行在主机之上。Bms裸金属的正常运行直接关系到整个云平台的运行情况。Bms裸金属的主要故障分硬件故障和软件故障,相应的应对措施有:
1)平台服务器出现硬件告警需要停机维护,服务器责任人应立即通知相关人员,将业务虚拟机迁移到集群中其他服务器主机上,再将故障服务器切换至维护模式并从主机集群中移除,负责陪同硬件厂家现场更换至成功恢复。
2)若服务器硬件24小时内无法恢复,服务器责任人需要书面告知原因并立即通知业务管理人员进行数据应急备份,防止灾难扩大。
3)若虚拟化存储硬件出现告警,运维人员应立即上报NOC并联系二线进行处理,处理完成后立即对数据做完整性检查,消除数据丢失、损坏的隐患。
3.3. 存储故障处置
存储故障主要分为硬件故障和软件故障。硬件故障主要是:硬盘故障、控制器故障、因设备老旧引起的存储设备故障等。将造成存储设备运行不稳定,数据完整性和可用性将无法保障;软件故障主要有:卷切换、微码升级、固件升级和兼容性问题等。将造成存储设备与服务器设备连接不稳定,造成存储性能降低。应对措施主要有:
1)存储设备要做到控制器冗余,架构设计时要考虑到HA的问题。
2)定时备份存储设备配置文件,故障时可快速恢复配置。
3)立即备份数据或迁至备用存储设备,特殊情况下不排除起用相似机型,恢复应用系统正常使用,并做好故障现场保护。
4)同步与设备提供商联系,紧急调用备件,派售后工程师对故障现场处理,处理前写明操作步骤,及回退方案。查明故障原因,事后由设备提供商提供官方故障分析报告。
5)发生软件故障时,登录存储管理软件,导出存储设备系统日志,发给设备提供商进行综合分析,判断故障,列出原因,并给出解决、优化或升级方案,由设备提供商工程师配合进行实施。
3.4. 网络故障处置
云平台的网络部分涉及互联网出口、政务网出口、各层交换机、网络安全设备。每一部分的故障将导致云平台的业务系统异常,影响客户体验。针对云中心网络可能发生的故障,主要应对措施有:
1)快速定位网络异常区域,确认是硬件问题或者配置问题。对于硬件问题,迅速上报服务台,在二线工程师的支持下,进行硬件更换;对于配置问题,可查看变更记录,迅速恢复设备配置,进行网络恢复。
2)确认网络问题为运营商侧时,第一时间联系运营商接口人,告知故障现象,协助处理,并随时跟进故障处理进度。
3)确认网络问题为防火墙或者负载均衡设备侧故障时,迅速联系二线或者厂家工程师,远程进行处理。
3.5. 平台异常应急处理
1、用户管理,统一通过2级VDC的方式给到用户,一级VDC的权限由我们把控,实现对用户权限的完全控制,出现权限问题我们可以随时对其进行配置操作。
2、BIM/CIM业务异常,通过vnc登入终端,确认是系统异常还是网络异常,网络异常一般通过数据报文的传输路径进行分析,系统问题大部分情况在征得用户同意后可以进行重启操作。如果上述问题还没解决则可以通过快照的方式进行还原到备份的那个时间。
3、系统问题首先由技术人员进行分析,确认问题的根本原因,如操作系统无法启动,则需要视情况进行数据保留,将重要数据迁移出来,再重新恢复操作系统;
4、软件引起的问题,则由维护人员先收集系统日志,对问题分析,确认引起问题的根本原因,通过讨论确定初步的解决方案,并对问题进行解决,如无法解决,则备份相关数据库后重新安装云平台彻底解决。
5、网络问题引起的故障,先将问题反馈给信息中心网络维护员,协调网络管理员进行初步检查后确认问题根因,并在最短的时间内解决,在事件处理过程中,运维人员要随时和网络管理员保持沟通,将突发情况上报给信息中心。
6、资源不足问题处理,主要是通过监控排查一些僵尸资源,确保资源能得到有效的利用,针对未使用的资源进行回收再进行合理化的分配。同时在权限层面进行控制,防止用户自己无的申请资源使用。
3.6. ModelArts故障应急处置
用户在训练模型过程中,存在因硬件故障而产生的训练失败场景。针对硬件故障场景,ModelArts提供容错检查功能,帮助用户隔离故障节点,优化用户训练体验。
容错检查包括两个检查项:环境预检测与硬件周期性检查。当环境预检查或者硬件周期性检查任一检查项出现故障时,隔离故障硬件并重新下发训练作业。针对于分布式场景,容错检查会检查本次训练作业的全部计算节点。
1:环境预检测失败、硬件检测出现故障,隔离所有故障节点并重新下发训练作业。
2:环境预检测失败、硬件无故障,隔离所有故障节点并重新下发训练作业。
3:环境预检测成功并进入用户业务阶段,硬件检测出现故障并且用户业务非正常退出,隔离所有故障节点并重新下发训练作业。
4:环境预检测成功并进入用户业务阶段,硬件无故障,当用户业务异常时以失败状态结束作业。
隔离故障节点后,系统会在新的计算节点上重新创建训练作业。如果资源池规格紧张,重新下发的训练作业会以第一优先级进行排队。如果排队时间超过30分钟,训练任务会自动退出。该现象表明资源池规格任务紧张,训练作业无法正常启动。
用户可以通过checkpoin的机制实现断点训练和增量训练,使用reload ckpt恢复中断的训练,在模型训练的过程中,不断地保存训练结果(包括但不限于EPOCH、模型权重、优化器状态、调度器状态)。即便模型训练中断,也可以基于checkpoint接续训练。
当需要从训练中断的位置接续训练,只需要加载checkpoint,并用checkpoint信息初始化训练状态即可。用户需要在代码里加上reload ckpt的代码,使能读取前一次训练保存的预训练模型。
3.7. 异常断电应急处置
1、按照开机操作,启动存储设备,启动光纤交换机,确保存储指示灯正常。
2、开启服务器,逐步打开云管理平台、云平台管理侧服务组件。
3、云平台、云管理平台恢复正常后,查看集群状态,按照重要程度,逐步开启业务虚拟机,并验证虚拟机网络及系统运行状态。
4、解决开机过程中临时触发的问题。
3.8. 异常流量应急处置
1、安全管理员通过抗DDoS设备的监测告警系统,针对日常运行和访问情况进行全面的监控,同时结合工程师巡检分析,一旦发现攻击告警,安全管理员第一时间告警(自动和人工相结合方式)通知云网运营中心总经理。
2、在上报的同时,安全管理员开始封堵攻击IP,必要时向二线专家组寻求帮助。如果此时攻击告警仍未解除,且攻击流量大于阈值时,由云网运营中心总经理向电信运营商报告,寻求技术和安全帮助,通过带宽紧急扩容、控制攻击源、过滤攻击流量等措施,控制或减缓攻击危害。
3、攻击事件解决后,审计管理员应通过审计系统,审计攻击的过程、造成的损失和是否还有残余风险,提出系统整改意见。
4、各相关人员根据整改意见及时对系统进行整改。
5、安全管理员对整改问题进行复测,对攻击事件进行复盘分析,写出事件的总结报告。
3.9. 黑客攻击事件应急处置
1、当发现网络被非法入侵、网页内容被篡改,应用服务器上的数据被非法拷贝、修改、删除,或通过入侵检测系统发现有黑客正在进行攻击时,运维系统应当在第一时间通报软件平台运行状况,并报相关软件,硬件运维人员。
2、接报告后,现场人员应立即核实情况,关闭服务器或系统,运维人员将在第一时间将收到感染的服务器进行封锁或删除被攻破的登陆帐号,阻断可疑用户进入网络的通道。系统将自动切换到备用机,保证用户平台0宕机。
3、运维人员应及时清理系统,恢复数据、程序,恢复系统,待攻击被防护并找到原因,将重新启用平台主机作为现有运行平台的热备机。
4、处置结束后,现场人员应将事发经过、处置结果等在调查工作结束后一日内书面报告公司领导。
四:应急维护管理
4.1. 持续改进和演练
定期评估和改进应急预案,充分吸取以往的经验教训,及时调整和完善预案。同时进行复盘演练,检查应急流程和应急方案的有效性。
4.2. 详细记录和总结
在应急响应过程中,及时记录和总结事故的详细信息和处理过程,对应急响应的效果进行评估,不断完善和改进应急预案的规章制度。
4.3. 应急等级事件确定
在应急响应过程中,问题安全事件分级的参考要素主要包括了应用系统,数据系统可客户信息等一些重要数据。本文档将问题安全事件分为三级:一般、较大、重大
一般:实验室较小范围出现,可能造成较大损害的问题事件。
较大:实验室部分网络与信息系统、网站受到大面积的冲击,影响正常运行
重大:实验室大部分网络,信息系统,网站基本瘫痪,导致业务中断,造成信息泄密的安全问题事件,能造成严重的社会影响和较大的经济损失。
五:总结
本文档介绍了云脑平台应急预案的制定和实施,包括应急响应准备,突发事件的应急处理、应急维护管理等,通过合理的预案制定和有效的应急响应,可以最大限度的降低云脑业务中断和损失,保障云脑的稳定运营。
