
1. 硬盘故障时,通常会自动显示红色灯,表示存在问题。故障排除后,硬盘灯应自动恢复至正常状态。这一机制通常是服务器自带的。然而,实际上,即使硬盘出现故障,从外观上往往很难察觉。
2. 在运维工作中,处理故障是一项重要任务,而硬盘故障尤为常见。如果硬盘更换不当,可能导致数据丢失,造成严重后果。因此,掌握准确快速更换硬盘的方法至关重要,而给故障硬盘点灯是一个有效手段。
3. 无论是RAID卡还是HBA卡,每块硬盘都配有LED灯,用于显示磁盘的状态和行为。例如,正常状态显示绿色,故障状态显示红色,重建状态显示粉色等。通过控制这些硬盘灯的颜色变化,可以直观地定位到故障硬盘,从而减少误操作的可能性。
4. 硬盘点灯操作是在操作系统中触发的,因此比服务器物理机上识别的更准确。某些服务器制造商的硬盘ID号可能标识错误,特别是国产服务器。例如,系统显示的ID号可能是[32:1],而物理机上可能是第5号盘。
5. 本文将针对LSI的RAID卡和HBA卡讲解点灯操作。RAID卡的点灯操作可以通过以下命令实现:MegaCli PdLocate start physdrv[32:1] -a0。要查看硬盘详细信息,可以使用其他命令。
6. 安装必要的软件(如lsscsi和sg3_utils)后,可以获取硬盘灯的状态,例如使用命令:sg_ses --dev-slot-num=1 --get=ident /dev/sg12。
7. 点灯操作的例子如下:首先使用lsscsi -gt获取硬盘和enclosure信息,确定故障硬盘的sg信息。假设机器上有12块硬盘,均连接至/dev/sg12。
8. 确定故障硬盘的dev-slot-num后,可以使用sg_ses命令查找其sas-addr。例如,要给/dev/sdc点灯,需执行相应命令。
9. sg_ses命令还包含其他参数,可用于显示更多信息。以下是显示所有硬盘信息的命令,以及官方解释。
10. 通过clear、get、set参数,可以控制和查看硬盘灯的状态。具体使用方法不再解释,相信大家能够理解。
11. 硬盘点灯操作并不复杂,稍加学习即可掌握。关键在于实现自动化,减少人为干预,降低劳动力成本。例如,可以编写脚本,设置定时任务,实现自动点灯和关灯。结合监控报警和流程,进一步实现自动报修等功能。