操作手册
Ver. 1.0
目 录
规范及流程篇 3
服务器技术篇 3
一、X系列服务器简介 3
二、IBM阵列卡 4
1、分类 4
2、配置RAID(以ServeRAID 8i为例) 6
三、收集日志 9
1、DSA日志 9
2.RAID日志 12
3、BMC日志 18
四、故障排除 24
1.故障排除步骤及技巧 24
2、DASD故障 26
五、必备工具 27
规范及流程篇
服务器技术篇
一、X系列服务器简介
众所周知,IBM的服务器产品线非常丰富齐全,从入门级到大型机,一应俱全。打开IBM的官方网站,IBM给我们带来的第一印象就是——拥有如此多的专业产品可供选择。总体来看,IBM服务器家族目前共有4条产品线:基于 Intel 架构的服务器 x系列(xSeries,近日IBM已经升级推出基于AMD皓龙处理器的5款新品)、中型企业级服务器i系列(iSeries)、UNIX 服务器p系列 (pSeries)和大型主机z系列(zSeries)。这四大系列基本都包括了从入门级到企业级的各种档次的服务器产品,在结构上也全面包括了塔式、机架式、刀片和机柜式。
IBM eServer xSeries系列服务器是IBM服务器品牌之一。eServer xSeries服务器得名于IBM工业标准服务器经典的“X-架构”,是eServer家族中支持开放工业标准的代表,它是由原来的Netfinity系列发展而来的。下面我们将用一组数据为标题,来简要描述IBM x系列的发展历程:
1)9年历史
IBM在1998年提出X系列服务器设想,到现在已经有9年历史。而使x系列真正意义上进入到应用领域,还是到了2001年之后。相比较IBM大型机的诞生时间,x系列所关注的目标是面向中小企业,因此要比面向金融行业的大型机稍晚一些。
2)2亿美元
从x1 系列到x3共经历了5载历程,耗资近2亿美元。正是IBM看到中小企业蕴含着无限商机,因此不惜重金打造x系列。
3)3代架构
IBM x系列共经历了3次架构变革。早在2001年,IBM大型机事业部就历时三年、耗资2000多万美元开发出“SUMMIT”芯片组。第一代X-架构的诞生,使得IBM芯片组为INTEL处理器赋予更强能力,工业标准服务器开始进入企业关键应用领域;以HURRICANE芯片组为核心的X3架构同样历时三年,耗资高达1亿美元。据分析数据显示,X3架构相比X2,其系统性能约有38%的提升。
4)4地研发
IBM在全球斥资成立4座xSeries研发中心。最近的一次是在2004年7月,IBM成立了“xSeries研发中心” ,研发中心初期人员达到80人,该中心定位为Mission Lab,赋予其“end-to-end开发”使命,亦即从市场需求汇集、规格订定、乃至于产品的最终出货等所有流程。目前已经研发出包括x206、x306及x226等3款服务器,相关投资金额业已累积达数千万美元。另外3座研发中心位于美国的Raleigh、Austin与 Kirkland。
5)数年发布
梳理IBM历年的新品发布轨迹,我们发现IBM对于1、2路服务器新品推出的力度在逐年加大,无论从推出频率还是新品数量来看,都使IBM x系列产品线日趋成熟,造就了今日非比寻常的产品线。
2002年,IBM 公司推出x232 系列服务器的升级产品——x235,针对用户不断增长的商业需要而设计;同年8月,IBM推出x 200的升级产品——面向小型企业的Pentium 4 单路服务器x205,具有热插拔硬盘功能,更加易于使用及安装。
2003年2月,IBM宣布推出当时全球最快的4路机架优化式服务器x365和最薄的4路刀片服务器BladeCenter HS40;同年8月率先推出了基于AMD处理器的面向高性能运算的系统。
2004年,IBM再次推出x205换代产品——x206塔式服务器和新一代机架优化式服务器x306;同年9月,IBM在中国市场推出了8款基于英特尔新至强(Nocona) 位扩展技术处理器的服务器新产品。这是IBM eServer x系列品牌诞生以来规模最大的一次产品线更新,此次发布的新产品包括x206、x226、x236、x306、x336、x346以及IBM eServer BladeCenter刀片服务器。
2005年,IBM x 系列服务器在技术上不断创新,推出了X3 架构系列产品,为基于下一代 位 Intel 至强处理器 7000 序列的 x 系列服务器,即入门级服务器x100 、x206m 、 x306m 产品系列。
2006年5月,IBM正式发布了4款基于Intel全新Dempsey芯片的双核服务器。8月份,IBM宣布扩展其基于AMD Opteron处理器的服务器产品线,推出5款新品——BladeCenter LS41、BladeCenter LS21、System x3755、System x3655和System x3455。
6)一朝更名
2006年5月, IBM宣布IBM eServer xSeries改名为IBM System x,后面的型号也全面更新,如原来的高性能服务器x260更名为x3800、x366更名为x3850、x460更名为x3950,其中x3代表这些系统是基于X3架构,倒数第三个数字代表功能,数字越大功能越强;倒数第二个数字代表塔式(0)还是机架式(5);最后一个数字代表采用Intel(0)或AMD(5)的处理器。
综观IBM eServer的Z、I、P与X这4个系列服务器产品线,x系列相对起步较晚,但xSeries 成长率最近几年尤为显著。
二、IBM阵列卡
1、分类
目前IBM的阵列卡从控制的硬盘来说可以分成三大类:
1.控制SCSI硬盘的SCSI RAID控制器:
ServeRaid 、ServeRaid II、ServeRaid 3L、ServeRaid 3H、ServeRaid 4L、ServeRaid 4Lx、ServeRaid 4M、ServeRaid 4Mx、ServeRaid 4H、ServeRaid 5i、ServeRaid 6M、ServeRaid 6i/6i+、ServeRaid 7e、ServeRaid 7k ;
2.控制SATA硬盘的SATA RAID控制器:
ServeRaid 7e 、ServeRaid 7t;
3.控制SAS硬盘以及热插拔SATA硬盘的SAS RAID控制器:
ServeRaid 8e、ServeRaid 8i、ServeRaid 8k、ServeRaid 8k-l;
按照是集成的阵列卡或者是选件来分:
1.主板集成阵列卡:ServerRaid 7e,ServerRaid 8e
2.选件阵列卡:ServerRaid 7k、ServerRaid 7t、ServerRaid 8i、ServerRaid 8k,ServerRaid 8k-l
下面会详细介绍几款新的Raid卡:
ServeRaid 7e:
集成的SCSI RAID控制器,可以支持Raid 1、0 和Raid 10
支持的机型有:xSeries 206、226、236、306、346
ServeRaid 7t(part 71P88):
选件的SATA Raid卡,支持SATA硬盘,可以最多连接4块SATA硬盘作阵列;
Cache : 128MB
支持阵列级别:Raid 0、1、5、10;
支持机型:xSeries 206、206m、226、306、306m、336、326、326m
ServeRaid 7k(part 71P82):
选件SCSI Raid卡,支持SCSI硬盘;
Cache :128MB
支持的阵列级别:Raid 0、1、5、1E、5EE、00、10、1E0、50;
支持的机型:xSeries 236、346
ServeRaid 8e:
集成的SAS RAID控制器,支持SAS/SATA Hot-Swap的硬盘,可以支持Raid 0 和1;
支持的机型:xSeries 206m、306m
ServerRaid 8i(part 13N2227 和part 39R8729):
选件SAS RAID控制器,支持SAS/SATA硬盘;
Cache : 256MB
支持阵列级别:Raid 0、1、5、5EE、6、00、10、1E0、50、60
支持的机型:xSeries 206m、306m、260、366、460
System x3800、3850、3950/3950E
ServeRaid 8k-l(part 25r8025):
选件SAS RAID 控制器,支持SAS/SATA硬盘;
Cache :32MB
支持阵列级别:Raid 0、1、10
支持机型:System x3400、3550、3650
ServeRaid 8k(part 25r80):
选件SAS RAID控制器,支持SAS/SATA硬盘;
Cache:256MB
支持阵列级别:Raid 0、1、1E、10、5、6
支持机型:System x3400、3500、3550、3650
2、配置RAID(以ServeRAID 8i为例)
1、使用ServeRaid Manager配置
启动服务器,插入IBM ServeRAID Support CD (或者包括ServeRAID Manager 程序的CD)到光驱中,如果ServeRAID Manager 程序发现未配置的控制器和ready的硬盘,程序会自动启动配置向导如下图:
配置向导提供了两个配置选项:定制(Custom)和快速(Express)。快速配置会自动配置阵列卡,也可以通过Express手动配置。如果要使用RAID 1E,RAID 5EE,RAID 6,或RAID x0,必需使用定制配置。
使用定制配置(Custom configuration):
1)在ServeRAID Manager树,点击要设置的ServeRAID控制器(controller)
2)在工具栏,点击Create
3)点击Custom configuration.
4)点击Next 打开创建逻辑驱动器窗口。
5)选择一个阵列级别,可以从上面的列表中选择或者通过展开高级设置菜单,从中选择。
注意:如果要创建RAID卷,必须先创建的驱动器,然后再运行配置向导创建RAID卷。冗余的逻辑驱动器同步必须完成。在同步前,可以被创建RAID卷。
6)点击下一步打开配置逻辑驱动器窗口。
7) 选择逻辑驱动器中需要加入的物理驱动器,并且修改高级属性。
注意:
A.一些操作系统有逻辑驱动器大小的。保存配置前,核实逻辑驱动器容量适合要安装的操作系统。
B.一个逻辑驱动器不能超过2048 GB;最大容量是nMB, 这里n 是逻辑驱动器中的物理驱动器个数。
C.典型的,启动时系统BIOS第一个检测到的阵列卡上面定义的第一个逻辑驱动器是启动驱动器。
8) 点击Next。配置摘要窗口打开:
9) 浏览配置摘要窗口显示的信息。要改变配置,点击Back
10) 点击Apply;然后,当提问是否应用新的配置时,点击Yes 。配置信息则保存到阵列卡和物理硬盘。
11) 如果不要改变设置,从ServeRAID Manager 程序退出,从光驱中移除CD。
12) 重启服务器。
2、使用ARC配置
ARC是内嵌的BIOS的程序,您可以通过它配置ServeRAID-8k-l/8k/8i SAS 控制器.其包括:
Array Configuration Utility (ACU) - 创建,配置,管理逻辑驱动器.也可以对驱动器进行初始化及重新扫描.
Serial Select - 改变设备及控制器的设置
Disk Utilities–格式化或校验媒体设备
开机自检过程中有Ctrl+A提示:
按下组合键Ctrl+A进入配置程序。
三、收集日志
在服务器维修中,CAG会要求收集各方面的日志来判断机器故障,需要收集的日志一般有DSA、RAID、BMC
1、DSA日志
(1)概述
“IBM 动态系统分析”(IBM Dynamic System Analysis)收集并分析系统信息,从而为诊断系统问题提供辅助。
DSA 收集以下方面的系统信息:
· 系统配置
· 已安装的应用程序和最新的修订包
· 设备驱动程序和系统服务
· 网络接口和设置
· 性能数据和有关正在运行的进程的详细信息
· 包括 PCI 信息在内的硬件清单
· 重要的产品数据和固件信息
· SCSI 设备检测数据
· ServeRAID 配置
· 应用程序、系统、安全性、ServeRAID 以及服务处理器系统事件日志
此外,DSA 会创建一份合并的日志,使用户能从系统的不同日志来源中确定问题的前因后果。DSA 也会将系统上的设备驱动程序和固件与 UpdateXpress CD 上的版本进行比较,以生成一份差异汇总报告。
版本介绍:DSA有三个版本,一个版本是Windows Portable Edition(可移植版), 一个版本是Windows Installable Edition(安装版),第三个版是Bootable(启动版)
“DSA 可移植版”在受支持的系统上通过命令提示符运行,无需修改任何系统文件或系统设置。它在目标系统的临时空间中运行,并会在执行完成后删除所有的临时文件。可移植版的设计和打包方式决定了它只需临时使用系统资源,就能够在对资源使用敏感的客户环境中收集系统信息。
“DSA 可安装版”会在系统上永久安装 DSA。这个版本使用与“可移植版”相似的命令提示符界面。利用“DSA 可安装版”,您还可以使用 UpdateXpress 比较分析功能。
“DSA 启动版”当机器无系统时,可以用该启动版启动来收集DSA信息。
优点:
· 使数据收集自动化并对基本数据进行组织和分析有助于减少问题确定时间,从而减少了宕机时间
· 使数据收集以及向 IBM Service 提供系统信息的过程自动化
· 根据 UpdateXpress 输入提供集成的分析,以便能快速识别低版本的固件和驱动程序
(2)使用方法
目前DSA Windows最新的版本为v2.10版,下载地址:
Portable Edition:
http://www-304.ibm.com/systems/support/supportsite.wss/docdisplay?lndocid=MIGR-5075327&brandind=5000008
Installable Edition:
http://www-304.ibm.com/systems/support/supportsite.wss/docdisplay?lndocid=MIGR-5075325&brandind=5000008
Bootable Edition(最新v2.02版):
http://www-304.ibm.com/systems/support/supportsite.wss/docdisplay?lndocid=MIGR-5071800&brandind=5000008
A、Portable Edition
直接在windows系统下运行ibm_utl_dsa_211p_windows_i386.exe
默认保存在C:\\IBM_Support\机器型号_20080325-140608下,运行index.html即可看到DSA的内容。
B、Installable Edition
运行程序,它会自动安装到系统中,在开始菜单中运行das即可
C、Bootable Edition
在以上地址下载iso镜像文件,刻成光盘后启动机器,启动后包含如下提示:
view - View DSA results.
copy - Copy DSA results to removable media.
ftp - FTP DSA results to testcase.boulder.ibm.com.
exit - Quit program.
help - Display this help message.
Command detail:
o view - Displays the collected data on the local console in a text
viewer. Note: To exit viewer, type :x then press enter.
o copy - This command presents the available removable media
devices, eg. USB Key, for storing the DSA collected data.
o ftp - Transfers the collected compressed XML data file to IBM
Service.
o exit - Exits the DSA Bootable Edition menu, ejects the Bootable
Edition media, and reboots the machine.
执行view可以查看机器DSA信息,执行copy,同时在机器上插入一个usb存储设备,即可将DSA保存下来。
2.RAID日志
RAID日志主要通过ServeRAID Manager来收集
ServeRAID Manager可以通过ServeRAID Support CD启动机器来运行,也可以通过ServeRAID Application CD安装到Windows系统中来运行。
进入ServeRAID Manager
在左边的localhost(local system)处点击右键,选择save printable configuration(保存raid配置信息),默认保存文件名为raidcfg.log。对于Xserise机型,配有软驱,此文件就默认存入A盘(所以要准备好软盘或者双启动U盘);对于System X机器,标配无软驱,所以插入任何usb存储设备都可将此文件保存。
如选择save support archive,保存是raid运行日志,如果有任何errors,都可以通过此文件判断出。
该文件会自动保存为一个zip文件,打开该zip文件后,其中有个controller log.txt文件
对于7系列以前的卡(包括7系列),controller log.txt文件如下:
说明: 上表反应了SCSI总线上每个SCSI设备的运行异常情况统计:
Parity: 该项对应的是数据在SCSI总线传输时奇偶校验错误数,如果计数大于10则反应了SCSI线缆的错误;
Soft: 该项对应的是数据在读写过程中的软错误, 如果计数大于10则反应了盘体本身的错误;如果计数小于10,可以认为是在受的干扰或电流冲击下的个别现象,可以忽略不计;
Hard: 该项对应的是数据在读写过程中的硬错误, 如果计数大于10则反应了阵列卡本身的错误;
PFA: 该项对应的是预失效分析的报错, 如果是YES则需要更换相对应的硬盘;
MISC: 该项对应的是其他方面的报错, 如果计数大于10则反应了阵列卡的Device Driver或Firwmare/BIOS等方面造成的错误,需要相应的软件升级;
如果为8系列的卡,此文件内容如下:
Parity errors:反映了SCSI线缆的错误;
Link errors:反映了硬盘背板错误;
HW errors:反映了阵列卡错误;
Medium errors:反映了硬盘自身的故障;
校验磁盘
此外,有些硬盘故障为,所以需要通过校验硬盘来检测出问题,此时找到该磁盘,点右键,选择Identify physical drive
系统会自动校验该磁盘,硬盘绿灯会闪烁,直到校验完毕后才会熄灭。当硬盘有故障时,此硬盘会亮黄灯,并出现感叹号,右键选择“Properties”,在status页面的PFA error状态为YES,表示硬盘自身有故障,需要更换硬盘。
3、BMC日志
BMC(Baseboard management controller)保存了系统板及附属设备的运行状况,通过该日志可以查看到部件运行状况。
A、更新 BMC firmware
更新到最新的BMC firmware可以避免出现问题。
注意:更新BMC的firmware不会改变user设置。
步骤如下:1、
从http://www-304.ibm.com/systems/support/supportsite.wss/docdisplay?lndocid=MIGR-4JTS2T&brandind=5000008,对应机型下载最新的firmware。
2. BMC firmware更新多是启动软盘的形式,(一个EXE文件),也可以是一个ISO image,可刻成CD。
3. 插入更新盘,启动服务器。
4. BMC firmware更新自动执行。
5. 更新BMC firmware后,可以用更新盘来配置BMC。
6. 配置BMC后,取走更新盘,重启服务器。
B、配置BMC
方法一: 用 BMC_CFG 配置 BMC (部分服务器由于BMC软盘里没有BMC_CFG文件,所以用lancfg)
1 用firmware更新盘中的bmc_cfg.exe配置工具。
Bmc_cfg主要是一个排错工具,也可以用来查看和修改BMC配置。存在于更新盘中,不能作为的工具使用
可配置如下设置,以实现BMC的通信:
IP Address,Subnet mask,Default gateway,Alert notification和alert destination settings。
建议ip:10.1.1.97 Subnet mask:255.0.0.0
建议更改默认的user ID和password(账号USERID 密码PASSWORD)。
要运行bmc_cfg:
1. 如果刚更新完BMC的firmware,退出更新工具,回到DOS提示符。如果没有,则用更新盘启动服务器,当问是否更新时,选No。
2. 在DOS提示符,运行bmc_cfg。如下图
开始可以用lancfg(LAN Configuration)工具来配置BMC。一旦设置好网络后,就可以用IBM Director来配置user ID,password,和alert-forwarding特性。
方法二: 用 lancfg 配置 BMC
可以用lancfg工具,来做所有的配置。此工具在用于升级BMC firmware的软盘或者CD中。
注意:
只能从升级BMC firmware的软盘或者CD中运行lancfg.exe,不要在Windows的DOS窗口中运行。
1. 在BMC firmware升级成功后,显示一个提示符,运行lancfg。
2. 按F10和方向键,选择窗口顶部的菜单。
3. 选择LanCfg,则屏幕显示如下图2-2
4. 按Tab编辑,并选OK。
– Host IP address
– Subnet mask
– Router IP address
建议ip:10.1.1.97 Subnet mask:255.0.0.0
建议更改默认的user ID和password(账号USERID 密码PASSWORD)。
注意: Host MAC Address不能更改。
方法三: 在 BIOS 中配置 BMC
BIOS中可以配置如下设置:
IP address,Subnet mask,Default gateway。
如果想修改默认的user ID和password,则要用bmc_cfg或者IBM Director。
按如下步骤用Bios配置BMC:
1. 服务器启动时按F1,进入Configuration and Setup utility。
2. 选Advanced Setup。
3. 选Baseboard Management Controller (BMC) Settings,如下图
4. 选BMC Network Configuration,如下图。
5. 输入IP address,subnet mask,和gateway addresses,再选Save Network Settings in BMC。
建议ip:10.1.1.97 Subnet mask:255.0.0.0
建议更改默认的user ID和password(账号USERID 密码PASSWORD)。
注:一些故障机器可能已无法开机,同时也从未配置过BMC ip,此时可以使用169.254.0.2,255.255.0.0连接。
C、收集BMC日志
方法一:用SmBridge收取
用反线将笔记本与服务器上BMC控制口(第一个网口,只要服务器有交流输入不必开机)连接
SmBridge (1.0.3.8)Download site:
http://www-304.ibm.com/systems/support/supportsite.wss/docdisplay?lndocid=MIGR-636&brandind=5000008
在命令行界面下,进入SmBridge软件安装后所在的目录,执行
smbridge -ip 10.1.1.97 -u USERID -p PASSW0RD sel get >bmclog.txt
方法二:用SvcCon收取
Svccon download site
http://www-1.ibm.com/support/docview.wss?uid=psg1MIGR-63877
-用反线将笔记本与服务器上BMC控制口(第一个网口,只要服务器有交流输入不必开机)连接
-在笔记本上运行SvcCon
点logon登陆后,点Dump SEL抓日志,或者点Clear SEL清日志
方法三: F2收取
启动Server F2里可以用软盘收取BMC日志,Hardware Info -> BMC Log
将导出的bmc log按要求发给CAG。
注意,并不是所有X系列服务器都有BMC功能,具体请查阅Serve HMM。
另外,X3650T机型,收取BMC不能使用上述方法,此机器需要按以下方法收集BMC。X3650T抓取SEL log指导
首先找出随机附带的Documentation and Resource CD(必须而可以找客户索取)放入机器的光驱内,启动机器,确认机器的第一启动是光驱。
开机后机器自动引导光盘进入下面界面,点击continue
选择Run SEL Viewer Utility,然后点击continue。
点击File在子菜单中选择Save Aside
在弹出的窗口中输入要保存的文件名。然后按TAB键将光标切换到A盘,按回车保存(在机器没有接任何外置USB设备时A盘默认为62M闪存盘)。
正在保存日志。大约5秒后弹出的窗口自动关闭,保存日志完成。
清除SEL Log ,点击选项卡中的SEL,在弹出的子菜单中选中Clear SEL。
在弹出的确认窗口中选中OK。
日志清理完毕,退出重启机器.
四、故障排除
1.故障排除步骤及技巧
1.1 准确描述问题
•信息获得
–途径:使用者、代理商、了解情况的人、……
–目的:获得第一手资料
•有效沟通方式
–有效倾听
•做记录,不要打岔等
–有效发问, Questioning is a key skill
•思路清晰,针对不同类型用户问不同类型问题
–可以通过规范表格,收集有效信息
•故障情况
–客户通过什么信息认为有问题
–从正常状况到故障状况,做了什么操作,软件和硬件的变化
–有没有规律(了解什么时间发生,发生什么问题, 发生后做过什么操作)
•分析信息
•有效组织信息
•确定问题
•给客户描述问题
–目的:确认双方对问题理解的准确性、一致性
1.2 收集信息
•故障设备信息
–了解产品类别
–POST beep code,POST error code
–Check Point显示代码
–故障状态下屏幕信息
–LPD,及系统其它部件故障灯状态
–收集各种可获得的日志
–软件和硬件的信息(DSA)
1.3 分析问题
•分析问题过程中,确定问题是否属于支持范围之内
•明确我们能做到什么,做不到的可以给用户什么建议
•如果不属于服务范围,要恰到好处”Say No”
•具体分析问题
•确认服务器的用电环境(输入电压200V-240V,零点电压0-3.3V)
•确认硬件配置合法性
•确认NOS兼容性
•分析日志
•维修记录
•查阅Retain和GCG Tips DB,是否属于已知问题
•硬件维护手册是否有相关帮助信息
•PMR是否已经有相关问题的报告
•查阅第三方Knowledge Base,是否属于已知问题
1.4 现场操作步骤
•步骤
–收集当前故障状态下日志,如果有报错信息一定记录下来(无论是拷屏还是手工记录),留下第一手资料,而且希望在现场告诉用户,让用户将来也做到这点,帮我们收集第一手资料。
–询问故障发生前后所做过的操作。
–如果需要,先检查硬件连接,重新装配连接,确认故障有什么变化。
–升级所有微码、驱动(请一定阅读微码或者驱动说明文件中重要章节,确认用正确步骤升级有关微码和驱动),观察故障变化情况。如问题解决,再次收集信息。
–最小化配置(参阅HMM有关最小化配置章节)。
•如果最小化配置情况下系统正常,遵循每次添加一个部件,启动系统确认正常再添加一个备件的原则。
•如果最小化配置情况下,依旧故障,记录故障情况,尽量按照一次更换一个备件的原则定位故障部件。
–如果问题解决,再次收集信息。
–如果问题没有解决,一定要在离开现场之前收集完整的日志信息及时将情况反馈给CAG。
–收集信息后,清空日志。
–将一些信息收集工具留给客户,告诉用户怎么使用,从单个Case来说,工程师多付出一点,但是从大局来看,将来我们可以直接从用户手里获得有关日志,加快工程是修复故障机的速度。
•升级所有微码、驱动
http://www-304.ibm.com/systems/support/supportsite.wss/docdisplay?lndocid=MIGR-4JTS2T&brandind=5000008
•最小化配置(电源,系统启动) 测试
–保留1个cpu,最小启动内存(有些机器用1根内存,有些机型必须2根成对使用),阵列卡,必须拔掉外围所有部件(包括鼠标、键盘、显示器,特别是一些非IBM部件),必要是不安装开关,使用主板强制开关跳线开机。
•注意事项:
–升级微码过程中不要断电,重新启动操作。
–作系统硬件操作的时候一定要拔掉电源线等连接线,防静电等等。
–操作有可能导致数据丢失,提醒备份数据。
1.5 确认后关闭
•确认操作的有效性
–问题是否解决?是否需要观察?
–如果问题没有解决,一定要在离开现场之前收集完整的日志信息,及时将情况反馈给CAG。
2、DASD故障
服务器维修过程中DASD (Direct Access Storage Device硬盘子系统,其包括:硬盘,硬盘背板,SCSI线,Raid卡,主板) 故障居多,当DASD出现故障时,客户总有许多问题会要求提供Root Cause。
2.1 DASD的故障原因
DASD出现问题时,客户总是希望知道故障原因,建议从以下几点给予客户解释
•1)环境问题(电流的冲击,温度过高,灰尘静电堆积状况)
•2)微码和版本问题(Raid卡、硬盘等的微码,Raid卡的驱动)
注:Raid卡的微码和Raid卡的驱动需要在同一Level
•3)硬件问题
现场工程师是没有权利定性此故障原因为硬件问题的,只有对备件送去ITPC做FA测试后,才能确定备件是否存在硬件问题。如果碰到数据丢失的情况,请谨慎地回答客户的提问,一定要让CAG帮助分析和确认故障的Root Cause。
2.2硬盘的状态
–硬盘正常状态:
绿灯闪烁,琥珀灯不亮
–硬盘异常状态:
硬盘掉线-琥珀灯长亮
硬盘Hung-琥珀灯长亮
–硬盘Rebuild状态:
绿灯近似长亮的闪烁,琥珀灯有规律的闪烁
–硬盘两个指示灯都不亮(硬盘为Hotspare或Ready状态)
2.3 更换硬盘
–更换单块掉线硬盘
操作流程:
1.建议客户异地备份数据
2.备份阵列信息(客户同意重启服务器)
3.抓取Raid日志并分析(是否有坏条带,是否有PFA等)
4.更换掉线的硬盘
5.确认硬盘Rebuild成功
–更换多块掉线硬盘
操作流程:
1.建议客户异地备份数据(若客户的阵列已掉线并数据无法被访问,建议客户找数据恢复公司。除非客户承诺IBM对其数据免责,否则不予操作。)
2.备份阵列信息
Ipssend backup 1 a (1代表Raid Controller 1,a代表备份的阵列文件名)
3.抓取Raid日志并分析(是否有坏条带,是否有PFA等)
4.按照Raid日志所描述的硬盘掉线的逆顺序强行online(即最后一块掉线的硬盘第一个被强行online)。不要去Rebuild最先掉线的那块硬盘,将其移除。
5.确认是否能够进入操作系统,如果可以进系统的话,一定让客户备份数据。
6.更换最先掉线的那块硬盘
7.确认硬盘Rebuild成功
五、必备工具
工具类
1笔记本
2正反网线各一根
3一字螺丝刀,十字螺丝刀,T10内孔6角螺丝刀,平口尖嘴钳
4静电手套,万用表
5双启动U盘
笔记本资源
必须要有的程序
1 smbridge(抓取BMC日志)
2 svccon(抓取BMC日志)
3 winimg(解压缩.img镜像)
4 DSA
微码和文档
1 X服务器和system服务器、Intellistation、Blade Center、FastT/DS300&400、Tape Library的HMM/PDSG/User Guide
2 X服务器和system服务器、Intellistation、Blade Center、FastT/DS300&400、Tape Library的微码和驱动程序(建议保留前一版微码版本)
3 Broadcom网卡微码和驱动
4 OS相关补丁
CD类
1 ServeRAID Application CD v9.00 (support ServeRAID-8i、ServeRAID-8k and ServeRAID-8k-l SAS controllers)
2 ServeRAID Support CD v9.00 (support ServeRAID-8k and ServeRAID-8k-l SAS controllers)
3 UpdateXpress v4.06a
4 IBM ServeRAID Support CD v7.12
5 IBM ServeRAID Support CD v6.11
6 IBM WinPE类似深山红叶的启动光盘
7 ServeGuide