
针对基础支柱产业,生产系统的高度实时性是产生维保的主要动因,针对财政银行等综合决策系统,数据高可用性是产生维保的主要动因。据统计,2012年国内有10万个各级机构和150万家企业,目前许多客户已经历了买设备、上应用发展到今天保运行阶段。IBM在服务器市场占有率高达79%,针对IBM小型机的维保,市场最成熟,技术积累最丰富。
维保主要分为两部分:日常维护、故障修复
日常维护部分:虽然小型机在运行态很少改动配置,但经常监控运行状态却是至关重要的,通过规律的监控,通过与业务联系,一方面可以预测小型机负载压力,把握运行规律,另一方面可以预测故障的发生点而及时修复,将故障终止,消灭在萌芽状态,使得业务连续和高可用。专业的巡检可以判断系统运行的瓶颈,从而为可能增长的业务量及时提供硬件升级方案,来避免瓶颈的出现。
日常维护主要方式是巡检,分周巡检、月度巡检以及季度巡检。月度巡检以月为时间单位进行例行巡检,对小型机运行状态以及故障监测,使用一般指标,巡检比较及时;周巡检以周为时间单位,频次高,对小型机状态监测度最高,动态把握最明确,缺点是对人力资源耗费比较大;季度巡检为深度巡检,系统整体信息比较准确,但是频率低对系统实时状态把握度较差,加之月度巡检在没季度的最后一次巡检都是深度巡检,月度巡检就弥补了季度巡检的实时性缺陷。
IBM小型机故障:任何小型机都有一定的故障率,即使是IBM、HP所发布的零宕机产品也不能保证百分之百无故障。随着使用时间的增加,机房环境,电子元器件老化等原因,导致故障,尤其意外断电对电子元器件的冲击更大。
按故障性质分,可分为隐性故障和显性故障,隐性故障可能有未检测到的故障点,或者因为电子元器件使用寿命的增长突然崩溃而导致的故障。隐性故障最典型的是关机后导致不能重启进入系统,应对方法是定期巡检,排查隐性故障,易损部件制定科学的周期进行更换操作等。显性故障指系统识别出,并在FCU工作台显示出的故障情况,亦都是隐性故障发生跳变或产生结构性故障后系统给出的提示,此时需尽快根据故障代码对系统进行修复。
按故障层次分,可分为环境故障、硬件故障、操作系统故障、数据库故障、应用故障、网络故障等。
环境故障指因外部环境变化导致的系统停机,一般指不可抗力,比如地震、火山、海啸等。另外意外断电、火灾、机房空调故障导致散热失效、老鼠咬断电线导致短路等。对环境故障的处理以防范为主。在每次维保合同签订之后第一次巡检,金支点都会针对机房环境做一个详细的体检。
硬件故障指小型机、存储硬件因器质性损坏、老化引起的功能缺失、宕机等故障。也是小型机维保过程中频次最高发的故障之一。针对硬件故障有一整套方案应对,比如备件、备机两个系统,确保一旦发现硬件故障能及时更换备件,故障严重时备机替换支撑应用。
操作系统故障:因操作系统配置,系统升级、固件版本升级等引发的系统故障。
数据库故障:因数据库配置欠缺优化、数据库并发数据量大等造成应用数据读取、查询、写入等故障。
应用故障:因应用程序bug,设计缺陷等造成的应用不能正常访问、数据丢失等故障。
网络故障:因网络设备宕机、损坏等造成的数据库、应用不能正常访问或数据丢失的故障。
IBM小型机故障解决流程:
首先根据以下这些方面来考虑故障定位:
˃I弄清楚系统发生了什么问题
˃I系统现在能做什么不能做什么
˃I故障什么时候发生的
˃I有没有做平时不同的操作
˃I故障有没有规律定时还是不定时发生的频率有多高
˃I是一台机器出现故障还是多台机器故障故障现象是否相同
˃I最近有没有做改动如安装了新的硬件软件改变了系统的一些设置
故障信息的收集
收集故障信息对于判断诊断故障原因修复系统非常重要,以下列出几种常见故障查询方法
˃I系统故障记录(errorlog),用于巡检时的故障检测,或者发生故障后能进入系统状态时的故障检测,因为errdemon进程在系统启动时自动运行,记录包括硬件软件及其他操作信息故障记录,文件为/var/adm/ras/errlog 可备份下来或拷贝到别的机器上分析;errpt 也可列出简短出错信息(普通用户权限也可使用)使用方法如下:
#errpt -d H 列出所有硬件出错信息
#errpt -d S 列出所有软件出错信息
#errpt -aj ERROR_ID 列出详细出错信息
#errpt -aj 0502f666 <--- ERROR_ID用大小写均可
˃I控制面板上的LED 上有8位代码,通常系统故障灯会同时亮起某些机型还会同时显示故障设备位置代码,小型机I/O柜上的显示面板上的Checkpoints信息Error Code可通过查看系统服务手册、系统诊断手册来定位系统故障,控制面板代码在开机就会显示,不能进入系统时常以此方法进行故障定位
˃I SMS (System Management Service) 故障记录
当主控台出现键盘图标后(LED 显示E1F1时)按1键,选择"Utilities"-"Error Log", 抄下8位故障代码
在SMS 中还可以更改系统启动顺序表,有镜像备份的可以直接通过修改启动顺序先进入到镜像系统盘恢复应用运行,再处理有故障的系统盘。
˃I 运行故障诊断程序(Diagnostic) 对系统硬件进行检查和诊断
当发现有硬件故障时应立即使用diag
#diag > 选高级诊断Advance Diagnostic)> 选问题诊断Problem Determination) 或 选系统检查System Verification)
(选PD 会对系统错误记录进行分析)
diag运行后会给出SRN 代码故障设备名称及百分比地址代码等
故障解决办法个例
˃I 系统不能启动
系统启动阶段示意图
系统停在Stage1,可能为电源系统板CPU内存等硬件故障,记录故障代码通知维保工程师;系统停在Stage2可能是启动顺序表(bootlist)损坏或I/O子系统故障,可尝试进入SMS菜单检查启动顺序表并修改,若在选择bootlist时没有硬盘设备可选,或显示的硬盘信息不正确则可能是硬盘故障若根本没有SCSI设备可选,则链路有问题;系统停在Stage3可能是硬盘数据损坏系统设置文件出错或I/O子系统故障。
˃I 系统停在551555或557
发生在系统启动的第三阶段(Stage3)可能是
文件系统损坏
文件系统日志(jfslog)损坏
˃I rootvg中有坏硬盘
用系统光盘或系统备份带启动(必须与硬盘中的操作系统版本一致)
启动后选择选项3
"StartMaintenanceModeforSystemRecovery"
>"AccessaRootVolumeGroup"
>"Accessthisvolumegroupandstartashell
beforemountingthefilesystems"
格式化文件系统日志(jfslog)
#/usr/sbin/logform/dev/hd8
检查修复文件系统
#fsck -y/dev/hd1/home文件系统
#fsck -y/dev/hd2/usr文件系统
#fsck -y/dev/hd3/tmp文件系统
#fsck -y/dev/hd4/文件系统
#fsck -y/dev/hd9var/var文件系统
用exit命令退出文件系统会自动mount起来
重建bootimage
#lslv –m hd5找出bootimage所在的硬盘如hdisk0
#bosboot –ad /dev/hdisk0
#bootlist –m normal/dev/hdisk0重建启动顺序表
重启动系统
#shutdown -Fr
如上述步骤不奏效
用系统备份带恢复系统
如备份带不能恢复用诊断光盘DiagnosticCDROM检查是否坏硬盘
˃I CDE图形界面挂死
CDE运行时不要更改网络参数如主机名和IP地址,更改网卡设置请先退出CDE图形环境选择命令行方式登录在字符界面下更改,如CDE已经挂死操作步骤如下:
远程telnet登录;
找出所有dt有关的进程用kill命令杀掉;
#ps -ef|grepdt
#killPID
检查当前主机名;
#hostname
tscf50
查看主机名是否对应有效的IP地址;
#netstat -i|greptscf50
tr0*1500918540tscf5050604902824700
更改主机名或IP地址使主机名与当前有效的IP地址存在对应关系;
#smittytcpip
重新启动CDE界面;
#/etc/rcdt
˃I 系统dump
发生在系统崩溃时AIX会做dump(系统内存的快照),一般dump是由于软件出错引起(888-102-207除外)机器通常可以重启,重启时可能提示用户插入磁带拷贝dump文件,不要选择退出这样会丢失重要的故障信息。
此时机器会显示闪动的888102xxx0cx代码
0c9系统dump进行中0c9状态可能会维持超过2分钟
不要关电和按reset,等待dump做完;
0c0dump成功完成这时可以断电重起;
0c2手动启动dump功能;
0c4dump设备空间不足只有部分信息保存下来;
0c5不明原因导致dump失败;
˃I 7133-D40SSA磁盘柜的故障定位
当SSA磁盘柜出现故障时在磁盘柜前面板的液晶显示屏上会显示相应的SRNs,同时黄色的显示灯会闪动在AIX的errorlog中也会有记载错误信息如DISK_ERR1DISK_ERR4SSA_ARRAY_ERROR等请在出现问题后记录下代码并致电维保方
软件故障定位方法
软件故障情况错综复杂下面列举几个常见案例的故障处理方法
˃I 文件系统空间不够,文件系统满可导致系统不能正常工作,尤其是AIX的基本文件系统,如/(根文件系统)满则会导致用户不能登录用df_k查看:
查看有没有“满”的文件系统特别是//var/tmp不要超过90%,除/usr文件系统其他文件系统都不应太满一般不超过80%
处理方法1 删除垃圾文件
#du -sk*|sort -rn|head
查找出当前目录下占空间最大的子目录,逐层往下直到找出占空间最大的文件,要区分哪些目录是文件系统的mountpoint哪些是文件系统的子目录删除文件,释放空间有时删除文件后空间并不马上释放,这是由于你删除的文件正被某个程序打开,只有当这个程序停止后空间才释放,有时甚至需要重起系统
处理方法2 增加文件系统大小
#smitty chjfs
文件系统可以在任何时候加大前提是卷组(VG)中有剩余空间
˃I 检查文件系统的完整性
#umount filesystem_name
#fsck –y filesystem_name
注意文件系统必须先umount再做检查和修复否则可导致未知的后果
˃I 查看卷组信息(lsvg-lvg_name)
查看有没有"stale"状态的逻辑卷,若有用syncvg命令修复"stale"逻辑卷
˃I 检查内存交换区(pagingspace)使用率(lsps -s),看使用率是否超过70%,若有则用chps_sXpgname增加X个PP或用mkps –a -n -sX myvg在myvg上增加一个PP数为X的内存交换区
˃I 小型机内存泄漏问题
小型机出现内存泄漏即系统或应用进程无法将使用过的内存释放,使可用内存的容量逐渐减少,如果可用内存降到某最小值,将造成系统或应用程序无法FORK,子进程就会造成系统瘫痪。通常我们可以用ps和sar命令来查看小型机内存和CPU占用率的大概情况以及各进程的内存和CPU占用率的发展趋势,找出其中占用内存数不断变大的进程这个进程可能就已经发生了内存泄漏
˃I 常用的系统状态查询命令
| 命令 | 描述 |
| #lsdev –C -sscsi | 列出各个SCSI设备的所有相关信息如逻辑单元号硬件地址及设备文件名等 |
| #ps -ef | 列出正在运行的所有进程的各种信息如进程号及进程名等 |
| #netstat -rn | 列出网卡状态及路由信息等 |
| #netstat -in | 列出网卡状态及网络配置信息 |
| #df -k | 列出已加载的逻辑卷及其大小信息 |
| #mount | 列出已加载的逻辑卷及其加载位置 |
| #uname -a | 列出系统ID号系统名称OS版本等信息 |
| #hostname | 列出系统网络名称 |
| #lsvg –l rootvg #lsvg –p rootvg | 显示逻辑卷组信息如包含哪些物理盘及逻辑卷等 |
| #lslv -l datalv #lslv -p datalv | 显示逻辑卷各种信息如包含哪些盘是否有镜像等 |
˃I 网络不通的诊断过程
ifconfig查看网卡是否启动(up)
netstat -i查看网卡状态
Ierrs/Ipkts和Oerrs/Opkts是否>1%
ping自己网卡地址(ip地址)
ping其它机器地址如不通在其机器上用diag检测网卡是否有问题
在同一网中subnet mask应一致
˃I 网络配置的基本方法
(1)如需修改网络地址主机名等一定要用chdev命令
#chdev -l inet0 -a hostname=myhost
#chdev –l en0 –a netaddr='9324058' –a netmask=2552552550_
(2)查看网卡状态#lsdev -Cc if
(3)确认网络地址#ifconfig en0
(4)启动网卡#ifconfige n0 up
