一. 以roovtg卷组为例,通常是两块盘做的rootvg
假设 rootvg 券中的 hdisk0 盘坏了,通过HMC报警或本机 errpt 日志查看坏盘信息
//查看rootvg是否做了mirror, 如果lp:pp 为1:2 即做了mirror
lsvg -l rootvg
//确认硬盘型号和插槽号
lscfg -vl hdisk0
//查看系统bootlist启动顺序
bootlist -m normal -o
//查看roovg卷组中两块硬盘都是active即正常 ,missing表示丢失或坏
lsvg -p rootvg
//如果hdisk0显示missing,执行chpv看看硬盘能不能找回来
chpv -va hdisk0
二. 找出坏盘并更换
1. 把hdisk0 从 rootvg中踢出
//把hdisk0 从rootvg中取消mirror,(耗时40分钟左右)
unmirrorvg rootvg hdisk0
//查看hdisk0和hdisk1已不是mirror
lsvg -l rootvg
//从rootvg中去除hdisk0
reducevg rootvg hdisk0
//从系统中删除坏盘
rmdev -dl hdisk0
2.查找坏盘位置拔出换新盘
diag
选择:
->Task Selection
->Hot Plug Task
->SCSI and SCSI RAID Hot Plug Manager
-> Identify a Device Attached to a SCSI Hot Swap Enclosure Device
选择目标DISK , 如 hdisk0 回车
这时硬盘指示灯会显示红色,即hdisk0,退出
此时直接拔出硬盘更换
到此硬盘更换完成。
3.换上新盘后操作
//查找新硬盘
cfgmgr -v
//查看新盘是否识别
lspv
//添加新盘pvid到系统为可用
chdev -l hdisk0 -a pv=yes
//将 hdisk0 加入rootvg
extendvg rootvg hdisk0
//将rootvg 镜像到hdisk0上,此工作耗时较长
mirrorvg -S rootvg hdisk0
//查看镜像进度
lsvg -l rootvg // STATE 为 syncd时为同步完成
//同步VG 可不做
syncvg –v rootvg
//将引导image到hdisk0上
bosboot -ad hdisk0
//如果要修改引导顺序
boslist -m normal hdisk0 hdisk1
//查看引导顺序
bootlist -m normal -o
补充说明:
1. AIX 做mirrorvg最好采用后台方式,否则在前台会等的非常久
smitty mirrorvg 选择 backupgroud。
也可以在CLI方式下使用-S
example: mirrorvg -c2 rootvg -S
2. 一般单镜像的卷组都需要将quorum关闭
chvg -Qn rootvg
说明:卷组中拥有2份VGDA的磁盘不可用时,受quorum制约,整个卷组无法激活,从而失去镜像意义。
对于rootvg镜像更加需要关闭quorum,否则一旦包含2份VGDA的磁盘不可用时,系统在引导过程中将不能激活rootvg,
从而引起启动失败。该命令可在系统正常运行时随时补充执行,但需要重新启动才能生效。
--如果始终没有执行过,当系统启动失败时,可以使用可引导介质进入维护模式,激活rootvg,获得shell时再执行此命令,
然后正常启动即可。
对没有做镜像的LV做镜像
mklvcopy -k lvname 2 hdisk1目标盘
参数 -k 是同步数据,
如果不加参数 -k ,使用下列同步
syncvg -v rootvg
删除在一块盘上的lv镜像
rmlvcopy lvname 1 hdisk0
查看硬盘故障,通过hd2查看lv如果有 stale 即有故障
lslv -m hd2
如查坏盘还能读,并存在独立的lv,需要把坏盘上的lv迁移到好盘上
migratepv -l lv-name hdisk0坏盘 hdisk1好盘
如果新盘是hdisk0,则需要重建dumplv
估算dump设备所需要的大小
sysdumpdev -e
PP SIZE: 512 megabyte(s)
在hdisk0上创建8个PPs大小的lg_dumplv
mklv -t sysdump -y lg_dumplv rootvg 8 hdisk0
重新把primary dump device 设置到lg_dumplv
sysdumpdev -Pp /dev/lg_dumplv
1、硬盘告警信息
2、故障排查
查看错误日志
# errpt -aj C62E1EB7
查看hdisk0的信息,发现hdisk0属于rootvg
# lspv
查看hdisk0的信息,发现状态是missing的
# lspv hdisk0
继续看rootvg这个卷组的状态,发现状态是stale,都不同步了,肯定是硬盘坏了
#lsvg -p rootvg
# lsvg -l rootvg
3、查看硬盘信息
查看硬盘的S/N,P/N号
#lscfg –vl hdisk0
#lscfg -vp |more
查看所有硬盘(包括逻辑盘)的状态
# lsdev -Cc disk
4、更换故障硬盘
4.1取消rootvg镜像
#chpv -c hdisk0 //去掉hdisk0的引导信息
#unmirrorvg rootvg hdisk0
4.2将坏的硬盘从rootvg中去除
#reducevg rootvg hdisk0
#rmdev -dl hdisk0 [删除硬件设备,-R强制删除]
4.3通过diag工具对坏的硬盘进行热插拔
1)运行diag 并依次选择菜单Task selection -> hot plug task -> scsi and scsi raid hot plug manager -> replace/remove a device attached to an scsi hot swap enclosure device, 选择要更换的硬盘Hdisk0 回车,保留当前界面。
2)hdisk0 硬盘的指示灯会亮(橙色),拔掉这块硬盘,将新硬盘插上。
3)回到 1)当时的界面,回车
4)再进入configure added/replaced devices 菜单进行一下配置,硬盘的物理更换就完成了。
4.4 通过lspv 查看当前硬盘的信息,正常情况下应该如下:
# cfgmgr -v //让系统识别到新设备
#lspv
hdisk0 none none
hdisk1 005a542a8a1c08ca rootvg active
#chdev -l hdisk1 -a pv=yes //给新硬盘分配PVID号
4.5 将hdisk0加入rootvg
# extendvg rootvg hdisk0
或 extendvg -f rootvg hdisk0 //强制把hdisk0加入到rootvg中
4.6 完成rootvg 的镜像
#chvg –Qn rootvg //取消rootvg的 Quorum
#mirrorvg rootvg [hdisk0] //此工作耗时较长
#syncvg –v rootvg //同步VG 可不做
#bosboot -ad /dev/hdisk0 //硬盘添加引导数据
4.7 更改引导列表
#bootlist -m normal hdisk0 hdisk1
#bootlist -m normal -o
#hdisk0
#hdisk1
5、参数注释
检看当前是使用哪块盘引导启动的
# bootinfo -b
检查 hdisk1 是否可作为由 AIX 支持的引导设备:
# bootinfo -B hdisk1
如果此命令返回值 1,则选择的磁盘可以由 AIX 引导。任何其它值表示 hdisk1 不是 rootvg 制作镜像的候选。
发表评论