AIX更换故障硬盘

 admin   2023-08-03 10:02   187 人阅读  0 条评论

一. 以roovtg卷组为例,通常是两块盘做的rootvg

假设 rootvg 券中的 hdisk0 盘坏了,通过HMC报警或本机 errpt 日志查看坏盘信息

//查看rootvg是否做了mirror, 如果lp:pp 为1:2 即做了mirror
lsvg -l rootvg

//确认硬盘型号和插槽号
lscfg -vl hdisk0

//查看系统bootlist启动顺序
bootlist -m normal -o

//查看roovg卷组中两块硬盘都是active即正常 ,missing表示丢失或坏
lsvg -p rootvg

//如果hdisk0显示missing,执行chpv看看硬盘能不能找回来
chpv -va hdisk0


二. 找出坏盘并更换

1. 把hdisk0 从 rootvg中踢出
//把hdisk0 从rootvg中取消mirror,(耗时40分钟左右)
unmirrorvg rootvg hdisk0

//查看hdisk0和hdisk1已不是mirror
lsvg -l rootvg

//从rootvg中去除hdisk0
reducevg rootvg hdisk0

//从系统中删除坏盘
rmdev -dl hdisk0

2.查找坏盘位置拔出换新盘
diag

选择:
->Task Selection
 ->Hot Plug Task
   ->SCSI and SCSI RAID Hot Plug Manager
     -> Identify a Device Attached to a SCSI Hot Swap Enclosure Device

选择目标DISK , 如 hdisk0 回车
这时硬盘指示灯会显示红色,即hdisk0,退出
此时直接拔出硬盘更换
到此硬盘更换完成。

3.换上新盘后操作
//查找新硬盘
cfgmgr -v

//查看新盘是否识别
lspv

//添加新盘pvid到系统为可用
chdev -l hdisk0 -a pv=yes

//将 hdisk0 加入rootvg
extendvg rootvg hdisk0

//将rootvg 镜像到hdisk0上,此工作耗时较长
mirrorvg -S rootvg hdisk0
//查看镜像进度
lsvg -l rootvg // STATE 为 syncd时为同步完成

//同步VG   可不做  
syncvg –v rootvg       

//将引导image到hdisk0上
bosboot -ad hdisk0

//如果要修改引导顺序
boslist -m normal hdisk0 hdisk1

//查看引导顺序
bootlist -m normal -o

补充说明:
1. AIX 做mirrorvg最好采用后台方式,否则在前台会等的非常久
smitty mirrorvg 选择 backupgroud。
也可以在CLI方式下使用-S
example: mirrorvg -c2 rootvg -S

2. 一般单镜像的卷组都需要将quorum关闭
chvg -Qn  rootvg

说明:卷组中拥有2份VGDA的磁盘不可用时,受quorum制约,整个卷组无法激活,从而失去镜像意义。
对于rootvg镜像更加需要关闭quorum,否则一旦包含2份VGDA的磁盘不可用时,系统在引导过程中将不能激活rootvg,
从而引起启动失败。该命令可在系统正常运行时随时补充执行,但需要重新启动才能生效。
--如果始终没有执行过,当系统启动失败时,可以使用可引导介质进入维护模式,激活rootvg,获得shell时再执行此命令,
然后正常启动即可。

对没有做镜像的LV做镜像
mklvcopy -k lvname 2 hdisk1目标盘
参数 -k 是同步数据,

如果不加参数 -k ,使用下列同步
syncvg -v rootvg

删除在一块盘上的lv镜像
rmlvcopy lvname 1 hdisk0

查看硬盘故障,通过hd2查看lv如果有 stale 即有故障
lslv -m hd2

如查坏盘还能读,并存在独立的lv,需要把坏盘上的lv迁移到好盘上
migratepv -l lv-name hdisk0坏盘  hdisk1好盘

如果新盘是hdisk0,则需要重建dumplv
估算dump设备所需要的大小
sysdumpdev -e

PP SIZE: 512 megabyte(s)
在hdisk0上创建8个PPs大小的lg_dumplv
mklv -t sysdump -y lg_dumplv rootvg 8 hdisk0

重新把primary dump device 设置到lg_dumplv
sysdumpdev -Pp /dev/lg_dumplv

 

1、硬盘告警信息

 

 

 

2、故障排查

查看错误日志

#  errpt   -aj   C62E1EB7

 

 

查看hdisk0的信息,发现hdisk0属于rootvg

# lspv

 

查看hdisk0的信息,发现状态是missing的

# lspv hdisk0

 

 

 

继续看rootvg这个卷组的状态,发现状态是stale,都不同步了,肯定是硬盘坏了

#lsvg  -p  rootvg

# lsvg -l rootvg

 

 

 

3、查看硬盘信息

查看硬盘的S/N,P/N号

#lscfg –vl hdisk0

#lscfg  -vp |more

 

查看所有硬盘(包括逻辑盘)的状态

# lsdev -Cc disk 

 

 

4、更换故障硬盘

4.1取消rootvg镜像

#chpv  -c   hdisk0       //去掉hdisk0的引导信息

#unmirrorvg   rootvg   hdisk0

 

 

4.2将坏的硬盘从rootvg中去除

#reducevg   rootvg   hdisk0

#rmdev   -dl   hdisk0      [删除硬件设备,-R强制删除]

 

4.3通过diag工具对坏的硬盘进行热插拔

1)运行diag 并依次选择菜单Task selection -> hot plug task -> scsi and scsi raid hot plug manager -> replace/remove a device attached to an scsi hot swap enclosure device, 选择要更换的硬盘Hdisk0 回车,保留当前界面。

2)hdisk0 硬盘的指示灯会亮(橙色),拔掉这块硬盘,将新硬盘插上。

3)回到 1)当时的界面,回车

4)再进入configure added/replaced devices 菜单进行一下配置,硬盘的物理更换就完成了。

 

 

4.4 通过lspv 查看当前硬盘的信息,正常情况下应该如下:

 # cfgmgr   -v     //让系统识别到新设备

#lspv

hdisk0    none                 none

hdisk1    005a542a8a1c08ca     rootvg     active

 

#chdev -l hdisk1 -a pv=yes   //给新硬盘分配PVID号

 

4.5 将hdisk0加入rootvg

# extendvg rootvg hdisk0          

或 extendvg -f rootvg hdisk0   //强制把hdisk0加入到rootvg中

 

 

4.6 完成rootvg 的镜像

#chvg –Qn rootvg         //取消rootvg的 Quorum 

#mirrorvg rootvg    [hdisk0]      //此工作耗时较长

#syncvg –v rootvg        //同步VG   可不做      

#bosboot -ad /dev/hdisk0    //硬盘添加引导数据

 

4.7 更改引导列表

#bootlist -m normal hdisk0 hdisk1 

#bootlist -m normal -o

#hdisk0

#hdisk1

 

 

 

5、参数注释

检看当前是使用哪块盘引导启动的

# bootinfo -b

 

检查 hdisk1 是否可作为由 AIX 支持的引导设备:

# bootinfo -B hdisk1

如果此命令返回值 1,则选择的磁盘可以由 AIX 引导。任何其它值表示 hdisk1 不是 rootvg 制作镜像的候选。


本文地址:https://liuchunjie.top/?id=615
版权声明:本文为原创文章,版权归 admin 所有,欢迎分享本文,转载请保留出处!

 发表评论


表情

还没有留言,还不快点抢沙发?