免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: 26320401
打印 上一主题 下一主题

[存储备份] 求教:P630更换内置磁盘 [复制链接]

论坛徽章:
0
11 [报告]
发表于 2008-12-23 23:23 |只看该作者
1. The disk failure infomation.

iedm2b02:root:/home/fkung1
# errpt   
IDENTIFIER TIMESTAMP  T C RESOURCE_NAME  DESCRIPTION
49A83216   0127030008 T H hdisk0         DISK OPERATION ERROR
49A83216   0127023408 T H hdisk0         DISK OPERATION ERROR
2F3E09A4   0127011208 I H hdisk0         REPAIR ACTION
49A83216   0127003608 T H hdisk0         DISK OPERATION ERROR
49A83216   0127003008 T H hdisk0         DISK OPERATION ERROR

DIAG
Advanced Diagnostics Routines
System Verification
Problem Determination

No trouble was found.  However, the resource was not tested because
the device driver indicated that the resource was in use.

The resource needed is
- hdisk0           U1.1-P1/Z1-A8        16 Bit LVD SCSI Disk Drive (36400 MB)

Use Enter to continue.

1.1 Call IBM System Support.
Jacques (J.) Br...        01A0 - Server error; Command not accepted while NOT in Retract. Disk need replace.         


2. Replace disk
2.1make sure all lv's are mirrored
# lsvg -l rootvg

2.2 Unmirror hdisk0
# unmirrorvg -c 1 rootvg hdisk0
# reducevg rootvg hdisk0

2.3 Replace the failing disk
# DIAG

-> Task Selection
-> Hot Plug Task                                                                                                         -> SCSI and SCSI RAID Hot Plug Manager
-> Identify a Device Attached to a SCSI Hot Swap Enclosure Device
Selecting a slot will set the LED indicator to Identify.

Make selection, use Enter to continue.

                U1.1-
  ses0            P1/Z1-AF
     slot  1      P1/Z1-A8             hdisk0
     slot  2                           [empty slot]
     slot  3      P1/Z1-AA             hdisk1
     slot  4                           [empty slot]
  

                                  lqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqk
                                  x Processing data ...                                  x
F1=Help                        Escmqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqj
SCSI and SCSI RAID HOT PLUG MANAGER                                                                                   
-> REMOVE OR REPLACE DEVICE ATTACHED TO A SCSI HOT SWAP ENCLOSURE DEVICE                                                 802485

The following is a list of configured, unconfigured and populated
SCSI Hot Swap Enclosure device slots. Select a slot to remove or
replace the device attached to that slot.
ENSURE THAT NO OTHER HOST IS USING THE DEVICE BEFORE REMOVING IT.

Make selection, use Enter to continue.

                 U1.1-
  ses0            P1/Z1-AF
     slot  1      P1/Z1-A8             hdisk0
     slot  3      P1/Z1-AA             hdisk1


                                   
                                  lqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqk
                                  x Running rmdev on hdisk0                              x
F1=Help                        Escmqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqj

            X The LED should be in the Remove state for the        x
            x selected device.                                     x
            x                                                      x
            x You may now remove or replace the device.            x
            x Use 'Enter' to indicate you are finished.            x
            x                                            

-> REMOVE OR REPLACE DEVICE ATTACHED TO A SCSI HOT SWAP ENCLOSURE DEVICE                                                

The following is a list of configured, unconfigured and populated
SCSI Hot Swap Enclosure device slots. Select a slot to remove or
replace the device attached to that slot.
ENSURE THAT NO OTHER HOST IS USING THE DEVICE BEFORE REMOVING IT.

Make selection, use Enter to continue.

                U1.1-
  ses0            P1/Z1-AF
     slot  1                           [populated]
     slot  3      P1/Z1-AA             hdisk1





                                  lqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqk
                                  x Processing data ...                                  x
F1=Help                        Escmqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqj

-> Configure Added/Replaced Devices



            lqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqk
            x Configuring scsi0                                    x
F1=Help     mqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq




                                  lqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqk
                                  x                                                      x
                                  x Building Resource Database.                          x
                                  x Please stand by.                                     x
                                  mqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqj



iedm2d15:root:/
# lspv hdisk0
0516-304 : Unable to find device id hdisk0 in the Device
        Configuration Database.

# extendvg rootvg hdisk0
0516-1254 extendvg: Changing the PVID in the ODM.
iedm2b02:root:/home/fkung1
# lspv                  
hdisk0          00293f7abb3ed790                    rootvg          active
hdisk1          00293f7a06546bcf                    rootvg          active

iedm2b02:root:/home/fkung1
# mirrorvg rootvg hdisk0 hdisk1
0516-1124 mirrorvg: Quorum requirement turned off, reboot system for this
        to take effect for rootvg.
0516-1126 mirrorvg: rootvg successfully mirrored, user should perform
        bosboot of system to initialize boot records.  Then, user must modify
        bootlist to include:  hdisk1 hdisk0.

iedm2b02:root:/home/fkung1
# bosboot -a  

bosboot: Boot image is 33055 512 byte blocks.

iedm2b02:root:/home/fkung1
# bootlist -om normal hdisk0 hdisk1
hdisk0 blv=hd5
hdisk1 blv=hd5

iedm2b02:root:/
# lsvg -l rootvg
rootvg:
LV NAME             TYPE       LPs   PPs   PVs  LV STATE      MOUNT POINT
hd5                 boot       1     2     2    closed/syncd  N/A
hd6                 paging     64    128   2    open/syncd    N/A
hd8                 jfs2log    1     2     2    open/syncd    N/A
hd4                 jfs2       2     4     2    open/syncd    /
hd2                 jfs2       48    96    2    open/syncd    /usr
hd9var              jfs2       9     18    2    open/syncd    /var
hd3                 jfs2       4     8     2    open/syncd    /tmp
hd1                 jfs2       4     8     2    open/syncd    /home
hd10opt             jfs2       4     8     2    open/syncd    /opt
admin               jfs2       2     4     2    open/syncd    /admin
hd7                 sysdump    4     8     2    open/stale    N/A
unixsup             jfs2       30    60    2    open/syncd    /unixsup

iiedm2b02:root:/
# lspv
hdisk0          00293f7abb3ed790                    rootvg          active
hdisk1          00293f7a06546bcf                    rootvg          active
hdisk2          none                                None            
hdisk3          none                                None            
vpath0          00293f7ae01d2ed8                    vg01            active
hdisk4          none                                None            
hdisk5          none                                None            
vpath1          00293f7a68894181                    vg01            active
hdisk6          none                                None            
hdisk7          none                                None            
vpath2          00293f7ad2009f0d                    vg01            active

iedm2b02:root:/
# diag
-> Task Selection (Diagnostics, Advanced Diagnostics, Service Aids, etc.)
-> Log Repair Action
-> Choose hdisk0 and enter
   Esc+7 to Commit   

A repair action for each of the following resources have been
logged. Obsolete error log entries for these resources will no
longer be analyzed by diagnostics.

    hdisk0

Use Enter to continue.
REPAIR ACTION COMPLETED

iedm2b02:root:/
# errpt
IDENTIFIER TIMESTAMP  T C RESOURCE_NAME  DESCRIPTION
2F3E09A4   0127055908 I H hdisk0         REPAIR ACTION
2F3E09A4   0127055708 I H hdisk0         REPAIR ACTION
49A83216   0127030008 T H hdisk0         DISK OPERATION ERROR

49A83216   0127023408 T H hdisk0         DISK OPERATION ERROR
2F3E09A4   0127011208 I H hdisk0         REPAIR ACTION
49A83216   0127003608 T H hdisk0         DISK OPERATION ERROR
49A83216   0127003008 T H hdisk0         DISK OPERATION ERROR

论坛徽章:
0
12 [报告]
发表于 2008-12-23 23:31 |只看该作者
另外要特别注意下面的问题:
主要针对sysdumpdev
1. remove any unmirrored LV before unmirror the failed disk but boot disk.
2. if the LV is mirred, you need not do this.

我的意思是如果sysdump 没有mirroe,先mirror了,这样省事。如果不需要可以换完盘之后再unmirror。

[ 本帖最后由 allanwang77 于 2008-12-23 23:46 编辑 ]

论坛徽章:
0
13 [报告]
发表于 2008-12-23 23:34 |只看该作者
这是IBM的标准操作程序,不知道能不能帮到你。如果情况不一样,要查书。

论坛徽章:
0
14 [报告]
发表于 2008-12-24 18:28 |只看该作者
谢谢 allanwang77 对我帖子的关注。今天我到了现场。所做的操作如下:
1.root@nbu:/>errpt -dH | more
IDENTIFIER TIMESTAMP  T C RESOURCE_NAME  DESCRIPTION
21F54B38   1223161408 P H hdisk2         DISK OPERATION ERROR
21F54B38   1219150608 P H hdisk2         DISK OPERATION ERROR
21F54B38   1219143808 P H hdisk2         DISK OPERATION ERROR
21F54B38   1219142608 P H hdisk2         DISK OPERATION ERROR
21F54B38   1219142008 P H hdisk2         DISK OPERATION ERROR
21F54B38   1219141708 P H hdisk2         DISK OPERATION ERROR

[email=2.root@nbu:/]2.root@nbu:/[/email]> lsvg -o -n hdisk2
VOLUME GROUP:   nbudata                  VG IDENTIFIER:  0050231b00004c00000000f9cff152b2
VG STATE:       active                   PP SIZE:        128 megabyte(s)
VG PERMISSION:  read/write               TOTAL PPs:      1092 (139776 megabytes)
MAX LVs:        256                      FREE PPs:       218 (27904 megabytes)
LVs:            4                        USED PPs:       874 (111872 megabytes)
OPEN LVs:       0                        QUORUM:         2
TOTAL PVs:      2                        VG DESCRIPTORS: 3
STALE PVs:      1                        STALE PPs:      1
ACTIVE PVs:     0                        AUTO ON:        yes
MAX PPs per PV: 1016                     MAX PVs:        32

[email=3.root@nbu:/]3.root@nbu:/[/email]> lsvg -l nbudata
nbudata:
LV NAME             TYPE       LPs   PPs   PVs  LV STATE      MOUNT POINT
loglv00             jfslog     1     2     2    open/syncd    N/A
lv01                jfs        33    66    2    open/syncd    /backup
lv00                jfs        57    114   2    open/stale    /NBUFP6
dsunitlv            jfs        346   692   2    open/syncd    /dsunit


这样基本就可判断为 hdisk2 损坏,且 hdisk2和hdisk3共为镜像,亦不是rootvg。然后我的换盘操作如下:
1.unmirrorvg nbudata hdisk2
2.reducevg nbudata hdisk2
第二步报错:[email=root@nbu:/]root@nbu:/[/email]> reducevg nbudata hdisk2
0516-016 ldeletepv: Cannot delete physical volume with allocated
        partitions. Use either migratepv to move the partitions or
        reducevg with the -d option to delete the partitions.
0516-884 reducevg: Unable to remove physical volume hdisk2.


然后我执行[email=root@nbu:/]root@nbu:/[/email]> lsvg -l nbudata
nbudata:
LV NAME             TYPE       LPs   PPs   PVs  LV STATE      MOUNT POINT
loglv00             jfslog     1     1     1    open/syncd    N/A
lv01                jfs        33    33    1    open/syncd    /backup
lv00                jfs        57    57    1    open/syncd    /NBUFP6
dsunitlv            jfs        346   346   1    open/syncd    /dsunit

可以看出 hdisk2已经从 nbudata这个卷组中删除了。但是为什么reducevg 缺报错呢?是不是需要 umount /NBUFP6(lv00所在的lv挂载点)?请各位前辈指教。

[ 本帖最后由 26320401 于 2008-12-24 18:31 编辑 ]

论坛徽章:
0
15 [报告]
发表于 2008-12-25 00:43 |只看该作者
我感觉好像不能由此判断hdisk2 坏了,只是显示nbudata vg中的 /NBUFP6 没有 sync, 应该先syncvg 看能不能解决而不是马上换盘。
大家怎么看?

另外,应该运行diag 先诊断确实是hdisk2 坏了才更换。

[ 本帖最后由 allanwang77 于 2008-12-25 00:50 编辑 ]

论坛徽章:
0
16 [报告]
发表于 2008-12-25 09:33 |只看该作者
你lspv -l 看看啊,得确保硬盘上没有任何lv的pp就能reduce了

论坛徽章:
0
17 [报告]
发表于 2008-12-25 12:16 |只看该作者
原帖由 allanwang77 于 2008-12-25 00:43 发表
我感觉好像不能由此判断hdisk2 坏了,只是显示nbudata vg中的 /NBUFP6 没有 sync, 应该先syncvg 看能不能解决而不是马上换盘。
大家怎么看?

另外,应该运行diag 先诊断确实是hdisk2 坏了才更换。


今天早上我去了现场。操作如下:
1.[email=1.root@nbu:/]root@nbu:/>unmirrorvg[/email] -c 2 nbudata
[email=2.root@nbu:/]2.root@nbu:/[/email]> lsvg -l nbudata
nbudata:
LV NAME             TYPE       LPs   PPs   PVs  LV STATE      MOUNT POINT
loglv00             jfslog     1     1     1    open/syncd    N/A
lv01                jfs        33    33    1    open/syncd    /backup
lv00                jfs        57    57    1    open/syncd    /NBUFP6
dsunitlv            jfs        346   692   2    open/syncd    /dsunit  在这里都正常了
[email=3.root@nbu:/]3.root@nbu:/[/email]> lslv -l lv00 查看各个lv的状态
lv00:/NBUFP6
PV                COPIES        IN BAND       DISTRIBUTION  
hdisk2            057:000:000   52%           000:030:000:027:000
[email=root@nbu:/]root@nbu:/[/email]> lslv -l lv01
lv01:/backup
PV                COPIES        IN BAND       DISTRIBUTION  
hdisk3            033:000:000   63%           000:021:012:000:000
[email=root@nbu:/]root@nbu:/[/email]> lslv -l loglv00
loglv00:N/A
PV                COPIES        IN BAND       DISTRIBUTION  
hdisk3            001:000:000   100%          000:001:000:000:000
[email=root@nbu:/]root@nbu:/[/email]> lslv -l dsunitlv
dsunitlv:/dsunit
PV                COPIES        IN BAND       DISTRIBUTION  
hdisk3            346:000:000   8%            110:030:097:109:000
4.然后尝试重新做mirror
[email=root@nbu:/]root@nbu:/[/email]> mirrorvg -c 2 nbudata
0516-934 /usr/sbin/syncvg: Unable to synchronize logical volume lv00.
0516-932 /usr/sbin/syncvg: Unable to synchronize volume group nbudata.
0516-1125 mirrorvg: Quorum requirement turned off, varyoff and varyon
        volume group for this to take effect.

[email=root@nbu:/]root@nbu:/[/email]> lsvg -l nbudata
nbudata:
LV NAME             TYPE       LPs   PPs   PVs  LV STATE      MOUNT POINT
loglv00             jfslog     1     2     2    open/syncd    N/A
lv01                jfs        33    66    2    open/syncd    /backup
lv00                jfs        57    114   2    open/stale    /NBUFP6
dsunitlv            jfs        346   692   2    open/stale    /dsunit

这下我就不明白了,做了mirror之后,居然有2个lv stale。然后我又去掉mirror,各个lv全部恢复正常,再做mirror,结果就和以上一样,不断的循环。
至此我也不知道再往下要怎么处理,为什么做了mirror就有staled的lv出现?请教各位前辈。

论坛徽章:
0
18 [报告]
发表于 2008-12-25 12:26 |只看该作者
学习了

论坛徽章:
0
19 [报告]
发表于 2008-12-25 19:23 |只看该作者
crazy了
你拆mirror时候dsunitlv还是mirror状态啊
试试把lv00的pp从hdisk2上移到hdisk3上,然后再做mirror,不过既然errpt里面都报了一大堆hdisk2的H类型错误,那么hdisk2也算是病入膏肓了

论坛徽章:
0
20 [报告]
发表于 2008-12-26 20:59 |只看该作者
原帖由 meilixueshan 于 2008-12-25 19:23 发表
crazy了
你拆mirror时候dsunitlv还是mirror状态啊
试试把lv00的pp从hdisk2上移到hdisk3上,然后再做mirror,不过既然errpt里面都报了一大堆hdisk2的H类型错误,那么hdisk2也算是病入膏肓了



我也做过migrate,但是转移lv00后,lv00的状态也是stale的。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP