免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 2518 | 回复: 12
打印 上一主题 下一主题

请问HP Service Guard for Linux的问题? [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2006-09-15 21:45 |只看该作者 |倒序浏览
公司的一个项目,软件HP Service Guard for Linux11.16.02版,Redhat AS4;硬件为DL380G4服务器两台,与MSA1000,每台服务器上只有一块HBA卡。我以前没有接触过HP Service Guard,就连linux也只是安装过几次而已!所幸这个硬件配置比较简单,而且HP也提供了详细的安装说明,我只要照着使用手册安装就行了!可是这其中有一个地方我没有找到:手册上的“Preventing Boot-Time vgscan”中提到在Red Hat下的/etc/rc.d/rc.sysinit文件中注释两处
# LVM initialization
if [ -e /proc/lvm -a -x /sbin/vgchange -a -f /etc/lvmtab ];
then
action $"Setting up LVM:" /sbin/vgscan && /sbin/vgchange -a y
fi
这里写的是注释后这样还是只这里面的几行我都须注释!(而且在AS 4中我没有找到两处这样的语句,只有一句)
如果没有成功注释,会有什么后果!

    现在的问题是客户的oracle包可以成功运行并且切换,只是oracle进程每天都会无故停止(无论在哪一台上运行都这样),看Oracle的日志好像是和共享盘柜的写入有关(客户这样说),另外配的一个关于apache的包(与Oracle用不是同一个LVM卷)则一切正常!请问在配置Oracle时有什么需要注意的地方?

    还有手册上说这一版的service guard(11.16.02)支持AS4 U1及以后版本,是不是AS4( 无Update的最初发行版)肯定无法运行?如果需要寻求即时技术支持该打什么电话?(HP 800倒是干脆,直接说他们这没人会这个,无法支持,我打的可是Service Guard包装盒上贴着的技术支持电话,上面还写着什么“一年不限次电话支持”真是把人搞得哭笑不得!)

论坛徽章:
0
2 [报告]
发表于 2006-09-15 22:33 |只看该作者
1. 阻止节点启动的时候把共享的vgscan. 所以无论你在 启动脚本中看到了什么样子的写法,都要注掉. 不管你注掉什么,只要保证启动的时候不再vgscan 就好. 不注掉就会导致共享存储上的数据不一致。你说集群环境下的后果会是什么?
2. oracle 配置的时候,严格按照 oracle toolkit的README做.
3. 手册上说需要 U1以上,那就是U1以上.
4. 需要支持的话,联系卖给你们软件的HP销售,让他找HP在你们这个区域的服务专管经理. MC/SG 在HP售后有专门的人支持的,不知道你怎么打的800. 这个产品在国内的支持从05年3月份就开始了.

论坛徽章:
0
3 [报告]
发表于 2006-09-16 12:23 |只看该作者
先谢谢版主!现在有个问题,如何在启动时察看是否成功屏蔽vgscan?还有,好像oracle toolkit是要向HP购买的,而且价格要900多$!现在用户没有购买,是不是没有购买这个就一定会有问题?我打的是软件包装盒上面黄色标签上写的800电话!

[ 本帖最后由 yuan781010 于 2006-9-16 14:44 编辑 ]

论坛徽章:
0
4 [报告]
发表于 2006-09-16 16:47 |只看该作者
原帖由 yuan781010 于 2006-9-16 12:23 发表
先谢谢版主!现在有个问题,如何在启动时察看是否成功屏蔽vgscan?还有,好像oracle toolkit是要向HP购买的,而且价格要900多$!现在用户没有购买,是不是没有购买这个就一定会有问题?我打的是软件包装盒上面黄色标 ...



1. 启动的时候,是否屏蔽了vgscan,最简单的检查方法就是 瞪着屏幕. linux启动的时候会做那一步的,如果你看不到那步,或者 启动后 cat 你的 boot log (或boot.msg)没有看到vg操作,呢么就对了.

2. oracle toolkit 是hp预先编写好的操纵oracle 在MC/SG for linux上面工作的一组脚本。你不买也可以,不过你得有本事写出一个在功能和可靠性上差不多的一组控制脚本来. 只要熟悉HA, 熟悉Oracle,熟悉linux,熟悉脚本编写,写一个类似的出来也不是什么难事.  另外 900多刀的价格也不贵,你真的自己写写就知道工作量了,嘿嘿. 要知道HP提供的Oracle toolkit 是一个经过验证和大量不同环境测试后的商品,可不是随便找一个写脚本的程序员写出来的东西可以相比的.

3. 800的问题,找你们的hp sales. 要他们干吗的?

论坛徽章:
0
5 [报告]
发表于 2006-09-17 22:17 |只看该作者
现在客户发了一个日志给我,请版主帮忙看看,是否是HBA卡有问题!
执行dmesg的日志。
Buffer I/O error on device sda, logical block 0
SCSI error : <0 0 0 1> return code = 0x10000
end_request: I/O error, dev sda, sector 88
Buffer I/O error on device sda, logical block 11
SCSI error : <0 0 0 1> return code = 0x10000
end_request: I/O error, dev sda, sector 96
Buffer I/O error on device sda, logical block 12
SCSI error : <0 0 0 1> return code = 0x10000
end_request: I/O error, dev sda, sector 104
Buffer I/O error on device sda, logical block 13
SCSI error : <0 0 0 1> return code = 0x10000
end_request: I/O error, dev sda, sector 112
Buffer I/O error on device sda, logical block 14
SCSI error : <0 0 0 1> return code = 0x10000
end_request: I/O error, dev sda, sector 120
Buffer I/O error on device sda, logical block 15
qla2300 0000:06:01.0: LIP reset occured (f7f7).
qla2300 0000:06:01.0: LIP occured (f8f7).
qla2300 0000:06:01.0: LIP reset occured (f7f7).
qla2300 0000:06:01.0: LIP occured (f7f7).
bcm5700: eth1 NIC Link is Down
bcm5700: eth1 NIC Link is Up, 100 Mbps full duplex
bcm5700: eth1 NIC Link is Down
bcm5700: eth1 NIC Link is Up, 1000 Mbps full duplex
qla2300 0000:06:01.0: LIP reset occured (f7f7).
qla2300 0000:06:01.0: LIP occured (f7f7).
bcm5700: eth1 NIC Link is Down
bcm5700: eth1 NIC Link is Up, 100 Mbps full duplex
bcm5700: eth1 NIC Link is Down
bcm5700: eth1 NIC Link is Up, 1000 Mbps full duplex
qla2300 0000:06:01.0: LIP reset occured (f7f7).
qla2300 0000:06:01.0: LIP occured (f7f7).
bcm5700: eth1 NIC Link is Down
bcm5700: eth1 NIC Link is Up, 100 Mbps full duplex
bcm5700: eth1 NIC Link is Down
bcm5700: eth1 NIC Link is Up, 1000 Mbps full duplex
qla2300 0000:06:01.0: LIP reset occured (f7f7).
qla2300 0000:06:01.0: LIP occured (f7f7).
qla2300 0000:06:01.0: LIP reset occured (f8ef).
qla2300 0000:06:01.0: LIP occured (f7ef).
qla2300 0000:06:01.0: LIP reset occured (f7f7).
qla2300 0000:06:01.0: LIP occured (f7f7).
bcm5700: eth1 NIC Link is Down
bcm5700: eth1 NIC Link is Up, 100 Mbps full duplex
kjournald starting.  Commit interval 5 seconds
EXT3 FS on dm-0, internal journal
EXT3-fs: mounted filesystem with ordered data mode.
SELinux: initialized (dev dm-0, type ext3), uses xattr
qla2300 0000:06:01.0: LIP reset occured (f7f7).
qla2300 0000:06:01.0: LIP occured (f7f7).
bcm5700: eth1 NIC Link is Down
bcm5700: eth1 NIC Link is Up, 1000 Mbps full duplex
qla2300 0000:06:01.0: LIP reset occured (f7f7).
qla2300 0000:06:01.0: LIP occured (f7f7).
qla2300 0000:06:01.0: LIP reset occured (f753).
qla2300 0000:06:01.0: LIP occured (f753).
qla2300 0000:06:01.0: LIP reset occured (f753).
qla2300 0000:06:01.0: LIP occured (f753).
qla2300 0000:06:01.0: LIP reset occured (f8f7).
qla2300 0000:06:01.0: LIP occured (f8f7).
qla2300 0000:06:01.0: LIP reset occured (f753).
qla2300 0000:06:01.0: LIP occured (f753).

这里只是节选的一部分,实际上sda-sdd(都是MSA1000上的)都有报错!qla2300的信息也是有很多!“LIP”代表什么意思?
谢谢!!!

论坛徽章:
0
6 [报告]
发表于 2006-09-17 23:37 |只看该作者
Contact hp service team. I'm not the one who provide "free service" for any Business Entity here. Your customer paid you money for hp software & hardware then you've to solve their problem inside your responsibility. Such kind of problem should be escalated through hp's service pipe at any time.

A hint:the error messages that you attached here exactly indicates a very common communication mismatching problem. i.e. wrong configure of fiber channel multipath.

[ 本帖最后由 nntp 于 2006-9-17 23:46 编辑 ]

论坛徽章:
0
7 [报告]
发表于 2006-09-18 18:20 |只看该作者
呵呵,谢谢版主!主要是我们这的HP销售只管卖,(打800也说没有这样的技术支持,可能是没找对地方吧!)安装HP_PSP for linux时我选择的是 "singe path".只是有个问题,FC hub与FC 交换机除了速度还有什么差别!
我们的这个方案配的的是两口的FC hub(MSA1000内置),现在客户的应用是两台服务器同时对盘柜进行写操作(不同的LUN),这种情况下是否不应该用FC hub而是用FC 交换机!

论坛徽章:
0
8 [报告]
发表于 2006-09-18 19:28 |只看该作者
原帖由 yuan781010 于 2006-9-18 18:20 发表
呵呵,谢谢版主!主要是我们这的HP销售只管卖,(打800也说没有这样的技术支持,可能是没找对地方吧!)安装HP_PSP for Linux 时我选择的是 "singe path".只是有个问题,FC hub与FC 交换机除了速度还有什么差别! ...


1. push this HP sales again, he/she should serve you within the products he/she sold you. 800 is a normal pipe for "contact" and HP has vary technical support team behind the 800 contact center.

2. don't install PSP in any mission critical system unless your customer or you have very high expectation on server monitoring and administration. A Golden Rule: keep your mission critical system as clean as possible.

3. you have to install the FCA2214 FC adapter driver(qla2300*) with ./INSTALL -f (the switch -f tell the installer override the default single path setting and use multipathing technology) if you REALLY have multiple fiber cable connection between the servers and FC switch.

4. you have to use FC Switch instead of FC hub because any kind of Fiber Channel Hub will give you a "surprise" when some devices change it's loop address in the loop ring(connect/disconnect, in/out ....), the connection will be reset and that break the stability of the whole cluster.

论坛徽章:
0
9 [报告]
发表于 2006-09-19 10:50 |只看该作者
感谢版主的解答,现在群集已经正常运行,正在测试中!(看来上次安装时没有屏蔽VGSCAN的确造成很大的问题,盘柜上的LVM卷信息已被破坏了)。可是现在发现ServicesGuard的运行日志时间和系统所设的时间不同。系统设的是北京时间,ServicesGuard的日志是PDT(太平洋时间),我想软件就是这样设计的,因为安装时没有任何提示关于时区的设置。可以将其改为和系统同步吗?

论坛徽章:
0
10 [报告]
发表于 2006-09-19 12:14 |只看该作者
原帖由 yuan781010 于 2006-9-19 10:50 发表
感谢版主的解答,现在群集已经正常运行,正在测试中!(看来上次安装时没有屏蔽VGSCAN的确造成很大的问题,盘柜上的LVM卷信息已被破坏了)。可是现在发现ServicesGuard的运行日志时间和系统所设的时间不同。系统设 ...


yes. via normal config way.(vi xxx)
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP