免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: cwinxp

OCFS,OCFS2,ASM,RAW 讨论主题合并帖 [复制链接]

论坛徽章:
1
荣誉版主
日期:2011-11-23 16:44:17
发表于 2006-08-18 09:22 |显示全部楼层
原帖由 oncity 于 2006-8-18 07:44 发表
安装 ocfs2 并不困难. (用最新的 suse server 10,什么都自带)

但使用起来,怪问题,特别多.

1) 死机,特别在复制大目录的时候.

2) 死机,意外关掉其中一个节点的时候 (拔网线).

3) 死机.......就是莫明 ...


怎么死机?屏幕上有信息吗?是没有任何反应还是kernel崩溃?请把你的情况说清楚...谢谢!

论坛徽章:
0
发表于 2006-08-18 10:07 |显示全部楼层
原帖由 好好先生 于 2006-8-18 09:22 发表


怎么死机?屏幕上有信息吗?是没有任何反应还是kernel崩溃?请把你的情况说清楚...谢谢!


就是完全没有出错信息,包括屏显和 syslog

用 linux 那么久,还是第一次看到这种彻底瞬间崩溃的现象.  

估计是内核的问题.

论坛徽章:
5
巳蛇
日期:2013-08-28 09:26:15CU十二周年纪念徽章
日期:2013-10-24 15:41:34射手座
日期:2013-10-31 09:13:04射手座
日期:2014-02-11 13:18:34天秤座
日期:2014-03-25 09:22:28
发表于 2006-08-18 10:12 |显示全部楼层
原帖由 oncity 于 2006-8-18 10:07 发表


就是完全没有出错信息,包括屏显和 syslog

用 linux 那么久,还是第一次看到这种彻底瞬间崩溃的现象.  

估计是内核的问题.


不可能吧....内核崩溃的话,会有日志的,默认是显示在控制台上..

论坛徽章:
0
发表于 2006-08-18 10:14 |显示全部楼层
看过我之前对ocfs的评论么?  

你因该首先排除掉环境问题和版本依赖性问题,因为ocfs2还是一个处于开发初始阶段的系统,虽然名字有一个2,但实际上是第一版支持general purpose的集群文件系统。ocfs2用来做生产系统是不明智的(见我的帖子)和不正确的。ocfs2现在用的话,你根本无法lock down一个stable set.

为什么不用GFS呢?

论坛徽章:
0
发表于 2006-08-18 10:22 |显示全部楼层
原帖由 nntp 于 2006-8-18 10:14 发表
看过我之前对ocfs的评论么?  

你因该首先排除掉环境问题和版本依赖性问题,因为ocfs2还是一个处于开发初始阶段的系统,虽然名字有一个2,但实际上是第一版支持general purpose的集群文件系统。ocfs2用来做生产 ...


因为平台用了 SUSE Linux Enterprise Server 10 , 自带了 ocfs2 ,当然要先试试.  

架起 ocfs2 很容易,简单测试也没有问题,但真正复制大量数据时就出问题.

如果用 gfs ,我想要换成 redhat 才行吧,最稳定是用那个版本来安装? as 4 u2 吗?

论坛徽章:
0
发表于 2006-08-18 12:45 |显示全部楼层
越高越好.

论坛徽章:
0
发表于 2006-08-18 16:50 |显示全部楼层
LZ建议你订阅 ocfs2的邮件列表, 动手之前看看别人吃的亏,然后好判断到底用不用.

SuSE SLES版本一般在第一个SP出来之前,还是不要上生产环境.

论坛徽章:
0
发表于 2006-08-29 19:05 |显示全部楼层

我也有这样的问题RHEL4 update4 ocfs2+10g2

我在RHEL4 update4上装的ocfs2;
node01 ,node02当把node02的网线或者node01的网线拔了之后,node02就会死机;而node1没有问题
/var/log/messages中有如下日志后死机
Aug 28 18:23:14 node02 kernel: o2net: connection to node node01 (num 0) at 192.168.210.201:7777 has been idle for 10 seconds, shutting it down.
Aug 28 18:23:14 node02 kernel: (0,0): o2net_idle_timer:1309 here are some times that might help debug the situation: (tmr 1156760584.614463 now 1156760594.612669 dr 1156760584.614448 adv 1156760584.614468:1156760584.614471 func (8911b11d:505) 1156760549.622451:1156760549.622455)
Aug 28 18:23:14 node02 kernel: o2net: no longer connected to node node01 (num 0) at 192.168.210.201:7777
Aug 28 18:25:01 node02 crond(pam_unix)[4833]: session opened for user root by (uid=0)
Aug 28 18:25:01 node02 crond(pam_unix)[4833]: session closed for user root
Aug 28 18:30:01 node02 crond(pam_unix)[6257]: session opened for user root by (uid=0)
Aug 28 18:30:01 node02 crond(pam_unix)[6259]: session opened for user root by (uid=0)
Aug 28 18:30:01 node02 crond(pam_unix)[6259]: session closed for user root
Aug 28 18:30:02 node02 crond(pam_unix)[6257]: session closed for user root

论坛徽章:
0
发表于 2006-08-29 21:25 |显示全部楼层

回复 9楼 pxwyd 的帖子

ocfs2 的问题太复杂.

普通群集WEB网站 ,还是 nfs 适用.

论坛徽章:
0
发表于 2006-08-29 23:00 |显示全部楼层
首先强烈推荐使用RAW设备.
拔掉网线死机的话,第二个节点正常是会重启,而不应该死机.
你试一下拔CRS 的几个服务停掉再拔网线看看.
估计这样就不会死机了.
为什么会死一个节点?
根据我的理解是:因为RAC是同时使用两个节点都使用,再用两个Virtual IP 设两个主机上面,
而ORACLE client同时连接到你的两个VIP.
正常情况下,一个节点出现问题的时候,会把他的VIP设到活的节点的机器上.这样才能保证客户端可以访问两个VIP.
而你他们两台主机之间的通讯靠的是Private的网卡,RAC靠两个网卡来共享内存池,同样他们的流量是相当大的.----这个概念跟我们以前在MSCS上做OFS是不一样的!!!!
而你拔掉网线的话,他们就没有办法做到共享内存池,而客户端如果还是同时使用两台主机的话,ORACLE就会出问题.所以,网线拔掉的话,必然要有一台要接管全部的VIP,而另一个一直处于无修止的重启,直到网线拔好.

而你的问题就是为什么不是重启而是死机.
估计你查一下,你的model里面的设置是不是按方档的来做,还有就是系统本身的设置. 
估计是CRS进程在重启机器的时候没有导致SYSTEM hung.
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

SACC2019中国系统架构师大会

【数字转型 架构演进】SACC2019中国系统架构师大会,7折限时优惠重磅来袭!
2019年10月31日~11月2日第11届中国系统架构师大会(SACC2019)将在北京隆重召开。四大主线并行的演讲模式,1个主会场、20个技术专场、超千人参与的会议规模,100+来自互联网、金融、制造业、电商等领域的嘉宾阵容,将为广大参会者提供一场最具价值的技术交流盛会。

限时七折期:2019年8月31日前


----------------------------------------

大会官网>>
  

北京盛拓优讯信息技术有限公司. 版权所有 16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122
中国互联网协会会员  联系我们:huangweiwei@it168.com
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP