免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: hlzhan
打印 上一主题 下一主题

半年内关键生产系统Redhat cluster crashs 4次!:em52: [复制链接]

论坛徽章:
0
11 [报告]
发表于 2010-02-25 09:35 |只看该作者
本帖最后由 hlzhan 于 2010-02-25 09:39 编辑

GFS mounting problem类似这个:http://bugs.debian.org/cgi-bin/bugreport.cgi?bug=411787
具体信息不太记得了。

Cluster crash的那个也是查过REDHAT网站.

只能说为什么倒霉全碰到了

文件过多倒置应用歇菜已经发生过两起。最近一次上星期. 现在写一个系统监视的脚本,有问题告警。就是不知道GFS目录和GFS文件系统最多能放多少文件

论坛徽章:
0
12 [报告]
发表于 2010-02-25 15:52 |只看该作者
回复 11# hlzhan


Why not call Red Hat support team to create a support ticket officially ? And you have to provide details of your problem when you get through the support process.
Store high volume small size files upon GFS  is not a good idea. As someone 's previous comment to you that the Distribute Lock Manager will degrade the stability and performance when handling tons of small files.

论坛徽章:
0
13 [报告]
发表于 2010-02-26 15:24 |只看该作者
回复  hlzhan


Why not call Red Hat support team to create a support ticket officially ? And you ...
nntp 发表于 2010-02-25 15:52



   

Our applicatoins are provided by Nokia. All Redhat fault need to go through Nokia to escalate Redhat but always no any reponse from Redhat.

论坛徽章:
0
14 [报告]
发表于 2010-03-01 20:53 |只看该作者
回复 13# hlzhan


    I don't care your application from Nokia,  all we talked about is the RHEL right? If you have an official subscription of RHEL, why not just simply place a call to Red Hat GSS team?

If Nokia sold you guys OEM version of RHEL, then Red Hat China's support team will not take any responsibility to support you 'Coz  as the OEM contract, all the support request will direct to OEM vendor but not Red Hat. Red Hat world-wide support team will offer these vendors level 3 support. That's the cost for your choice.

In your case i do think you guys should complain this issue to Nokia and push those folks to go through level 3 support as quick as possible.

论坛徽章:
0
15 [报告]
发表于 2010-03-02 09:57 |只看该作者
本帖最后由 xiaocongwjb123 于 2010-03-02 10:06 编辑
5节点的Redhat cluster, 有厂家支持,但是没有提供任何建议和服务。另外一个GFS问题让我们一个应用不停的cr ...
hlzhan 发表于 2010-02-19 08:50



        楼主,关于你所反映的情况我们觉得有些内容描述得不够具体,不够详细。

因此我们需要你们方便的话提供更加详细的相关信息:

(1)一个目录下面放了大概12万个文件。首先我们需要了解的是你们所说的目录

下面放了12万个文件指的是不是下面的哪种情况呢?

1)假设存放文件的目录是/data,而/data目录下面就存放了大概12万个文件(

包括/data下面的子目录,/data下面的每个子目录也算是一个文件);

2)假设存放文件的目录是/data,而/data目录下面有分别建立了1,2,3.......等

子目录,也就是说/data/1,/data/2,/data/3.......。/data目录下面的这些子目

录里面所存放的文件数(包括里面的二级子目录和三级子目录)大概在12万个左右。

(2)操作系统版本是RHAS 5点几的,是32位的还是64位的呢?这个命令可以查到
# cat /etc/redhat-release
# uname -a

(3)操作系统上面开机启动了哪些服务?这个命令可以查到
# ntsysv  ##打上星号的就是随操作系统启动的服务

(4)集群上面所用的硬件服务器CPU的详细信息是什么?这个命令可以查到
# cat /etc/cpuinfo

(5)操作系统启动的时候内核到底加载了哪些模块?这个命令可以看到
# lsmod

(6) 检查操作系统中运行的时候各个设备IO是否已经启用了irqbalance(其应用就
是设备负载均衡调度)?这个命令可以看到
# cat /proc/interrupts
输出结果类似下面的信息:
          CPU0       CPU1       CPU2       CPU3      
  0:  441733344  441704798  441804679  441725019    IO-APIC-edge  timer
  1:          0          1          2          0    IO-APIC-edge  i8042
  8:          1          0          1          1    IO-APIC-edge  rtc
  9:          0          0          0          0   IO-APIC-level  acpi
12:          1          1          2          0    IO-APIC-edge  i8042
14:    3962749    3990999    3891110    3970770    IO-APIC-edge  ide0
98:          0          0          0          0   IO-APIC-level  uhci_hcd:usb4
106:         22         23         26         27   IO-APIC-level  uhci_hcd:usb5
130:    7786510          0          0          0       PCI-MSI-X  cciss0
146:    6652580          0          0          0         PCI-MSI  eth0
154:    1257030          0          0          0         PCI-MSI  eth1
169:          0          0          2          0   IO-APIC-level  uhci_hcd:usb1, ehci_hcd:usb6
177:          0          0          0          0   IO-APIC-level  uhci_hcd:usb2
185:         13         10         10         15   IO-APIC-level  uhci_hcd:usb3
NMI:          0          0          0          0
LOC: 1766973093 1766973092 1766973170 1766973169
从上面的输出内容可以看出,网卡1(eth0)和网卡2(eth1)的IO并没有工作在负载均衡调度
模式下面,所有的数据传输都加到CPU的了第一个核里面去了,而其它核则处于空闲状态(显然
这是一种系统资源的浪费形象)。当然了,并不是所有的硬件设备都完全支持irqbalance。不过
我们可以通过修改启动参数尝试让硬件设备都工作在irqbalance模式下面,从而提高系统资源的
利用效率,降低由于系统资源使用不充分造成系统响应缓慢,某些资源负载过高而某些资源
却闲着“没事干”的情况发生。

    如果楼主方便的话可以通过邮件联系我们,我们的邮箱是:andy_xiaocong@126.com

      顺便补充一下:我们不是Redhat技术团队,但是我们对楼主反映的情况很感兴趣。

论坛徽章:
5
荣誉会员
日期:2011-11-23 16:44:17CU大牛徽章
日期:2013-09-18 15:15:15CU大牛徽章
日期:2013-09-18 15:15:45未羊
日期:2014-02-25 14:37:19射手座
日期:2014-12-26 22:55:37
16 [报告]
发表于 2010-03-02 13:21 |只看该作者
GFS这样的cluster文件系统显然不适合一个目录下面太多文件。用GPFS会好点,不过最好是用NAS。
大量小文件,都应该用NAS而不是GFS/GPFS之类的东西。

论坛徽章:
0
17 [报告]
发表于 2010-03-04 08:31 |只看该作者
回复  hlzhan


    I don't care your application from Nokia,  all we talked about is the RHEL ri ...
nntp 发表于 2010-03-01 20:53


我们已经pushed nokia很多次了,也相信已经到了Redhat。在项目阶段,我们跟N每两天一个会跟踪问题,N不太可能不报到Redhat那里而这样敷衍我们,无论如何,我们算是N一个比较大的客户,可是没有就是没有。现在解决方案是等到软件的下一个版本,平台os跟着升级来解决问题,可能也是redhat的方案。

没办法。

另外应该不是中国redhat team负责这个项目。但无论怎么样,对平台和支持都比较失望。

还有个问题是系统gfs启动时候,会出现很多buffer错误,存储是emc,起初吓一大跳,马上报上emc/redhat,最终也没有任何解释,只说看来不影响应用就算了。各个厂家都在推。没话说,vendor还是大。

错误信息:

Buffer I/O error on device sda, logical block 66
Buffer I/O error on device sda, logical block 67
Buffer I/O error on device sda, logical block 68
Buffer I/O error on device sda, logical block 69

如果有人知道确切是怎么回事,请告一声,多谢了!

论坛徽章:
0
18 [报告]
发表于 2010-03-04 08:40 |只看该作者
楼主,关于你所反映的情况我们觉得有些内容描述得不够具体,不够详细。

因此我们需要你们 ...
xiaocongwjb123 发表于 2010-03-02 09:57


  楼主,关于你所反映的情况我们觉得有些内容描述得不够具体,不够详细。

因此我们需要你们方便的话提供更加详细的相关信息:

(1)一个目录下面放了大概12万个文件。首先我们需要了解的是你们所说的目录

下面放了12万个文件指的是不是下面的哪种情况呢?


--------〉是一个目录下12万,不包括子目录


1)假设存放文件的目录是/data,而/data目录下面就存放了大概12万个文件(

包括/data下面的子目录,/data下面的每个子目录也算是一个文件);

2)假设存放文件的目录是/data,而/data目录下面有分别建立了1,2,3.......等

子目录,也就是说/data/1,/data/2,/data/3.......。/data目录下面的这些子目

录里面所存放的文件数(包括里面的二级子目录和三级子目录)大概在12万个左右。

(2)操作系统版本是RHAS 5点几的,是32位的还是64位的呢?这个命令可以查到
# cat /etc/redhat-release
# uname -a

[root@ ~]# uname -a
Linux  2.6.9-78.0.8.ELlargesmp #1 SMP Wed Nov 5 07:25:07 EST 2008 x86_64 x86_64 x86_64 GNU/Linux


(3)操作系统上面开机启动了哪些服务?这个命令可以查到
# ntsysv  ##打上星号的就是随操作系统启动的服务

(4)集群上面所用的硬件服务器CPU的详细信息是什么?这个命令可以查到
# cat /etc/cpuinfo

cat /proc/cpuinfo

8个
processor       : 7
vendor_id       : GenuineIntel
cpu family      : 6
model           : 15
model name      : Intel(R) Xeon(R) CPU           E7330  @ 2.40GHz
stepping        : 11
cpu MHz         : 2400.090
cache size      : 3072 KB


(5)操作系统启动的时候内核到底加载了哪些模块?这个命令可以看到
# lsmod
Module                  Size  Used by
mptctl                 43977  1
mptbase                81825  1 mptctl
sg                     50041  0
ipmi_si                51928  2
ipmi_devintf           18192  4
ipmi_msghandler        41992  2 ipmi_si,ipmi_devintf
parport_pc             36737  0
lp                     22513  0
parport                51789  2 parport_pc,lp
autofs4                35273  0
i2c_dev                21057  0
i2c_core               36289  1 i2c_dev
lock_dlm               55412  4
gfs                   341004  4
lock_harness           14512  2 lock_dlm,gfs
dlm                   142340  11 lock_dlm
cman                  147360  26 lock_dlm,gfs,dlm
sunrpc                184505  1
md5                    13121  1
ipv6                  314401  1178
dm_round_robin         12353  1
dm_emc                 14913  1
joydev                 19393  0
dm_multipath           30673  3 dm_round_robin,dm_emc
button                 16481  0
battery                18633  0
ac                     14153  0
ehci_hcd               42441  0
uhci_hcd               42473  0
hw_random              14561  0
tg3                   127301  0
bnx2                  155101  0
bonding                80060  0
ext3                  146129  4
jbd                    76657  1 ext3
dm_mod                 84137  39 dm_multipath
qla2400               239809  0
qla2xxx               203169  85 qla2400
scsi_transport_fc      19265  1 qla2xxx
cciss                  83385  6
sd_mod                 26561  42
scsi_mod              152593  5 sg,qla2xxx,scsi_transport_fc,cciss,sd_mod


(6) 检查操作系统中运行的时候各个设备IO是否已经启用了irqbalance(其应用就
是设备负载均衡调度)?这个命令可以看到
# cat /proc/interrupts
输出结果类似下面的信息:
          CPU0       CPU1       CPU2       CPU3      
  0:  441733344  441704798  441804679  441725019    IO-APIC-edge  timer
  1:          0          1          2          0    IO-APIC-edge  i8042
  8:          1          0          1          1    IO-APIC-edge  rtc
  9:          0          0          0          0   IO-APIC-level  acpi
12:          1          1          2          0    IO-APIC-edge  i8042
14:    3962749    3990999    3891110    3970770    IO-APIC-edge  ide0
98:          0          0          0          0   IO-APIC-level  uhci_hcd:usb4
106:         22         23         26         27   IO-APIC-level  uhci_hcd:usb5
130:    7786510          0          0          0       PCI-MSI-X  cciss0
146:    6652580          0          0          0         PCI-MSI  eth0
154:    1257030          0          0          0         PCI-MSI  eth1
169:          0          0          2          0   IO-APIC-level  uhci_hcd:usb1, ehci_hcd:usb6
177:          0          0          0          0   IO-APIC-level  uhci_hcd:usb2
185:         13         10         10         15   IO-APIC-level  uhci_hcd:usb3
NMI:          0          0          0          0
LOC: 1766973093 1766973092 1766973170 1766973169
从上面的输出内容可以看出,网卡1(eth0)和网卡2(eth1)的IO并没有工作在负载均衡调度
模式下面,所有的数据传输都加到CPU的了第一个核里面去了,而其它核则处于空闲状态(显然
这是一种系统资源的浪费形象)。当然了,并不是所有的硬件设备都完全支持irqbalance。不过
我们可以通过修改启动参数尝试让硬件设备都工作在irqbalance模式下面,从而提高系统资源的
利用效率,降低由于系统资源使用不充分造成系统响应缓慢,某些资源负载过高而某些资源
却闲着“没事干”的情况发生。

           CPU0       CPU1       CPU2       CPU3       CPU4       CPU5       CPU6       CPU7
  0:   16311190   18580896   18580973   18580388   18580029   18570996   18571034   18571168    IO-APIC-edge  timer
  1:          1          1          1          1          2          1          2          0    IO-APIC-edge  i8042
  8:         60         51         65         56         71         63         64         58    IO-APIC-edge  rtc
  9:          0          0          0          0          0          0          0          0   IO-APIC-level  acpi
74:       6267      58955     940992     489883     350848     247755     466400     162974       PCI-MSI-X  cciss0
90:   54200856          0          0          0          0          0          0          0         PCI-MSI  eth0
98:     208908          0          0          0          0          0          0          0         PCI-MSI  eth1
169:          0          0          0          0          0          0          0          0   IO-APIC-level  uhci_hcd, ehci_hcd
177:          0          0          0          0          0          0          0          0   IO-APIC-level  uhci_hcd
185:          0          0          0          0          0          0          0          0   IO-APIC-level  uhci_hcd
193:          0          0          0          0          0          0          0          0   IO-APIC-level  uhci_hcd
201:        102      95484     422491     596213     550760     334029     379426     356253   IO-APIC-level  qla2400
209:        195      84032     558889     575326     410641     361174     424796     345578   IO-APIC-level  qla2400
225:        467     865889     110729     340509      45602     681804     460924     416985   IO-APIC-level  ipmi_si
233:         12          8         12         13         11          7         14          4   IO-APIC-level  uhci_hcd
NMI:  146345828  146345749  146345766  146345752  146345782  146345742  146345770  146345750
LOC:  146332694  146340815  146333679  146340716  146338828  146338238  146338749  146337007
ERR:          0
MIS:          0


    如果楼主方便的话可以通过邮件联系我们,我们的邮箱是:andy_xiaocong@126.com

      顺便补充一下:我们不是Redhat技术团队,但是我们对楼主反映的情况很感兴趣。

论坛徽章:
0
19 [报告]
发表于 2010-03-04 08:47 |只看该作者
本帖最后由 hlzhan 于 2010-03-04 08:49 编辑

上个的服务器是数据库服务器的备机,基本没东西跑。

找不到ntsysv命令。

看来我们的网络io也没有调好,做不到loadbalance,能不能介绍一下应该怎么做,谢了

论坛徽章:
0
20 [报告]
发表于 2010-03-04 09:53 |只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP