免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
123下一页
最近访问板块 发新帖
查看: 7443 | 回复: 20
打印 上一主题 下一主题

半年内关键生产系统Redhat cluster crashs 4次!:em52: [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2010-02-19 08:50 |只看该作者 |倒序浏览
5节点的Redhat cluster, 有厂家支持,但是没有提供任何建议和服务。另外一个GFS问题让我们一个应用不停的crash 2个星期,起因是一个目录下放了大概12万文件,拖死了整个GFS filesystem.

只能说,Redhat Linux真没到能够成熟使用的时候.

论坛徽章:
0
2 [报告]
发表于 2010-02-19 11:31 |只看该作者
我看未必。用RH cluster的人很多。如果愿意讨论,那需要提供一些具体的依据。否则下这样的结论为时过早。

论坛徽章:
0
3 [报告]
发表于 2010-02-20 17:01 |只看该作者
GFS filesystem simply is not designed for dealing with huge number of files.  The performance suffers severity from obtaining, releasing and maintaining locks on all the participating nodes.

论坛徽章:
0
4 [报告]
发表于 2010-02-22 12:16 |只看该作者
本帖最后由 hlzhan 于 2010-02-22 12:19 编辑

Thanks for ls 2.

Hi Neosseel, as your experiece or knowledge, how many files the GFS can supports in single folder & whole filesystem?

I understand the GFS is not desinged for that huge files purpose . But there was a recent fault happened just last week, that time the filesystem  - it's whole filesystem, not particular folder, just contained over 50 thousands files and crashed our applications again. its really annoying.

Another thing is, sometime if not all the nodes booting up at same, the latest node may pending and stuck on mounting GFS filesystem, it caused by a GFS bug. You have to reboot all nodes again. Heard it's will be fixed in furture.

论坛徽章:
0
5 [报告]
发表于 2010-02-22 13:15 |只看该作者
本帖最后由 hlzhan 于 2010-02-22 13:17 编辑
我看未必。用RH cluster的人很多。如果愿意讨论,那需要提供一些具体的依据。否则下这样的结论为时过早。
jerrywjl 发表于 2010-02-19 11:31



   

其实也不算复杂,一套5个节点,2个是数据库failover,3个是应用failover.

目前碰到过的问题:
1 GFS bug caused by huge files
2. GFS bug, 会挂起系统在系统重起
3 CLUSTER bug, ,系统说会丢heartbeat,然后踢某个节点出去,需要reboot才能修复

论坛徽章:
0
6 [报告]
发表于 2010-02-22 18:28 |只看该作者
LS的既然如此,除了基础架构还要提供具体的东西。先给我收集一台机器的sosreport过来。方法是执行sosreport命令。收集在/tmp目录下产生的bz2包。

论坛徽章:
0
7 [报告]
发表于 2010-02-23 09:20 |只看该作者
回复 5# hlzhan


    我也遇到个 Cluster 自动reboot的情况,你的解决方法是什么呢...

论坛徽章:
0
8 [报告]
发表于 2010-02-24 14:42 |只看该作者
LS的既然如此,除了基础架构还要提供具体的东西。先给我收集一台机器的sosreport过来。方法是执行sosreport ...
jerrywjl 发表于 2010-02-22 18:28



   
多谢了。但是有点难,给公司发现了要吃不了兜着走:我们每年都要学习考试“信息安全”:(

论坛徽章:
0
9 [报告]
发表于 2010-02-24 14:43 |只看该作者
回复  hlzhan


    我也遇到个 Cluster 自动reboot的情况,你的解决方法是什么呢...
liujixuan 发表于 2010-02-23 09:20



目前厂家的解决方案是:等下一个release升级

论坛徽章:
0
10 [报告]
发表于 2010-02-24 17:37 |只看该作者
除非有准确的证据证明或者能准确重现故障现象,否则无法认定是bug。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP