免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 21486 | 回复: 72
打印 上一主题 下一主题

是什么让跑在IBM 3650服务器上的RHEL4 U4 宕机? [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2008-07-27 12:11 |只看该作者 |倒序浏览
我的应用跑在新买的IBM 3650 服务器上,装的是RHEL 4 U4的系统,一个月内, 交易跑着跑着linux 有4次自动重启记录了, 这套应用在RHEL 3 系统上跑从来没有自动重启过。 真是郁闷啊。 四次重启,我有三次在现场, 第一次是我运行了一个分析当天交易日志文件的shell 脚本, 那个日志比较大,将近100M, 当时交易也在读写这个日志。另外一次7月25日,我刚用vim打开当天实时日志文件(才40M大) 红帽就自动重启了, 真是晕啊。/var/log/messages 中没有任何异常记录, 重启时刻日志如下:
Jul 25 16:08:15 abc su(pam_unix)[6402]: session opened for user lwebs by root(uid=0)
Jul 25 16:17:48 abc syslogd 1.4.1: restart.
Jul 25 16:17:48 abc  syslog: syslogd startup succeeded
      最后一次宕机就是刚才,我正在运行那个分析交易日志的shell 脚本, 不过有过前几次的宕机经历, 我把那个脚本改成禁止分析当天
的实时交易日志, 只能分析以前的交易日志,之前分析用这个脚本分析之前的交易日志没有异常, 但这次这个脚本运行了一会,具体时间没有统计出,但是至少有5、6分钟,系统就宕机重启了,因为一直使用top 监控系统状态, 这里有系统宕机3秒钟之内的top输出截图。 另外
为了跟踪宕机原因, 我还有5分钟纪录一次free 和 ps 的输出,从这两个命令的输出结果来看, 我的应用是没有内存泄露的, 唯一一点异常就是top 输出居然有一个zombie进程,我现在也很疑惑这个僵尸进程怎么产生的,但更疑惑是什么让系统宕机的?

     难道我的应用程序能把linux 搞死掉?还是硬件有问题哦? 还是那个shell 脚本?

   生产系统总这么莫名其妙的宕机,让我很郁闷也很

top_shutdown.JPG (168.32 KB, 下载次数: 24)

top_shutdown.JPG

论坛徽章:
11
金牛座
日期:2015-03-19 16:56:22数据库技术版块每日发帖之星
日期:2016-08-02 06:20:00数据库技术版块每日发帖之星
日期:2016-04-24 06:20:00数据库技术版块每日发帖之星
日期:2016-04-13 06:20:00IT运维版块每日发帖之星
日期:2016-04-13 06:20:00数据库技术版块每日发帖之星
日期:2016-02-03 06:20:00数据库技术版块每日发帖之星
日期:2015-08-06 06:20:00季节之章:春
日期:2015-03-27 15:54:57羊年新春福章
日期:2015-03-27 15:54:37戌狗
日期:2015-03-19 16:56:41数据库技术版块每日发帖之星
日期:2016-08-18 06:20:00
2 [报告]
发表于 2008-07-27 12:20 |只看该作者
没碰到过。

论坛徽章:
0
3 [报告]
发表于 2008-07-27 12:24 |只看该作者
谢谢关注。我以前也没有遇到过, 以前这套应用系统跑在IBM 346 上,不过装的RHEL 3,很稳定的,从来没有发生过这样的情况, 当然这次应用系统是过改动的,增加了一些功能。

论坛徽章:
1
寅虎
日期:2015-01-23 02:35:47
4 [报告]
发表于 2008-07-27 12:24 |只看该作者
想想重启前有什么规律的东西,几百m的log不算大

论坛徽章:
0
5 [报告]
发表于 2008-07-27 12:28 |只看该作者
是什么让跑在IBM 3650服务器上的RHEL4 U4 宕机?
答案是管理员
“那个日志比较大,将近100M,”呃,一般用G作为单位的才算比较大的吧。
僵尸进程很正常,一般init会自己回收的,如果某个进程长时间处于Z状态而没有被init回收,那就麻烦了。基本只能重启才能搞定,不过一般不用管他,因为只是占用一个pid而已。
我也有过类似的经历,那个郁闷啊,明明没有可能当机的,他就是当机了,负载高达400+,还一天四次,我晕死。不过现在运行了好几个月了,都没有再出现问题,我也不是很清楚为什么。
LZ可以吧top -bn1的结果也保存一下。
补充一下,还有netstat,当机后查看/var/log/message文件查看时间,因为二十分钟会产生一个信号,信号中断的时候就是当机的时间,然后检查其他日志,看看这段时间或者稍早的时间内是否有异常。很多时候服务器就像一个孩子,讲道理是没用的,看经验。

[ 本帖最后由 walkerxk 于 2008-7-27 12:48 编辑 ]

论坛徽章:
0
6 [报告]
发表于 2008-07-27 12:42 |只看该作者
楼主是金融系统工作的,应该是在银行的,

论坛徽章:
0
7 [报告]
发表于 2008-07-27 12:45 |只看该作者
原帖由 qzdmail 于 2008-7-27 12:42 发表
楼主是金融系统工作的,应该是在银行的,

我猜是证券公司

论坛徽章:
11
金牛座
日期:2015-03-19 16:56:22数据库技术版块每日发帖之星
日期:2016-08-02 06:20:00数据库技术版块每日发帖之星
日期:2016-04-24 06:20:00数据库技术版块每日发帖之星
日期:2016-04-13 06:20:00IT运维版块每日发帖之星
日期:2016-04-13 06:20:00数据库技术版块每日发帖之星
日期:2016-02-03 06:20:00数据库技术版块每日发帖之星
日期:2015-08-06 06:20:00季节之章:春
日期:2015-03-27 15:54:57羊年新春福章
日期:2015-03-27 15:54:37戌狗
日期:2015-03-19 16:56:41数据库技术版块每日发帖之星
日期:2016-08-18 06:20:00
8 [报告]
发表于 2008-07-27 13:05 |只看该作者
我在想,为什么会down掉?~??原因??难道ibm3650跟rhel4u4不兼容?~?

论坛徽章:
0
9 [报告]
发表于 2008-07-27 13:06 |只看该作者
原帖由 walkerxk 于 2008-7-27 12:45 发表

我猜是证券公司



两位太抬爱了, 就这样的问题都搞不定,哪有能力去那样关键交易场所呢

论坛徽章:
11
金牛座
日期:2015-03-19 16:56:22数据库技术版块每日发帖之星
日期:2016-08-02 06:20:00数据库技术版块每日发帖之星
日期:2016-04-24 06:20:00数据库技术版块每日发帖之星
日期:2016-04-13 06:20:00IT运维版块每日发帖之星
日期:2016-04-13 06:20:00数据库技术版块每日发帖之星
日期:2016-02-03 06:20:00数据库技术版块每日发帖之星
日期:2015-08-06 06:20:00季节之章:春
日期:2015-03-27 15:54:57羊年新春福章
日期:2015-03-27 15:54:37戌狗
日期:2015-03-19 16:56:41数据库技术版块每日发帖之星
日期:2016-08-18 06:20:00
10 [报告]
发表于 2008-07-27 13:12 |只看该作者
还是推荐用着原来的rhel3吧~~用着稳定的系统比较好~~
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP