免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
123下一页
最近访问板块 发新帖
查看: 7234 | 回复: 21
打印 上一主题 下一主题

系统运行了半年时间,最近系统挂了几次,请高手帮忙分析 [复制链接]

论坛徽章:
0
跳转到指定楼层
[收藏(0)] [报告]
发表于 2009-01-29 17:41 |只看该作者 |正序浏览
10可用积分
部分系统信息如下:
[root@e6900a etc]# cat redhat-release
Red Hat Enterprise Linux AS release 4 (Nahant Update 4)
[root@e6900a etc]# cat fstab
# This file is edited by fstab-sync - see 'man fstab-sync' for details
LABEL=/                 /                       ext3    defaults        1 1
LABEL=/boot             /boot                   ext3    defaults        1 2
none                    /dev/pts                devpts  gid=5,mode=620  0 0
none                    /dev/shm                tmpfs   defaults        0 0
none                    /proc                   proc    defaults        0 0
none                    /sys                    sysfs   defaults        0 0
LABEL=SWAP-sda2         swap                    swap    defaults        0 0
LABEL=SWAP-sda3         swap                    swap    defaults        0 0
/dev/hda                /media/cdrecorder       auto    pamconsole,exec,noauto,managed 0 0
[root@e6900a etc]# df -h
Filesystem            容量  已用 可用 已用% 挂载点
/dev/sda5             1.6T  395G  1.1T  27% /
/dev/sda1              99M   12M   83M  13% /boot
none                  8.0G     0  8.0G   0% /dev/shm

top - 17:20:26 up 8 days,  5:08,  1 user,  load average: 0.14, 0.12, 0.09
Tasks: 690 total,   1 running, 689 sleeping,   0 stopped,   0 zombie
Cpu0  :  0.3% us,  0.0% sy,  0.0% ni, 99.7% id,  0.0% wa,  0.0% hi,  0.0% si
Cpu1  :  0.3% us,  0.3% sy,  0.0% ni, 96.0% id,  3.3% wa,  0.0% hi,  0.0% si
Cpu2  :  0.0% us,  0.0% sy,  0.0% ni, 100.0% id,  0.0% wa,  0.0% hi,  0.0% si
Cpu3  :  0.0% us,  0.0% sy,  0.0% ni, 100.0% id,  0.0% wa,  0.0% hi,  0.0% si
Cpu4  :  0.0% us,  0.0% sy,  0.0% ni, 100.0% id,  0.0% wa,  0.0% hi,  0.0% si
Cpu5  :  0.0% us,  0.0% sy,  0.0% ni, 100.0% id,  0.0% wa,  0.0% hi,  0.0% si
Cpu6  :  0.0% us,  0.0% sy,  0.0% ni, 100.0% id,  0.0% wa,  0.0% hi,  0.0% si
Cpu7  :  0.0% us,  0.0% sy,  0.0% ni, 100.0% id,  0.0% wa,  0.0% hi,  0.0% si
Mem:  16621728k total, 11666284k used,  4955444k free,    64412k buffers
Swap:  4096552k total,   875136k used,  3221416k free,  7677404k cached

  PID USER      PR  NI  VIRT  RES  SHR S %CPU %MEM    TIME+  COMMAND
7737 root      16   0  3936 1324  760 R    1  0.0   0:00.10 top
11471 root      17   0  977m 407m  75m S    1  2.5  19:59.27 java
4513 oracle    16   0  795m  99m  97m S    0  0.6   0:12.90 oracle
    1 root      16   0  1988  556  472 S    0  0.0   0:16.66 init
    2 root      RT   0     0    0    0 S    0  0.0   0:00.09 migration/0
    3 root      34  19     0    0    0 S    0  0.0   0:00.01 ksoftirqd/0
    4 root      RT   0     0    0    0 S    0  0.0   0:00.10 migration/1
    5 root      34  19     0    0    0 S    0  0.0   0:00.41 ksoftirqd/1
    6 root      RT   0     0    0    0 S    0  0.0   0:00.08 migration/2
    7 root      34  19     0    0    0 S    0  0.0   0:00.00 ksoftirqd/2
    8 root      RT   0     0    0    0 S    0  0.0   0:00.07 migration/3
    9 root      34  19     0    0    0 S    0  0.0   0:00.00 ksoftirqd/3
   10 root      RT   0     0    0    0 S    0  0.0   0:00.07 migration/4
   11 root      34  19     0    0    0 S    0  0.0   0:00.00 ksoftirqd/4
   12 root      RT   0     0    0    0 S    0  0.0   0:00.04 migration/5
   13 root      34  19     0    0    0 S    0  0.0   0:00.00 ksoftirqd/5
   14 root      RT   0     0    0    0 S    0  0.0   0:00.03 migration/6
   15 root      34  19     0    0    0 S    0  0.0   0:00.00 ksoftirqd/6
   16 root      RT   0     0    0    0 S    0  0.0   0:00.05 migration/7
   17 root      34  19     0    0    0 S    0  0.0   0:00.00 ksoftirqd/7
   18 root       5 -10     0    0    0 S    0  0.0   0:00.03 events/0
   19 root       5 -10     0    0    0 S    0  0.0   0:00.01 events/1
   20 root       6 -10     0    0    0 S    0  0.0   0:00.05 events/2
   21 root       5 -10     0    0    0 S    0  0.0   0:00.02 events/3
   22 root       5 -10     0    0    0 S    0  0.0   0:00.02 events/4
   23 root       5 -10     0    0    0 S    0  0.0   0:00.01 events/5
   24 root       5 -10     0    0    0 S    0  0.0   0:00.03 events/6
   25 root       5 -10     0    0    0 S    0  0.0   0:00.02 events/7
   26 root       5 -10     0    0    0 S    0  0.0   0:00.00 khelper
   27 root      14 -10     0    0    0 S    0  0.0   0:00.00 kacpid

运行了大概半年时间,最近系统挂了几次,间隔时间一个月左右,请高手帮忙分析。
系统运行有5个Oracle实例,还有30来个其他服务。
宕机后,然后重启,查看日志,宕机前后没有任何异常记录。
下面的红字部分重启服务器了。

挂:停止相应,像Windows蓝屏一样,只是屏幕没有任何显示。【这里是抓图】

Jan 20 23:57:28 www vsftpd(pam_unix)[1697]: check pass; user unknown
Jan 20 23:57:28 www vsftpd(pam_unix)[1697]: authentication failure; logname= uid=0 euid=0 tty= ruser= rhost=208.91.131.2
Jan 20 23:57:31 www vsftpd(pam_unix)[1697]: check pass; user unknown
Jan 20 23:57:31 www vsftpd(pam_unix)[1697]: authentication failure; logname= uid=0 euid=0 tty= ruser= rhost=208.91.131.2
Jan 20 23:57:34 www vsftpd(pam_unix)[1697]: check pass; user unknown
Jan 20 23:57:34 www vsftpd(pam_unix)[1697]: authentication failure; logname= uid=0 euid=0 tty= ruser= rhost=208.91.131.2
Jan 20 23:57:37 www vsftpd(pam_unix)[1697]: check pass; user unknown
Jan 20 23:57:37 www vsftpd(pam_unix)[1697]: authentication failure; logname= uid=0 euid=0 tty= ruser= rhost=208.91.131.2
Jan 20 23:57:40 www vsftpd(pam_unix)[1697]: check pass; user unknown
Jan 20 23:57:40 www vsftpd(pam_unix)[1697]: authentication failure; logname= uid=0 euid=0 tty= ruser= rhost=208.91.131.2
Jan 20 23:57:43 www vsftpd(pam_unix)[1697]: check pass; user unknown
Jan 21 12:48:29 www syslogd 1.4.1: restart.

Jan 21 12:48:29 www syslog: syslogd startup succeeded
Jan 21 12:48:29 www kernel: klogd 1.4.1, log source = /proc/kmsg started.
Jan 21 12:48:29 www kernel: Linux version 2.6.9-42.ELsmp (bhcompile@hs20-bc1-1.build.redhat.com) (gcc version 3.4.6 20060404 (
Red Hat 3.4.6-2)) #1 SMP Wed Jul 12 23:27:17 EDT 2006
Jan 21 12:48:29 www kernel: BIOS-provided physical RAM map:
Jan 21 12:48:29 www kernel: ********************************************************
Jan 21 12:48:29 www kernel: * This system has more than 16 Gigabyte of memory.     *
Jan 21 12:48:29 www kernel: * It is recommended that you read the release notes    *
Jan 21 12:48:29 www kernel: * that accompany your copy of Red Hat Enterprise Linux *
Jan 21 12:48:29 www kernel: * about the recommended kernel for such configurations *
Jan 21 12:48:29 www kernel: ********************************************************
Jan 21 12:48:29 www kernel:  BIOS-e820: 0000000000000000 - 000000000009ac00 (usable)
Jan 21 12:48:29 www kernel:  BIOS-e820: 000000000009ac00 - 0000000000100000 (reserved)
Jan 21 12:48:29 www kernel:  BIOS-e820: 0000000000100000 - 000000009e25e000 (usable)
Jan 21 12:48:29 www syslog: klogd startup succeeded
Jan 21 12:48:29 www kernel:  BIOS-e820: 000000009e25e000 - 000000009e320000 (ACPI NVS)
Jan 21 12:48:29 www kernel:  BIOS-e820: 000000009e320000 - 000000009fa32000 (usable)
Jan 21 12:48:29 www kernel:  BIOS-e820: 000000009fa32000 - 000000009fa9a000 (reserved)
Jan 21 12:48:29 www kernel:  BIOS-e820: 000000009fa9a000 - 000000009faac000 (usable)
Jan 21 12:48:29 www kernel:  BIOS-e820: 000000009faac000 - 000000009fb1a000 (ACPI NVS)
Jan 21 12:48:29 www kernel:  BIOS-e820: 000000009fb1a000 - 000000009fb27000 (usable)
Jan 21 12:48:29 www kernel:  BIOS-e820: 000000009fb27000 - 000000009fb3a000 (ACPI data)
Jan 21 12:48:29 www kernel:  BIOS-e820: 000000009fb3a000 - 000000009fc00000 (usable)
Jan 21 12:48:29 www kernel:  BIOS-e820: 000000009fc00000 - 00000000b0000000 (reserved)

[ 本帖最后由 zhumao 于 2009-2-2 09:27 编辑 ]

messages.1.tar.gz

306.7 KB, 下载次数: 41

论坛徽章:
0
21 [报告]
发表于 2009-02-08 19:11 |只看该作者

回复 #1 zhumao 的帖子

厂家更换主板,刷新BIOS,然后告诉我继续等,看是否能再现原来的问题。
换主板的时候感觉内存烫手。。。

论坛徽章:
0
20 [报告]
发表于 2009-02-03 11:37 |只看该作者
嗯,楼主还是遇到了CPU问题,呵呵

论坛徽章:
0
19 [报告]
发表于 2009-02-02 09:33 |只看该作者

回复 #1 zhumao 的帖子

http://linux.chinaunix.net/bbs/viewthread.php?tid=686336
TMD,RPWT!
背到家了。。。

论坛徽章:
0
18 [报告]
发表于 2009-02-01 21:06 |只看该作者
原帖由 izzy_sec 于 2009-1-30 18:08 发表
看了一下日志,感觉没有太大的问题,如果可以就用PAM限制一下外部猜解你的ssh和vsftpd的密码,或者用iptables也行。
另外不知道
Jan 21 12:48:31 www kernel: Adding 2048276k swap on /dev/sda2.  Priority: ...



Jan 21 12:48:33 www smartd[3624]: Configuration file /etc/smartd.conf parsed.
Jan 21 12:12:33 www fsck: ^A/: |                                                                "
Jan 21 12:48:33 www smartd[3624]: Device: /dev/sda, opened
Jan 21 12:12:33 www fsck: ^B
Jan 21 12:48:33 www smartd[3624]: Device: /dev/sda, Bad IEC (SMART) mode page, err=-5, skip device
Jan 21 12:12:34 www fsck: ^A/: |                                                                |
Jan 21 12:48:33 www smartd[3624]: Unable to register SCSI device /dev/sda at line 30 of file /etc/smartd.conf
Jan 21 12:12:34 www fsck: ^B
Jan 21 12:48:33 www smartd[3624]: Unable to register device /dev/sda (no Directive -d removable). Exiting.
Jan 21 12:12:34 www fsck: ^B
Jan 21 12:48:33 www smartd: smartd startup failed
上面这段信息是我做fsck时产生的,应该不算严重。

论坛徽章:
0
17 [报告]
发表于 2009-02-01 21:01 |只看该作者
原帖由 ckhitler 于 2009-2-1 13:50 发表
应该和VSFTP没有关系,最后一次FTP的试探LOGIN,和RESET服务器相隔了一天.

我建议你在history中加入日期,
例如:
HISTTIMEFORMAT="%Y%m%d-%H%M%S: "
或者是在syslogd的相关脚本中加入一些记录当前系统信息的 ...


系统挂掉都是在不知情的情况下发生的。也就是说正常使用时未出现宕机。

论坛徽章:
0
16 [报告]
发表于 2009-02-01 20:59 |只看该作者

回复 #14 izzy_sec 的帖子

我服务器上没有SCSI硬盘。

论坛徽章:
0
15 [报告]
发表于 2009-02-01 13:50 |只看该作者
应该和VSFTP没有关系,最后一次FTP的试探LOGIN,和RESET服务器相隔了一天.

我建议你在history中加入日期,
例如:
HISTTIMEFORMAT="%Y%m%d-%H%M%S: "
或者是在syslogd的相关脚本中加入一些记录当前系统信息的输出重定向命令,找到问题的原因.



如果一个硬件错误是会留下信息的.
当然这一切都是你足够相信你的MESSAGE没有被改过.

论坛徽章:
0
14 [报告]
发表于 2009-02-01 11:52 |只看该作者
友情帮顶

论坛徽章:
0
13 [报告]
发表于 2009-01-30 18:08 |只看该作者
看了一下日志,感觉没有太大的问题,如果可以就用PAM限制一下外部猜解你的ssh和vsftpd的密码,或者用iptables也行。
另外不知道
Jan 21 12:48:31 www kernel: Adding 2048276k swap on /dev/sda2.  Priority:-1 extents:1
Jan 21 12:48:31 www kernel: Adding 2048276k swap on /dev/sda3.  Priority:-2 extents:1
这两句是不是正常?我也不确定。
如果重启时间很有规律的话 看看计划任务有没有异常。

-----------------------
还有一个问题比较严重,需要注意一下
Jan 21 12:48:33 www smartd[3624]: Device: /dev/sda, Bad IEC (SMART) mode page, err=-5, skip device
Jan 21 12:48:33 www smartd[3624]: Unable to register SCSI device /dev/sda at line 30 of file /etc/smartd.conf
Jan 21 12:12:34 www fsck: 
Jan 21 12:48:33 www smartd[3624]: Unable to register device /dev/sda (no Directive -d removable). Exiting.
Jan 21 12:12:34 www fsck: 
Jan 21 12:48:33 www smartd: smartd startup failed
大概是提示smart不支持SCSI设备,具体在网上搜一下关于smartd的文章吧,这里就不转载了。

[ 本帖最后由 izzy_sec 于 2009-1-30 19:58 编辑 ]

论坛徽章:
3
戌狗
日期:2014-09-10 17:07:162015年辞旧岁徽章
日期:2015-03-03 16:54:15wusuopu
日期:2016-06-17 17:43:45
12 [报告]
发表于 2009-01-30 17:32 |只看该作者
原帖由 zhumao 于 2009-1-30 11:32 发表
附件里面增加日志。

下载日志看看。帮顶
  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP