免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
123下一页
最近访问板块 发新帖
查看: 12122 | 回复: 22
打印 上一主题 下一主题

[Web] 服务器经常挂掉,80,21等端口打开,但是服务无法访问 [复制链接]

论坛徽章:
0
跳转到指定楼层
[收藏(0)] [报告]
发表于 2007-04-03 10:13 |只看该作者 |正序浏览
30可用积分
去机房看过,插上键盘以后按NUMLOCK键没有反映,所以估计是系统资源被大量消耗的假死机,系统是ubuntu,不过好像有时间段的,有几天不正常过几天就好了,然后一个月内就没有问题,差不多过一个月又是这样,以前没有开虚拟主机的时候没有问题,所以怀疑是apache的问题:
下面是top时按照SWAP排序:可以看到apache明显比其他的服务器高很多,而且这是我优化以后的结果,前几天没有优化的时候是每个120m左右。现在的SWAP算正常的,不稳定的时候used大概是free的两倍。
Tasks: 448 total,   1 running, 447 sleeping,   0 stopped,   0 zombie
Cpu(s):  9.5% us,  1.3% sy,  1.1% ni, 58.6% id, 29.1% wa,  0.1% hi,  0.2% si
Mem:   2052244k total,  2035384k used,    16860k free,     6916k buffers
Swap:  1951856k total,   938896k used,  1012960k free,   221304k cached

  PID USER      PR  NI  VIRT  RES  SHR S %CPU %MEM    TIME+  SWAP COMMAND
6816 mysql     16   0  575m  45m 2220 S  0.0  2.3  36:34.84 529m mysqld
10641 panjy     34  19  440m 289m 3468 S 35.7 14.4 158:56.75 151m python
12431 www-data  16   0  127m  12m 6204 S  0.0  0.6   0:02.71 114m apache2
12893 www-data  16   0  114m 7708 6088 S  0.0  0.4   0:01.21 106m apache2
24531 www-data  16   0  111m 5144 4996 S  0.3  0.3   0:08.32 106m apache2
12742 www-data  16   0  115m 8988 6164 S  0.0  0.4   0:01.81 106m apache2
12410 www-data  16   0  114m 7932 6172 S  0.0  0.4   0:00.95 106m apache2
12461 www-data  16   0  115m 9396 6048 S  0.0  0.5   0:01.10 106m apache2
12912 www-data  15   0  113m 7792 6048 S  0.0  0.4   0:01.74 106m apache2
14999 www-data  15   0  113m 7768 5960 S  0.0  0.4   0:00.42 106m apache2
12229 www-data  15   0  114m 7960 6200 S  0.0  0.4   0:01.01 106m apache2
14846 www-data  16   0  113m 7796 5960 S  0.0  0.4   0:00.44 106m apache2
12589 www-data  17   0  115m 9988 6144 D  0.7  0.5   0:02.28 106m apache2
13453 www-data  15   0  113m 7904 6088 S  0.0  0.4   0:00.55 106m apache2
14906 www-data  16   0  113m 7924 5964 S  0.0  0.4   0:00.62 106m apache2
14123 www-data  16   0  113m 7896 5996 S  0.0  0.4   0:02.08 106m apache2
13447 www-data  16   0  113m 7936 6168 S  0.0  0.4   0:01.18 106m apache2
14120 www-data  16   0  113m 7912 6044 S  0.0  0.4   0:00.42 106m apache2
13338 www-data  16   0  113m 8088 5996 S  0.0  0.4   0:00.46 106m apache2
12942 www-data  16   0  115m   9m 6120 S  0.0  0.5   0:01.61 105m apache2
12317 www-data  16   0  116m  11m 6160 S  0.0  0.6   0:00.97 105m apache2
12412 www-data  16   0  115m  10m 6256 S  0.0  0.5   0:00.96 104m apache2
13007 www-data  16   0  116m  11m 6144 S  0.0  0.6   0:02.53 104m apache2
12296 www-data  15   0  114m 9700 6136 S  0.0  0.5   0:00.51 104m apache2
13908 www-data  16   0  113m 9.8m 6068 S  0.0  0.5   0:00.34 104m apache2
12253 www-data  16   0  115m  11m 6164 S  0.0  0.6   0:02.72 103m apache2
14753 www-data  16   0  113m  10m 5968 S  0.0  0.5   0:00.43 103m apache2
12996 www-data  15   0  113m  10m 6264 S  0.0  0.5   0:01.37 103m apache2
12833 www-data  15   0  115m  12m 6232 S  0.0  0.6   0:02.03 103m apache2

这里是mrtg的信息:http://test.lupaworld.cn/mrtg/

还有,有谁知道怎么查看所有进程的SWAP情况么?如果直接用TOP,只能看到一小部分,如果用batch模式,默认没有SWAP那栏。
dmesg信息:前面的都是系统启动的内容,我想没有什么用,就不发了,这个是后面的部分。
[ 5011.093270] ip_tables: (C) 2000-2002 Netfilter core team
[104298.196088] TCP: Treason uncloaked! Peer 202.108.130.138:64327/80 shrinks window 1989837571:1989845176. Rep
aired.
[197651.374072] saslauthd[7071]: segfault at ffffffffab5f9180 rip 00002aaaabcb7d80 rsp 00007fffff9ee248 error 4
[197662.745798] saslauthd[7070]: segfault at ffffffffab5f9180 rip 00002aaaabcb7d80 rsp 00007fffff9ee248 error 4
[206465.576897] KERNEL: assertion (cnt <= tp->packets_out) failed at net/ipv4/tcp_input.c (1542)
[309438.338013] saslauthd[7068]: segfault at ffffffffab5f9180 rip 00002aaaabcb7d80 rsp 00007fffff9ee248 error 4
[309439.123949] saslauthd[7073]: segfault at ffffffffab5f9180 rip 00002aaaabcb7d80 rsp 00007fffff9ee248 error 4
[309440.231172] saslauthd[7072]: segfault at ffffffffab5f9180 rip 00002aaaabcb7d80 rsp 00007fffff9ee248 error 4
[320102.663685] ibm_acpi: ec object not found
[352573.096712] KERNEL: assertion (cnt <= tp->packets_out) failed at net/ipv4/tcp_input.c (1542)
[352573.104295] KERNEL: assertion (cnt <= tp->packets_out) failed at net/ipv4/tcp_input.c (1542)
[416142.323578] Losing some ticks... checking if CPU frequency changed.
Apache版本:
2.0.54
编译的模块:
Compiled in modules:
  core.c
  mod_access.c
  mod_auth.c
  mod_log_config.c
  mod_logio.c
  mod_env.c
  mod_setenvif.c
  prefork.c
  http_core.c
  mod_mime.c
  mod_status.c
  mod_autoindex.c
  mod_negotiation.c
  mod_dir.c
  mod_alias.c
  mod_so.c
启用以下模块:
bw.load(必需)
cgi.load
dav_fs.load
dav.load
dav_svn.load(必需)
fcgid.load
limitipconn.load(必需)
mod_python.load(必需)
perl.load(必需)
php4.load(必需)
proxy.load(必需)
rewrite.load(必需)
userdir.load
希望大家帮帮忙。

论坛徽章:
0
22 [报告]
发表于 2007-04-09 11:21 |只看该作者
原帖由 HonestQiao 于 2007-4-4 11:33 发表于 8楼  
cgi.load
fcgid.load
mod_python.load(必需)
perl.load(必需)
php4.load(必需)

你这个是干什么的服务器?
真是一个超级大整合,就差JSP了。


哈哈。lupaworld.com..
GOV的产物。。
俺差点就是这位老兄的同事了。
原来是个烂摊子,还好没去。。。。

论坛徽章:
0
21 [报告]
发表于 2007-04-09 11:13 |只看该作者
原帖由 飘雪心辰 于 2007-4-6 13:34 发表于 21楼  
======================
服务器的宕机时间如果大部分都是在晚上到第二天的凌晨,不是我危言耸听,对于服务器的安全你得做一下检查,有两个自动化的工具很好的chkrootkit,rkhunter,当然你也可能查不出任何问题 ...

宕机时间从早上十点到晚上七点,应该不是安全的问题,我也觉得是负载太大了。
/etc/default/sysstat文件改成true了。
我尝试下用计划任务+脚本在swap过高的时候重启apache,mysql和zope,不过最好还是在半夜的时候执行。我会把apache加载的模块精简一下,mysql和python占用的swap总量不是很大,主要是apache每个都很大,而且数量多,所以我想可能这个是造成系统的swap分区用完而假死的主要原因。
一百多个zombie这种情况非常罕见,一般也就是0-2,
root      5233  0.0  0.0      0     0 ?        D<   08:35   0:00 [reiserfs/1]
root     11973  0.2  0.0      0     0 ?        D    10:35   0:03 [pdflush]
这种情况也很少,我半个小时会记录一下top,netstat和ps,所以那个top只是偶然现象,可能是和我刚执行的命令有关,不过现在已经没有办法知道当时是执行什么命令了。
在机房看,硬盘的灯是正常的,没有变红色或者橙色,难道是分区格式问题?

论坛徽章:
0
20 [报告]
发表于 2007-04-06 13:33 |只看该作者
再加一条,希望今天不要打破那天重启四次的记录。
Apr  6 12:54:47 localhost -- MARK --

论坛徽章:
0
19 [报告]
发表于 2007-04-06 11:18 |只看该作者
1.是公网上的
2.以下是重启前最后一次的MARK
Mar 10 10:44:43 localhost -- MARK --
Mar 11 16:23:41 localhost -- MARK --
Mar 28 14:13:50 localhost -- MARK --
Apr  5 19:39:50 localhost -- MARK --
3.sysstat装了,但是/var/log/sysstat/目录下没有东西。
4.是reload还是restart,reload没有用的。
ps auxw太大了发不了,还是上传吧。
因为我都是top 然后退出后复制的,所以第一行没有贴,这个是刚才的状况:
top - 10:40:50 up  2:06,  2 users,  load average: 25.31, 7.94, 3.80
Tasks: 539 total,   1 running, 419 sleeping,   0 stopped, 119 zombie
Cpu(s):  3.8% us, 24.6% sy,  0.7% ni, 28.4% id, 42.0% wa,  0.2% hi,  0.2% si
Mem:   2052244k total,  1359824k used,   692420k free,     2852k buffers
Swap:  1951856k total,  1042836k used,   909020k free,    68464k cached

  PID USER      PR  NI  VIRT  RES  SHR S %CPU %MEM    TIME+  SWAP COMMAND
6961 mysql     17   0  429m  25m 1984 S  0.2  1.3   0:53.63 403m mysqld
10557 panjy     34  19  403m 242m 2904 S  3.1 12.1  20:33.32 160m python
9084 www-data  16   0  119m 5256 5104 S  0.0  0.3   0:01.62 113m apache2
11538 www-data  16   0  123m  13m 5852 S  0.0  0.7   0:00.68 110m apache2
7745 www-data  17   0  112m 5396 5244 S  0.0  0.3   0:05.80 106m apache2
11571 www-data  15   0  114m 7892 5820 S  0.0  0.4   0:00.46 106m apache2
11415 www-data  17   0  114m 7892 5824 S  0.0  0.4   0:00.28 106m apache2
11463 www-data  16   0  113m 7768 5824 S  0.0  0.4   0:00.72 106m apache2
11658 www-data  15   0  114m 7968 6088 S  0.0  0.4   0:01.25 106m apache2
11874 www-data  16   0  114m 7952 5864 S  0.0  0.4   0:00.44 106m apache2
11227 www-data  16   0  114m 8140 5880 S  0.0  0.4   0:00.57 106m apache2
11452 www-data  15   0  113m 7580 5876 S  1.0  0.4   0:02.08 105m apache2
11814 www-data  16   0  112m 7732 6052 S  0.0  0.4   0:00.88 105m apache2
11228 www-data  16   0  113m 7780 6036 S  0.0  0.4   0:01.98 105m apache2
11448 www-data  17   0  113m 7972 5864 S  0.0  0.4   0:00.44 105m apache2
11417 www-data  16   0  112m 7972 5836 S  0.0  0.4   0:01.46 105m apache2
11249 www-data  15   0  112m 7864 5992 S  0.0  0.4   0:02.13 105m apache2
11626 www-data  17   0  112m 7524 5752 S  0.0  0.4   0:00.21 105m apache2
11430 www-data  16   0  112m 7904 5864 S  0.0  0.4   0:00.42 104m apache2
11793 www-data  16   0  112m 7768 5804 S  0.0  0.4   0:00.55 104m apache2
11303 www-data  15   0  112m 7888 5844 S  0.0  0.4   0:00.98 104m apache2
11382 www-data  16   0  112m 7888 5968 S  0.0  0.4   0:00.80 104m apache2
11781 www-data  16   0  112m 7896 5844 S  0.0  0.4   0:00.34 104m apache2
11648 www-data  16   0  112m 7960 5852 S  0.0  0.4   0:00.13 104m apache2
8832 www-data  16   0  109m 5260 5108 S  0.0  0.3   0:03.19 104m apache2
11374 www-data  16   0  111m 7772 5796 S  0.0  0.4   0:00.35 104m apache2
11292 www-data  16   0  111m 7948 5848 S  0.0  0.4   0:00.71 104m apache2
11383 www-data  16   0  112m 8504 6024 S  0.0  0.4   0:00.53 104m apache2
11278 www-data  16   0  111m 8024 5896 S  0.0  0.4   0:00.34 103m apache2
11299 www-data  17   0  113m 9.8m 6464 D  0.5  0.5   0:00.61 103m apache2
11636 www-data  16   0  111m 7812 5912 S  0.0  0.4   0:00.52 103m apache2

psa.zip

6.48 KB, 下载次数: 43

论坛徽章:
0
18 [报告]
发表于 2007-04-06 10:19 |只看该作者
原帖由 walkerxk 于 2007-4-6 09:42 发表于 17楼  
但是是同步更新的啊,今天早上过来服务器又挂了,看样子时候又到了,这几天没有好日子过了。

========================
我上面指的是统计的时间不一样。一个瞬时,一个时间段。
你看看这台服务器上面的信息

  1. top - 12:07:14 up 29 days, 18:12,  1 user,  load average: 0.33, 0.37, 0.52
  2. Tasks: 175 total,   2 running, 173 sleeping,   0 stopped,   0 zombie
  3. Cpu(s): 27.1% us, 35.0% sy,  0.0% ni, 37.4% id,  0.5% wa,  0.0% hi,  0.0% si
  4. Mem:   1034620k total,   449592k used,   585028k free,    27596k buffers
  5. Swap:  3180848k total,   164764k used,  3016084k free,    96764k cached

  6.   PID USER      PR  NI  VIRT  RES  SHR S %CPU %MEM    TIME+  COMMAND
  7. 3831 mysql     15   0  157m  41m 2036 S 99.9  4.1   7919:24 mysqld
  8. 23426 apache    15   0 33464  13m 5716 S  5.6  1.4   0:29.36 httpd
复制代码


你贴的top信息我有点奇怪,怎么少了一行,是最上面的一行。比如:

  1. top - 10:15:07 up 30 days, 16:20,  1 user,  load average: 0.99, 0.66, 0.55
复制代码

1、服务器挂公网上的还是自个公司里的局域网?
2、服务器大都是在哪个时间挂掉的?这个好查的。
3、你的监控数据太少,ubuntu下面也有个sysstat的包,可以把监控数据包成附件下载。
4、你在服务器上注意一下swap的使用量,当超过80%的时候,重启点内存高的服务比如apache之类的,然后观察swap的使用量。
你可以贴一份 ps axuw进程的结果发出来的。

论坛徽章:
0
17 [报告]
发表于 2007-04-06 09:42 |只看该作者
但是是同步更新的啊,今天早上过来服务器又挂了,看样子时候又到了,这几天没有好日子过了。

论坛徽章:
0
16 [报告]
发表于 2007-04-05 21:05 |只看该作者
原帖由 walkerxk 于 2007-4-5 10:42 发表于 15楼  
还有一件事情很奇怪:
Tasks: 497 total,   3 running, 493 sleeping,   0 stopped,   1 zombie
Cpu(s): 20.9% us,  3.7% sy,  5.4% ni, 56.0% id, 13.4% wa,  0.1% hi,  0.5% si
Mem:   2052244k total,  1 ...

========================
两个数值统计的方法不一样,不知我的理解对不对。
上面那个"Cpu(s):…………"瞬时的,下面这个有时间段的。
%CPU  --  CPU usage
          The  task’s  share  of  the elapsed CPU time since the last screen update, expressed as a
          percentage of total CPU time.

论坛徽章:
0
15 [报告]
发表于 2007-04-05 10:42 |只看该作者
还有一件事情很奇怪:
Tasks: 497 total,   3 running, 493 sleeping,   0 stopped,   1 zombie
Cpu(s): 20.9% us,  3.7% sy,  5.4% ni, 56.0% id, 13.4% wa,  0.1% hi,  0.5% si
Mem:   2052244k total,  1958188k used,    94056k free,    13944k buffers
Swap:  1951856k total,   774732k used,  1177124k free,   377088k cached

  PID USER      PR  NI  VIRT  RES  SHR S %CPU %MEM    TIME+  SWAP COMMAND                                      
10641 panjy     34  19  565m 394m 3640 R 70.1 19.7   3582:55 170m python                                       
10621 panjy     34  19  100m  15m 2152 R 21.8  0.8 984:53.63  84m python                                       
26877 www-data  15   0  112m  17m 5824 S  7.9  0.9   0:00.24  94m apache2                                      
26948 www-data  16   0  111m  15m 5828 S  7.3  0.8   0:00.22  95m apache2                                      
24556 www-data  15   0  111m  17m 5972 S  6.9  0.9   0:00.33  94m apache2                                      
6816 mysql     16   0  568m  54m 2832 S  2.3  2.7 195:59.82 514m mysqld
红色的这两个值加起来超过100%了。不过不是一直这样的。

论坛徽章:
0
14 [报告]
发表于 2007-04-05 10:23 |只看该作者
======================

论坛徽章:
0
13 [报告]
发表于 2007-04-05 10:09 |只看该作者
原帖由 飘雪心辰 于 2007-4-4 22:29 发表于 12楼  
============================


你这个还不是最新的,刚才google了一下,还有新的包,
http://lwn.net/Alerts/172120/
http://lists.openwall.net/full-disclosure/2006/12/13/10

物理内存满是很正常的 ...

不好意思,没想到uname -a没有显示完整的版本。
你给的网址上的版本是
linux-image-2.6.12-10-amd64-generic_2.6.12-10.42_amd64.deb

linux-image-2.6.12-10-amd64-generic_2.6.12-10.28_amd64.deb
我服务器上的版本是
linux-image-2.6.12-10-amd64-generic_2.6.12-10.45_amd64.deb
比那两个新,内核和重要组件的更新我平时都是很注意的

[ 本帖最后由 walkerxk 于 2007-4-5 10:13 编辑 ]
  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP