Chinaunix

标题: 为什么在网络不稳定时,服务器会出现z进程? [打印本页]

作者: allfresh    时间: 2005-10-25 23:43
标题: 为什么在网络不稳定时,服务器会出现z进程?
服务器采用多进程方式,在不稳定的网络中,支持到一定的并发数后,系统会逐步出现很多zombie进程,而在稳定的网络中,就不会出现.不知为何? 这两种网络中的Linux系统都是RH,机器也都是一模一样的.\r\n\r\n我使用到的socket类都是标准的bind,listen,accept,send,recv\r\n\r\n请求大侠为我解惑 谢谢!
作者: pardream    时间: 2005-10-26 08:39
标题: ZT:
整理:jahnny 时间:6/19/02 7:31 PM \r\n\r\n守护进程(Daemon)是运行在后台的一种特殊进程。它独立于控制终端并且周期性地执行某种任务或等待处理某些发生的事件。守护进程是一种很有用的进程。Linux的大多数服务器就是用守护进程实现的。比如,Internet服务器inetd,Web服务器httpd等。同时,守护进程完成许多系统任务。比如,作业规划进程crond,打印进程lpd等。 \r\n守护进程的编程本身并不复杂,复杂的是各种版本的Unix的实现机制不尽相同,造成不同Unix环境下守护进程的编程规则并不一致。这需要读者注意,照搬某些书上的规则(特别是BSD4.3和低版本的System V)到Linux会出现错误的。下面将全面介绍Linux下守护进程的编程要点并给出详细实例。 \r\n一. 守护进程及其特性 \r\n守护进程最重要的特性是后台运行。在这一点上DOS下的常驻内存程序TSR与之相似。其次,守护进程必须与其运行前的环境隔离开来。这些环境包括未关闭的文件描述符,控制终端,会话和进程组,工作目录以及文件创建掩模等。这些环境通常是守护进程从执行它的父进程(特别是shell)中继承下来的。最后,守护进程的启动方式有其特殊之处。它可以在Linux系统启动时从启动脚本/etc/rc.d中启动,可以由作业规划进程crond启动,还可以由用户终端(通常是shell)执行。 \r\n总之,除开这些特殊性以外,守护进程与普通进程基本上没有什么区别。因此,编写守护进程实际上是把一个普通进程按照上述的守护进程的特性改造成为守护进程。如果读者对进程有比较深入的认识就更容易理解和编程了。 \r\n二. 守护进程的编程要点 \r\n前面讲过,不同Unix环境下守护进程的编程规则并不一致。所幸的是守护进程的编程原则其实都一样,区别在于具体的实现细节不同。这个原则就是要满足守护进程的特性。同时,Linux是基于Syetem V的SVR4并遵循Posix标准,实现起来与BSD4相比更方便。编程要点如下; \r\n1. 在后台运行。 \r\n为避免挂起控制终端将Daemon放入后台执行。方法是在进程中调用fork使父进程终止,让Daemon在子进程中后台执行。 \r\nif(pid=fork()) \r\nexit(0);//是父进程,结束父进程,子进程继续 \r\n2. 脱离控制终端,登录会话和进程组 \r\n有必要先介绍一下Linux中的进程与控制终端,登录会话和进程组之间的关系:进程属于一个进程组,进程组号(GID)就是进程组长的进程号(PID)。登录会话可以包含多个进程组。这些进程组共享一个控制终端。这个控制终端通常是创建进程的登录终端。 \r\n控制终端,登录会话和进程组通常是从父进程继承下来的。我们的目的就是要摆脱它们,使之不受它们的影响。方法是在第1点的基础上,调用setsid()使进程成为会话组长: \r\nsetsid(); \r\n说明:当进程是会话组长时setsid()调用失败。但第一点已经保证进程不是会话组长。setsid()调用成功后,进程成为新的会话组长和新的进程组长,并与原来的登录会话和进程组脱离。由于会话过程对控制终端的独占性,进程同时与控制终端脱离。 \r\n3. 禁止进程重新打开控制终端 \r\n现在,进程已经成为无终端的会话组长。但它可以重新申请打开一个控制终端。可以通过使进程不再成为会话组长来禁止进程重新打开控制终端: \r\n\r\nif(pid=fork()) \r\nexit(0);//结束第一子进程,第二子进程继续(第二子进程不再是会话组长) \r\n4. 关闭打开的文件描述符 \r\n进程从创建它的父进程那里继承了打开的文件描述符。如不关闭,将会浪费系统资源,造成进程所在的文件系统无法卸下以及引起无法预料的错误。按如下方法关闭它们: \r\nfor(i=0;i 关闭打开的文件描述符close(i);> \r\n5. 改变当前工作目录 \r\n进程活动时,其工作目录所在的文件系统不能卸下。一般需要将工作目录改变到根目录。对于需要转储核心,写运行日志的进程将工作目录改变到特定目录如/tmpchdir(\"/\" \r\n6. 重设文件创建掩模 \r\n进程从创建它的父进程那里继承了文件创建掩模。它可能修改守护进程所创建的文件的存取位。为防止这一点,将文件创建掩模清除:umask(0); \r\n7. 处理SIGCHLD信号 \r\n处理SIGCHLD信号并不是必须的。但对于某些进程,特别是服务器进程往往在请求到来时生成子进程处理请求。如果父进程不等待子进程结束,子进程将成为僵尸进程(zombie)从而占用系统资源。如果父进程等待子进程结束,将增加父进程的负担,影响服务器进程的并发性能。在Linux下可以简单地将SIGCHLD信号的操作设为SIG_IGN。 \r\nsignal(SIGCHLD,SIG_IGN); \r\n这样,内核在子进程结束时不会产生僵尸进程。这一点与BSD4不同,BSD4下必须显式等待子进程结束才能释放僵尸进程。 \r\n三. 守护进程实例 \r\n守护进程实例包括两部分:主程序test.c和初始化程序init.c。主程序每隔一分钟向/tmp目录中的日志test.log报告运行状态。初始化程序中的init_daemon函数负责生成守护进程。读者可以利用init_daemon函数生成自己的守护进程。 \r\n1. init.c清单 \r\n\r\n#include < unistd.h > \r\n#include < signal.h > \r\n#include < sys/param.h > \r\n#include < sys/types.h > \r\n#include < sys/stat.h > \r\nvoid init_daemon(void) \r\n{ \r\nint pid; \r\nint i; \r\nif(pid=fork()) \r\nexit(0);//是父进程,结束父进程 \r\nelse if(pid< 0) \r\nexit(1);//fork失败,退出 \r\n//是第一子进程,后台继续执行 \r\nsetsid();//第一子进程成为新的会话组长和进程组长 \r\n//并与控制终端分离 \r\nif(pid=fork()) \r\nexit(0);//是第一子进程,结束第一子进程 \r\nelse if(pid< 0) \r\nexit(1);//fork失败,退出 \r\n//是第二子进程,继续 \r\n//第二子进程不再是会话组长 \r\n\r\nfor(i=0;i< NOFILE;++i)//关闭打开的文件描述符 \r\nclose(i); \r\nchdir(\"/tmp\";//改变工作目录到/tmp \r\numask(0);//重设文件创建掩模 \r\nreturn; \r\n} \r\n2. test.c清单 \r\n#include < stdio.h > \r\n#include < time.h > \r\n\r\nvoid init_daemon(void);//守护进程初始化函数 \r\n\r\nmain() \r\n{ \r\nFILE *fp; \r\ntime_t t; \r\ninit_daemon();//初始化为Daemon \r\n\r\nwhile(1)//每隔一分钟向test.log报告运行状态 \r\n{ \r\nsleep(60);//睡眠一分钟 \r\nif((fp=fopen(\"test.log\",\"a\") >=0) \r\n{ \r\nt=time(0); \r\nfprintf(fp,\"Im here at %s\\n\",asctime(localtime(&t)) ); \r\nfclose(fp); \r\n} \r\n} \r\n} \r\n以上程序在RedHat Linux6.0下编译通过。步骤如下: \r\n编译:gcc -g -o test init.c test.c \r\n执行:./test \r\n查看进程:ps -ef \r\n从输出可以发现test守护进程的各种特性满足上面的要求。
作者: allfresh    时间: 2005-10-26 19:21
pardream朋友,对于守护进程,我也是这样作的啊~~
作者: funnyok    时间: 2005-10-27 02:15
如果稳定下来了你的zombie不会自动慢慢消失吗?
作者: pardream    时间: 2005-10-27 16:27
呵呵,你的服务器程序是自己写的吧。你仔细看上面7里面提到的原因“如果父进程不等待子进程结束,子进程将成为僵尸进程(zombie)从而占用系统资源。”\r\n\r\n我怀疑你的程序在网络不稳定情况下,可能由于子进程等待需要处理的数据或向外发送数据不能完成,而造成这种现象。\r\n\r\n上7里面给出解决的办法是“在Linux下可以简单地将SIGCHLD信号的操作设为SIG_IGN。”\r\n\r\n你不防试试这样处理,看能不能解决。另外,如果可行,这样处理有什么后果,我也不清楚,不知道哪里可以查到相关资料。
作者: pardream    时间: 2005-10-27 16:34
刚刚查了一下apache2的源码,发现他们也是用SIG_IGN来设定的,我觉得你可以试试。
作者: allfresh    时间: 2005-10-27 23:20
最初由 pardream 发布\r\n[B]呵呵,你的服务器程序是自己写的吧。你仔细看上面7里面提到的原因“如果父进程不等待子进程结束,子进程将成为僵尸进程(zombie)从而占用系统资源。”\r\n\r\n我怀疑你的程序在网络不稳定情况下,可能由于子进程等待需要处理的数据或向外发送数据不能完成,而造成这种现象。\r\n\r\n上7里面给出解决的办法是“在Linux下可以简单地将SIGCHLD信号的操作设为SIG_IGN。”\r\n\r\n你不防试试这样处理,看能不能解决。另外,如果可行,这样处理有什么后果,我也不清楚,不知道哪里可以查到相关资料。 [/B]
\r\n\r\n谢谢回复! \r\n我原来也试过将SIGCHLD信号ignore掉,这样由于z进程被系统进程回收了而不会出现z进程,但该有的进程真真切切是没有了啊,随时时间的推移,我的进程都慢慢死光了,然后我采用的方法是死一个补一个,最后系统资源全耗光了
作者: funnyok    时间: 2005-10-27 23:36
\r\n最后系统资源全耗光了\r\n
\r\n仔细说说是什么资源耗光了吧。\r\n进程号?handle号?还是有什么没有释放。\r\n没有释放的可以考虑\r\n1 sig的处理\r\n2 定期监视资源\r\n3 把能共有的资源都共有,用semophone分配、同步
作者: funnyok    时间: 2005-10-27 23:43
还有可以用asynchronize call with timeout。
作者: pardream    时间: 2005-10-28 12:31
你可以看看apache2的mpm_common.c,apache中对客户端关闭的处理应该与你的现象类似。\r\n\r\n我看它的处理基本上都用了sig_coredump函数进行处理。\r\n你看看是否对你有帮助。
作者: funnyok    时间: 2005-10-28 22:06
[php]\r\n/* handle all varieties of core dumping signals */\r\nstatic void sig_coredump(int sig)\r\n{\r\n    apr_filepath_set(ap_coredump_dir, pconf);\r\n    apr_signal(sig, SIG_DFL);\r\n#if AP_ENABLE_EXCEPTION_HOOK\r\n    run_fatal_exception_hook(sig);\r\n#endif\r\n    /* linuxthreads issue calling getpid() here:\r\n     *   This comparison won\'t match if the crashing thread is\r\n     *   some module\'s thread that runs in the parent process.\r\n     *   The fallout, which is limited to linuxthreads:\r\n     *   The special log message won\'t be written when such a\r\n     *   thread in the parent causes the parent to crash.\r\n     */\r\n    if (getpid() == parent_pid) {\r\n        ap_log_error(APLOG_MARK, APLOG_NOTICE,\r\n                     0, ap_server_conf,\r\n                     \"seg fault or similar nasty error detected \"\r\n                     \"in the parent process\";\r\n        /* XXX we can probably add some rudimentary cleanup code here,\r\n         * like getting rid of the pid file.  If any additional bad stuff\r\n         * happens, we are protected from recursive errors taking down the\r\n         * system since this function is no longer the signal handler   GLA\r\n         */\r\n    }\r\n    kill(getpid(), sig);\r\n    /* At this point we\'ve got sig blocked, because we\'re still inside\r\n     * the signal handler.  When we leave the signal handler it will\r\n     * be unblocked, and we\'ll take the signal... and coredump or whatever\r\n     * is appropriate for this particular Unix.  In addition the parent\r\n     * will see the real signal we received -- whereas if we called\r\n     * abort() here, the parent would only see SIGABRT.\r\n     */\r\n}\r\n[/php]
作者: allfresh    时间: 2005-10-28 23:42
谢谢pardream和funnyok两位大虾 我试试~




欢迎光临 Chinaunix (http://bbs.chinaunix.net/) Powered by Discuz! X3.2