免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 2476 | 回复: 0

Linux进程维护技术初探 [复制链接]

论坛徽章:
0
发表于 2006-10-22 22:40 |显示全部楼层
一,引言
    本文取这个名字可能过于大气了,不过还是定下来了,目的是希望有更多的朋友参与进来,给出更好的意见和看法,对文中的方法进行不断的改进.
    一直很佩服老外的文章,写的很通俗易懂,而且多原创佳作;而国内的文献,好多都是翻译或者copy的,希望国人的原创思想能够更多的表现出来. 本文中要提到的技术很容易理解,不过觉得还是蛮有创新思想的,而且是自己的感受与不断改进得出的经验之谈(在技术上并没有多高深,不过觉得对实际开发很有实用价值),所以才敢发出来,当中肯定不乏错误种种,欢迎指出!
二, 进程维护简介
提到进程维护,概念很简单,就是想办法让用户的程序不被随意结束掉,或者说即使结束了,也能再次起来,当然,我们这里讨论的程序退出不包括你的代码错误引起的异常,而是被意外的外界条件结束,比如数据库短暂断掉,用户随意错误结束进程等(比如我测试代码时常用的kill命令).我想进程维护最笨的方法就是管理员通过PS命令查看进程是否正常运行,如果结束掉了,则再次手动启动程序,当然这样的情况并不多见,而且这样的做法肯定是不行的,因为没有人愿意守着机子不停的观看,看他启动的程序是否结束掉了,所以最好将这样无聊的任务交给机器自己去做.
(1):进程信息
    为了能够在进程结束后再次启动某个进程,我们需要保存程序运行所必须的信息,包括运行路径,运行参数,权限等信息,(如果你的目的不仅仅是再次重启进程的话,其它的信息或许更重要些). 所以在进程运行还没有被结束之前,我们最好将这些信息保存起来,保存进程信息的方式很多,如果不太容易丢失的话,可以选择存在内存中,也可以存在文件中或者共享内存中
(2):进程队列
      你不可能花很多力气发明一种技术去维护一个进程,那样确实有些大材小用.现实中往往需要对很多进程进行维护,所以,为了对这么多进程进行统一管理,必须存在一个进程队列.
(3):进程维护者
  要维护进程队列中的进程就需要一个程序专门去检测所有被维护进程的状态,并在判断某个进程已经结束后将它重新启动.在这里,我们称这个进程为进程维护服务器,其实就是一个很简单的程序,它拥有所有被维护进程的信息,而且能够对进程的状态作出简单的判断或者猜测,当目标进程被确认已经阻塞住或者死掉时,它能够再次启动目标进程.
(4)进程之间的消息机制
   进程维护服务器要获取被维护进程的最新状态,就需要同每一个被维护的进程进行通讯.关于进程通信,有好多种机制,在此,我们选择了Socket的方式,因为这样可以将进程维护服务器部署在网络上的任意一台机子上(前提是它有权限远程结束并且启动另外一台机子上的进程),在本文的实例代码种,只是单机维护,因为我对于远程进程结束和启动的方法还不了解.
(5)进程之间的时间戳同步
为了更新每个进程的最新时间和方便进程维护服务器检测出每一个进程最近一次与其通讯的时刻到当前的时间差,被维护进程每向进程维护服务器发送一个消息,里面都包含了当前的时间,在进程维护服务器端,服务器会将这个进程的最新时间更新为消息中的时间,当然,对于网络上的机子,可能会有不同的本地时间,所以应该选择消息中的时间作为当前的时间,而对于本机上的进程发过来的消息,只需要取本地的时间即可,因为它们拥有相同的时间值.在本文中,我们让进程维护服务器另外启动一个进程,每隔一秒向进程维护服务器发送一个消息,这样对于以阻塞方式接收消息的服务器来说,每隔一秒,它都能收到至少一个消息(那就是它所创建的进程发送过来的时间更新消息),在收到时间更新消息后,进程维护服务器便会根据当前时间去遍历进程节点列表,根据当前时间和每个进程的最新时间计算一个时间差,如果这个时间差大于此进程注册的超时上限,那么我们就认为此进程已经阻塞掉或者被结束了,此时,只需要根据原来此进程注册发送的PID简单的结束此进程(很可能这个进程已经被结束掉了),然后根据此进程注册的路径和参数,再次重启此进程,并删除此节点,因为重启的进程会再次注册一个结点的.

   以上就是整个进程维护服务器和每个被维护进程合作的方式,下面给出具体的数据结构和函数列表.
三, 数据结构及流程简介
首先,需要抽象出一个进程节点类,保存必须的信息

  1. class CProcNode  
  2. {
  3. public:
  4.         void Update(const CProcNode &node);//更新进程信息
  5.         bool MayBeDead( );//判断是否死掉或者阻塞
  6.         CProcNode(const CProcNode &node);//构造函数,复制一份
  7.         void Stop( );//停止进程
  8.         void Start( );//开始运行
  9.         void SetPID(unsigned int uId); //设置PID
  10.         void SetCurrentTime(long iTime);//设置当前的时间
  11.         bool Restart( );// 重新启动进程
  12.         void SetProgram( const char * szProg); //设置程序名
  13.         void SetIP(const char * szIP);// 设置这个进程所在客户机的IP地址
  14.         void SetTimeOut(int nRestartTimeOut); // 设置进程重启的时间限额
  15.         void Register(const char * szMsg); //通过消息来注册
  16.         CProcNode();
  17.         bool operator ==(const CProcNode & Node);//相等的判断
  18.                 void show();//打印进程信息
  19.                 char * GetPath();//获取路径
  20.         virtual ~CProcNode();
  21. private:
  22.         long m_lRegisterTime;//注册的时间
  23.         long m_lCurrentTime;//当前时间
  24.         char m_szIP[IP_SIZE];//IP地址
  25.         unsigned int m_uPid;//PID
  26.         int m_nRestartTimeOut;//重启时限
  27.         char m_szProgram[MAX_PROGRAM_NAME];//程序名
  28.         char m_szParameter[MAX_PARAMETER][PARAM_LENGTH];//程序运行参数
  29.         int m_nArgc;//参数个数
  30. };
复制代码

为了保持各个被维护进程与进程维护服务器的畅通通讯,我们通过心跳信息来让被维护进程通知进程维护器这个被维护的进程依然运行着,在消息里面保存了进程最新的路径,参数,IP地址,还有最新的时间戳.每当进程维护器收到一个消息,如果是一个没有注册进程的消息,它便会将这个进程节点注册为一个新的维护节点,如果是已经注册过进程发来的消息,则更新已注册进程的信息.所以在CProcNode类中有几个特别的属性和方法,如重启时限和更新函数等.
    当然,要对好多进程进行管理,就需要一个进程列表,对我来说,这个概念主要受启发于<<Linux内核设计与实现>>中下半部机制中的工作队列的数据结构.

  1. class CProNodeList  
  2. {
  3. public:
  4.         int RestartDeadProcs( );//重启所有超时进程,在收到一个更新时间消息时,进程维护服务器会在这个操作中检测每个进程的时差,判断它是否死掉,如果死掉,就重启这个进程
  5.         int  RegisterHost( const CProcNode & node);//注册一个进程到进程列表
  6.         CProcNode* Found(const CProcNode & Node);//查找进程节点是否已经在队列中
  7.         int GetSize();//获取进程列表大小
  8.      void show();//打印信息
  9.      bool MayRegMoreNodes();//能否接受更多的注册,一开始我们为进程队列分配有限的容量(比如,最多容纳100个注册,这样就需要检测是否有空间接收更多注册)
  10.      void Enlarge(int);//如果进程注册数目已经超过上限,则扩大容量
  11.        bool UnRegisterHost(CProcNode  & node);//注销一个进程节点,简单的从列表中删除这个节点
  12.     CProcNode ** m_List;;//进程节点列表
  13.     int m_nLength;//列表长度
  14. };
复制代码

由于使用UDP的socket方式进行通讯,而且有不同的消息,所以我们规定每个message的第一个字段都写入消息类型,在本文中暂时只分两种消息类型,时间更新消息和心跳消息,时间更新消息就是进程维护服务器启动的另外一个进程每秒发送出的时间消息,心跳消息包括了已注册和未注册进程发送的消息.

  1. int GetMsgType(const char * szMsg);//收到一个消息,进程维护服务器首先分析出这个消息的类型
  2. int HandleMessage_HeartBeat(const char *,CProNodeList &);//处理被维护进程发送的心跳消息.
  3. int HandleMessage_Timer(const char*,CProNodeList &);//处理本地子进程发送的更新时间消息(一秒一次)
复制代码

作为进程维护服务器要做的事情就很少了

  1. ..........main()
  2. //创建一个子进程接收所有的消息并处理,通过run函数来实现
  3. if(fork() == 0)
  4.   {
  5.     return run(argc, argv);
  6.   }else
  7. {
  8.    //再创建一个子进程向run启动的进程发送时间更新消息,在Timer中实现
  9.    if(fork() == 0)
  10.    {
  11.      return timer();
  12.    }
  13. ...........
复制代码

  1. ..int run(int argc, char *argv[])..........
  2.                CSimpleUDP udp;//发送消息的UDP类
  3.         CProNodeList List;//进程列表
  4.         udp.InitRcvSock(m_nPort);
  5.         printf("Message handler staring.....\n");
  6.         while(1)//读取消息
  7.         {
  8.               int nSize = 0;
  9.                 char * szMsg = NULL;
  10.                 szMsg =  udp.RcvMsg(nSize);
  11.                 int nType = GetMsgType(szMsg);//获取消息类型
  12.            
  13.                 switch(nType)
  14.                  {
  15.                    case MESSAGE_TYPE_HEART_BEAT://注册进程发送的时间更新消息
  16.               HandleMessage_HeartBeat(szMsg, List);
  17.                      //List.show();
  18.                      break;
  19.                    case MESSAGE_TYPE_TIMER://Timer消息,判断每个进程是超时
  20.                        HandleMessage_Timer(szMsg, List);
  21.                       break;
  22.                      default:
  23.                           printf("Unkown Message %s\n", szMsg);
  24.                             break;
  25.                  }
  26. ....
复制代码

  1. 每隔一秒时间发送一个时间戳消息给进程维护服务器
  2. int timer(void)
  3. {
  4.   CSimpleUDP udp;
  5.   udp.InitSendSock(LOCAL_IP, m_nPort);
  6.   char szMsg[256];
  7.   printf("Timer starting.......\n");
  8.   while(1)
  9.   {
  10.    memset(szMsg, 0, 256);
  11.    sprintf(szMsg, "%d %d",
  12.    MESSAGE_TYPE_TIMER, CURRENT_TIME_LONG());
  13.    udp.SendMsg(szMsg, 256);
  14.    sleep(1);
  15.   }
  16. }

复制代码

附录:例子代码(在AS4上编译通过并运行,进行测试)
A:文件结构说明
constdefs.h 定义了所有公用的常量和一些函数
MsgHandle.h & MsgHandle.cpp 定义了消息处理的两个函数
ProcNode.h & ProcNode.cpp 是进程节点的定义与实现
ProNodeList.h & ProNodeList.cpp 定义并实现进程节点队列
SimpleUDP.h & SimpleUDP.cpp封装了简单的多平台UDP通讯类,是一个比较实用的类
ProcWatchServer.cpp 进程维护服务器的实现
TestProc1.cpp 实现了一个注册的进程
你也可以自己再添加其它的注册进程
实现TestProc2....TestProcn,只是进程的创建尽量符合TestProc1的风格,在启动时通过
if(fork() == 0)
{
  //执行这个进程的任务
}
的方式来启动
另外还有Makefile.
        目前对于此种的方法的优缺点,我也正在进一步的分析,不过测试的例子还是运行的不错,你可以在TestProc1注册成功后,通过Ps看到它的PID,然后手动kill掉TestProc1,过一会,它又会被重新启动,欢迎大家提出意见和自己的更新更好的想法

[ 本帖最后由 duanjigang 于 2006-10-23 21:16 编辑 ]

Test.rar

9.69 KB, 下载次数: 151

您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

DTCC2021中国数据库技术大会

【数造未来】2021年10月18日-20日第十二届中国数据库技术大会
ITPUB、大会的会员您们好: 因目前国内疫情严峻,为响应北京市最新疫情防控要求,保障参会人员的健康和安全,组委会经协商决定:DTCC2021第十二届中国数据库技术大会延期至10月18日-20日(周一~周三)在北京国际会议中心举行,由此给各位带来的不便,敬请谅解!

大会官网
  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP