免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 2039 | 回复: 9
打印 上一主题 下一主题

nagios监控系统配置过程[09年1月刊] [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2009-02-11 19:56 |只看该作者 |倒序浏览
ChinaUnix网友:wiliiwin
这篇文章是从网上看了很多资料,通过自己实践,测试可以完成服务器的基本监控,然后整理而成,希望可以帮助学习linux的朋友。

有很多朋友说我的文章和他做的有点出入,我在这里说明下我的nagios2.9的,现在最新的是3.0.5的,我也测试过了,3.0.5的和2.9的在配置文件上是有点变化的,不要死定着这篇文章,文章只是引导大家去学习原理,配置文件的变动还需要大家去相应的改动。
实验环境:nagios监控服务器为192.168.1.240  
主机名为
nagios
nagios
被监控服务器为
192.168.1.208
主机名为
apache
用到的软件包:
httpd-2.2.6.tar.gzimagepak-base.tar.gzmysql-5.1.22-rc-linux- i686-icc-glibc23.tar.gznagios-2.9.tar.gznagios-plugins-1.4.9.tar.gznrpe-2.12.tar.gzperl-stable.tar.gzphp-5.2.4.tar.bz2pnp-latest.tar.gzrrdtool-1.0.50.tar.gz
在监控服务器上进行下面的操作:

1.
安装
nagios主程序
1
)解压缩:

tar -zxvf nagios-2.9.tar.gz
cd nagios-2.9
./configure --prefix=/usr/local/nagios   --with-gd-lib=/usr/local/lib --with-gd-inc=/usr/local/include

2
)创建用户并且设定权限:

groupadd nagios
useradd -g nagios nagios
mkdir /usr/local/nagios
chown -R nagios.nagios /usr/local/nagios

make all
make install               
//来安装主程序,CGIHTML文件
make install-init         
///etc/rc.d/init.d安装启动脚本

make install-commandmode   
//来配置目录权限

make install-config
  
//来安装示例配置文件,安装的路径是/usr/local/nagios/etc.

3
)验证是否安装成功:

验证程序是否被正确安装。切换目录到安装路径(这里是
/usr/local/nagios,看是否存在 etcbinsbinsharevar这五个目录,如果存在则可以表明程序被正确的安装到系统了。后表是五个目录功能的简要说明:
bin        Nagios
执行程序所在目录,
nagios文件即为主程序
etc        Nagios
配置文件位置,初始安装完后,只有几个
*.cfg-sample文件
sbin        Nagios Cgi
文件所在目录,也就是执行外部命令所需文件所在的目录


share        Nagios
网页文件所在的目录

var        Nagios
日志文件、
spid 等文件所在的目录

var/archives        Empty directory for the archived logs
/var/rw                        Empty directory for the external command file

2.
安装插件

1
)解压缩
:
tar -zxvf nagios-plugins-1.4.9.tar.gz
cd nagios-plugins-1.4.9
./configure  --prefix=/usr/local/nagios/
(redhat系统上面安装可能出现configure时,到这里checking for redhat spopen problem...就不动了,所以需要在configure时再加上--enable-redhat-pthread-workaround )
make
make install
ls /usr/local/nagios/libexec/
会显示安装的插件文件
,即所有的插件都安装在libexec这个目录下
注意:要是没有这个插件目录需要用下面的命令把插件复制过来

cp /usr/local/nagios-plugins/libexec /usr/local/nagios/

2)
apache的运行用户加到nagios组里面:
httpd.conf中过滤出当前的apache运行用户
grep ^User /usr/local/apache2/conf/httpd.conf

我的是
daemon,下面将这个用户加入nagios
usermod -G nagios daemon
  

论坛徽章:
0
2 [报告]
发表于 2009-02-11 19:57 |只看该作者
3)修改apache配置:
修改
apache的配置文件,增加nagios的目录,并且访问此目录需要进行身份验证
vi /usr/local/apache2/conf/httpd.conf,
在最后增加如下内容
:

ScriptAlias /nagios/cgi-bin /usr/local/nagios/sbin
<Directory "/usr/local/nagios/sbin">
    Options ExecCGI
    AllowOverride None
    Order allow,deny
    Allow from all
    AuthName "Nagios Access"
    AuthType Basic
AuthUserFile /usr/local/nagios/etc/htpasswd   
//用于此目录访问身份验证的文件

    Require valid-user
</Directory>
  
Alias /nagios /usr/local/nagios/share
<Directory "/usr/local/nagios/share">
    Options None
    AllowOverride None
    Order allow,deny
    Allow from all
    AuthName "Nagios Access"
    AuthType Basic
AuthUserFile /usr/local/nagios/etc/htpasswd  
//用于此目录访问身份验证的文件

Require valid-user
</Directory>

4)
增加验证用户:

也就是通过
web访问nagios的时候,必须要用这个用户登陆.在这里我们增加用户test:密码为123456
#/usr/local/apache2/bin/htpasswd -c /usr/local/nagios/etc/htpasswd test   
//用户名
New password: //(
输入
123456)
Re-type new password: (
再输入一次密码
)
Adding password for user test
  
5)
查看认证文件的内容
:
[root@localhost conf]# less /usr/local/nagios/etc/htpasswd
test:OmWGEsBnoGpIc      
//前半部分是用户名test,后面是加密后的密码
到这里
nagios的安装也就基本完成了,你可以通过web来访问了.
http://192.168.1.240/nagios
会弹出对话框要求输入用户名密码

输入
test,密码123456,就可以进入nagios的主页面了
但是可以发现什么也点不开
,因为nagios还没启动呢!下面的工作就是修改配置文件,增加要监控的主机和服务

3.
典型配置

nagios
要用起来
,就必须修改配置文件,增加要监控的主机和服务才行.在具体做这个动作之前,下面的概念必须要了解.
  
1)
预备知识
:
Nagios里面定义了一些基本的对象,一般用到的有:
联系人        
contact                        出了问题向谁报告?一般当然是系统管理员了
监控时间段        
timeperiod        7X24小时不间断还是周一至周五,或是自定义的其他时间段
被监控主机        
Host                        所需要监控的服务器,当然可以是监控机自己
监控命令        
command                        nagios发出的哪个指令来执行某个监控,这也是自己定义的
被监控的服务
Service                        例如主机是否存活,80端口是否开,磁盘使用情况或者自定义的服务等
注意:多个被监控主机可以定义为一个主机组,多个联系人可以被定义为一个联系人组


2)将示例配置文件复制为真实配置文件名:

cd /usr/local/nagios/etc
把这里.cfg-sample文件配置文件模板,全部重命名为.cfg

3)
修改配置文件:

修改nagios的主配置文件nagios.cfg
vi nagios.cfg
cfg_file=/usr/local/nagios/etc/localhost.cfg      
//在前面加#
cfg_file=/usr/local/nagios/etc/contacts.cfg      
//联系人配置文件路径

cfg_file=/usr/local/nagios/etc/contactgroups.cfg
//联系人组配置文件路径
cfg_file=/usr/local/nagios/etc/commands.cfg      
//命令配置文件路径

cfg_file=/usr/local/nagios/etc/host.cfg         
//主机配置文件路径
cfg_file=/usr/local/nagios/etc/hostgroups.cfg   
//服务器组配置文件
cfg_file=/usr/local/nagios/etc/templates.cfg     
//模板配置文件路径

cfg_file=/usr/local/nagios/etc/timeperiods.cfg   
//监视时段配置文件路径
cfg_file=/usr/local/nagios/etc/services.cfg      
//服务配置文件
其他配置文件以实际情况来进行配置

check_external_commands=0check_external_commands=1 .这行的作用是允许在web界面下执行重启nagios、停止主机/服务检查等操作。
command_check_interval的值从默认的1改成command_check_interval=10s(根据自己的情况定这个命令检查时间间隔,不要太长也不要太短)。
主配置文件要改的基本上就是这些,通过上面的修改,发现
/usr/local/nagios/etc并没有文件hosts.cfg等一干文件,怎么办?稍后手动创建它们。

论坛徽章:
0
3 [报告]
发表于 2009-02-11 19:58 |只看该作者
6)配置各种配置文件
定义监控时间段
,创建配置文件timeperiods.cfg
# vi timeperiods.cfg
define timeperiod{
        timeperiod_name         24x7   
//时间段的名称,这个地方不要有空格

        alias                   24 Hours A Day,7Days A Week
        sunday                  00:00-24:00
        monday                  00:00-24:00
        tuesday                 00:00-24:00
        wednesday               00:00-24:00
        thursday                00:00-24:00
        friday                  00:00-24:00
        saturday                00:00-24:00
        }

定义了一个监控时间段
,它的名称是24x7,监控的时间是每天全天24小时:
定义联系人
,创建配置文件contacts.cfg
# vi contacts.cfg
define contact{
        contact_name                    test   
//联系人的名称,这个地方不要有空格
        alias                           sys admin
        service_notification_period     24x7
        host_notification_period        24x7
        service_notification_options    w,u,c,r
        host_notification_options       d,u,r
        service_notification_commands   notify-by-email
        host_notification_commands      host-notify-by-email        
email                           
tfhudong@sohu.com
        pager                           1391119xxxx
        }

创建了一个名为test的联系人,下面列出其中重要的几个选项做说明:

service_notification_period     24x7
服务出了状况通知的时间段
,这个时间段就是上面在timeperiods.cfg中定义的.

host_notification_period        24x7
主机出了状况通知的时间段
, 这个时间段就是上面在timeperiods.cfg中定义的

service_notification_options    w,u,c,r
当服务出现w—报警(warning),u—未知(unkown),c—严重(critical),或者r—从异常情况恢复正常,在这四种情况下通知联系人.

host_notification_options       d,u,r
当主机出现d    —当机(down),u—返回不可达(unreachable),r—从异常情况恢复正常,在这3种情况下通知联系人
service_notification_commands   notify-by-email
服务出问题通知采用的命令notify-by-email,这个命令是在commands.cfg中定义的,作用是给联系人发邮件.

host_notification_commands      host-notify-by-email
同上,主机出问题时采用的也是发邮件的方式通知联系人

email                           
yahoon@test.com
很明显,联系的人email地址
Pager                           137xxxxxxxxxxxxxx  
//电话
}

下面就可以将多个联系人组成一个联系人组
,创建文件contactgroups.cfg

# vi contactgroups.cfg
define contactgroup{
        contactgroup_name       sagroup   
//联系人组的名称,同样不能空格

     alias                                System Administrators        
//别名

     members                          test
//组的成员,来自于上面定义的contacts.cfg,如果有多个联系人则以逗号相隔
        }

定义被监控主机
,创建文件hosts.cfg :
# vi hosts.cfg
define host{
        host_name        nagios        
//被监控主机的名称,最好别带空格

        alias            nagios            
//别名

       address     192.168.1.240   
//被监控主机的IP地址

       check_command    check-host-alive
        
//监控的命令check-host-alive,这个命令来自commands.cfg,用来监控主机是否存活

        max_check_attempts    5  
//检查失败后重试的次数

        check_period          24x7
      
//检查的时间段24x7,同样来自于我们之前在timeperiods.cfg中定义的
contact_groups        sagroup
      
//联系人组,上面在contactgroups.cfg中定义的sagroup
notification_interval  10
        
//提醒的间隔,每隔10秒提醒一次
notification_period   24x7
        
//提醒的周期, 24x7,同样来自于我们之前在timeperiods.cfg中定义的
notification_options            d,u,r
//指定什么情况下提醒
        }

论坛徽章:
0
4 [报告]
发表于 2009-02-11 19:59 |只看该作者
通过简单的复制修改就可以定义多个主机了.我们在这加上另外一台机器
  
与联系人可以组成联系人组一样,多个主机也可以组成主机组:
主机名为:apache         ip:192.168.1.208

创建文件hostgrops.cfg
# vi hostgroups.cfg
define hostgroup{
        hostgroup_name          linux-servers  //主机组名称
        alias                   linux-servers  //别名
        members                 nagios,apache
//组的成员主机,多个主机以逗号相隔,必须是上面hosts.cfg中定义的
        }

下面是最关键的了,nagios主要是监控一台主机的各种信息,包括本机资源,对外的服务等等.这些在nagios里面都是被定义为一个个的项目 (nagios称之为服务,为了与主机提供的服务相区别,我这里用项目这个词),而实现每个监控项目,则需要通过commands.cfg文件中定义的命令.
例如我们现在有一个监控项目是监控一台机器的
web服务是否正常, 我们需要哪些元素呢?最重要的有下面三点:首先是监控哪台机,然后是这个监控要用什么命令实现,最后就是出了问题的时候要通知哪个联系人?
  
定义监控的项目
,也叫服务,创建services.cfg :

# vi services.cfg
define service{
        host_name               nagios
      
//被监控的主机,hosts.cfg中定义的

        service_description     check-host-alive
      
//这个监控项目的描述,这个会在web页面中出现

     check_command           check-host-alive
        
//所用的命令,commands.cfg中定义的
        max_check_attempts      5   
//重试的次数
        normal_check_interval   3   
//循环检查的间隔时间
        retry_check_interval    2   
        check_period            24x7
        
//监控的时间段,timeperiods.cfg中定义的

        notification_interval   10
        notification_period     24x7
        
//通知的时间段
notification_options    w,u,c,r
        
//在监控的结果是wucr时通知联系人
        contact_groups          sagroup
        
//联系人组,contactgroups.cfg中定义的
        }

这样整个的配置过程就结束了
.虽然功能很简单,但是已经为以后扩展打下了良好的基础。在运行nagios之前首先做测试:
/usr/local/nagios/bin/nagios -v /usr/local/nagios/etc/nagios.cfg
看到下面这些信息就说明没问题了

Total Warnings: 0
Total Errors:   0
作为守护进程后台启动
nagios
/usr/local/nagios/bin/nagios -d /usr/local/nagios/etc/nagios.cfg

登陆
http://192.168.1.240/nagios/来查看吧.点左边的Host Detail


论坛徽章:
0
5 [报告]
发表于 2009-02-11 19:59 |只看该作者
4使用命令和插件监控更多信息

我们已经增加了二个监控项目
,分别监控nagios,apache这二台主机是否存活。nagios本身并没有监控的功能,所有的监控是由插件完成的。插件将监控的结果返回给nagios,nagios分析这些结果,web的方式展现给我们,同时提供相应的报警功能(这个报警的功能也是由插件完成的) 所有的这些插件是一些实现特定功能的可执行程序,默认安装的路径是/usr/local/nagios/libexec
这些程序都是可以独立执行的
,使用方法可以通过”命令名 –h”来查看,例如,我们查看check_disk这个插件的用法则可以使用check_disk –h
# ./check_disk -h
check_disk (nagios-plugins 1.4.9) 1.91
Copyright (c) 1999 Ethan Galstad <
nagios@nagios.org>
Copyright (c) 1999-2006 Nagios Plugin Development Team
        <devel@lists.sourceforge.net[/email]>
This plugin checks the amount of used disk space on a mounted file system
and generates an alert if free space is less than one of the threshold values
Usage: check_disk -w limit -c limit [-p path | -x device] [-t timeout][-m] [-e] [-W limit] [-K limit] [-v] [-q] [-E]

输出的资料十分详细给出了这个插件的功能
,使用方法,参数意义等,对于每一个插件都是这样.所以当你不懂某个插件怎么使用时就好好读读吧.从上面的输出可以看到check_disk这个插件是用来检查磁盘使用情况的.
我现在来独立执行它
,例如查看根分区的使用情况,执行
# ./check_disk -w 10% -c 5% /
命令的含义是检查分区
/的使用情况,若剩余10%以下,为警告状态(warning),5%以下为严重状态(critical),

执行后我们会看到下面这条信息

DISK WARNING - free space: / 487 MB (6% inode=78%);| /=7449MB;7524;7942;0;8361
说明当前是
warning的状态,空闲空间只有6%.如果nagios收到这些状态结果就会采取报警等措施了
我们在定义某个监控项目时
,所用的监控命令都是来自commands.cfg,这和这些插件有什么关系?想到了吧,commands.cfg中定义的监控命令就是使用的这些插件.举个例子,之前我们已经不止一次用到了check-host-alive这个命令,打开commands.cfg就可以看到这个命令的定义,如下:
define command{
        command_name    check-host-alive
        command_line    $USER1$/check_ping -H $HOSTADDRESS$ -w 3000.0,80% -c 5000.0,100% -p 1
        }

command_name    check-host-alive
这句话的意思是定义的命令名是
check-host-alive,也就是我们在services.cfg中使用的名称
执行的操作是

$USER1$/check_ping -H $HOSTADDRESS$ -w 3000.0,80% -c 5000.0,100% -p 1
其中
$USER1$是在resource.cfg文件中定义的,代表插件的安装路径.就如我们上面看到的那样$USER1$=/usr/local/nagios/libexec,至于$HOSTADDRESS$,则默认被定义为监控主机的地址.
简单的说
,我们在services.cfg中定义了对dbpi执行check-host-alive命令,实际上就是执行了
/usr/local/nagios/libexec/ check_ping -H dbpi
ip地址 -w 3000.0,80% -c 5000.0,100% -p 1
实际上
check-host-alive只是这一长串命令的简称而已,而在services.cfg中都是使用简称的.
commands.cfg中定义了很多这样的命令简称.基本上我们常用的监控项目都包含了,例如ftp,http,本地的磁盘,负载等等.
我们再看一个命令
,check_local_disk定义如下
define command{
        command_name    check_local_disk
        command_line    $USER1$/check_disk -w $ARG1$ -c $ARG2$ -p $ARG3$
        }


论坛徽章:
0
6 [报告]
发表于 2009-02-11 20:00 |只看该作者
check_local_disk实际上是执行的check_disk插件.这里的$ARG1$, $ARG2$, $ARG3$是什么意思呢?在之前我们已经提到了这个check_disk这个插件的用法,-w的参数指定磁盘剩了多少是警告状态,-c的参数指定剩多少是严重状态,-p用来指定路径.
在使用
check-host-alive的时候,只需要在services.cfg中直接写上这个命令名check-host-alive.后面没任何的参数.而使用check_local_disk则不同,services.cfg中这要这么写
check_local_disk!10%!5%!/
在命令名后面用
!分隔出了3个参数,10%$ARG1$的值,5%$ARG2$的值,/ $ARG3$的值,
  
简单的一句话就是
services.cfg
定义监控项目用某个命令


这个命令必须在
commands.cfg中定义

定义这个命令时使用了
libexec下的插件
如果命令不带
$ARG1$就可以在services.cfg中直接使用,如果带了使用时就带上参数,!相隔
  
1).
监控
nagiosftp
编辑
services.cfg 增加下面的内容,基本上就是copy上节我们定义监控主机存活的代码.
define service{
        host_name               nagios
      
//要监控的机器,给出机器名,注意必须是hosts.cfg中定义的
        service_description     check ftp
     
//给这个监控项目起个名字吧,任意起,你自己懂就行

        check_command           check_ftp
        max_check_attempts      5
        normal_check_interval   3
        retry_check_interval    2
        check_period            24x7
        notification_interval   10
        notification_period     24x7
        notification_options    w,u,c,r
        contact_groups          sagroup
        }
  
修改了配置文件
,当然就要重新启动了,简单的方法杀掉nagios进程,然后重新启动
/usr/local/nagios/bin/nagios -d /usr/local/nagios/etc/nagios.cfg

这里只能监控监控服务器的本地信息,需要监控被监控服务器的信息,就需要下面的操作。


5.
NRPE监控LINUX上的”本地信息”
本节的目的
,对系统为linux的主机apcahe进行如下监控:磁盘容量,登陆用户数,http,ftp,mysql的状况,其他功能自己可以自定义配置
对于像磁盘容量
,cpu负载这样的”本地信息”,nagios只能监测自己所在的主机,而对其他的机器则显得有点无能为力.毕竟没得到被控主机的适当权限是不可能得到这些信息的.为了解决这个问题,nagios有这样一个附加组件----NRPE.用它就可以完成对linux类型主机”本地信息”的监控.
  
所以我们按照图示在监控主机
(nagios)和被监控主机上安装相应的软件
在被监控主机上


1)
增加用户

useradd nagios

设置密码

# passwd nagios



2)安装nagios插件
tar -zxvf nagios-plugins-1.4.9.tar.gz
cd nagios-plugins-1.4.9
编译安装

./configure --enable-redhat-pthread-workaround
make
make install
这一步完成后会在
/usr/local/nagios/下生成两个目录libexecshare
# ls /usr/local/nagios/
libexec  share

修改目录权限

# chown nagios.nagios /usr/local/nagios
# chown -R nagios.nagios /usr/local/nagios/libexec
  
3)
安装
nrpe
解压缩

tar -zxvf nrpe-2.8.1.tar.gz
cd nrpe-2.8.1
编译

./configure
NRPE
的端口是
5666
make all
接下来安装
NPRE插件,daemon和示例配置文件
安装
check_nrpe这个插件
make install-plugin
之前说过监控机需要安装
check_nrpe这个插件,被监控机并不需要,我们在这里安装它是为了测试的目的
安装
deamon
make install-daemon

安装配置文件

make install-daemon-config

论坛徽章:
0
7 [报告]
发表于 2009-02-11 20:01 |只看该作者
  
现在再查看nagios目录就会发现有4个目录了
# ls /usr/local/nagios/
bin      etc      libexec  share
NRPE deamon作为xinetd下的一个服务运行的.在这样的情况下xinetd就必须要先安装好,不过一般系统已经默认装了
  
4)安装xinetd脚本
# make install-xinetd
输出如下

/usr/bin/install -c -m 644 sample-config/nrpe.xinetd /etc/xinetd.d/nrpe

可以看到创建了这个文件
/etc/xinetd.d/nrpe
编辑这个脚本

vi /etc/xinetd.d/nrpe
# default: on
# description: NRPE (Nagios Remote Plugin Executor)
service nrpe
{
        flags           = REUSE
        socket_type     = stream
        port            = 5666
        wait            = no
        user            = nagios
        group           = nagios
        server          = /usr/local/nagios/bin/nrpe
        server_args     = -c /usr/local/nagios/etc/nrpe.cfg --inetd
        log_on_failure  += USERID
        disable         = no
        only_from       = 127.0.0.1   
在后面增加监控主机的地址192.168.1.240,以空格间隔
}

改后

     only_from       = 127.0.0.1 192.168.1.240
  
编辑
/etc/services文件,增加NRPE服务
vi /etc/services

增加如下

# Local services
nrpe            5666/tcp                        # nrpe

重启
xinetd服务
# service xinetd restart

查看
NRPE是否已经启动
# netstat -at|grep nrpe
tcp        0      0 *:nrpe                  *:*                     LISTEN   
# netstat -an|grep 5666
tcp        0      0 0.0.0.0:5666            0.0.0.0:*               LISTEN   
可以看到
5666端口已经在监听了
  
5)
测试
NRPE是否则正常工作
之前安装了
check_nrpe这个插件用于测试,现在就是用的时候.执行
/usr/local/nagios/libexec/check_nrpe -H localhost
会返回当前
NRPE的版本
# /usr/local/nagios/libexec/check_nrpe -H localhost
NRPE v2.8.1

也就是在本地用
check_nrpe连接nrpe daemon是正常的
:为了后面工作的顺利进行,注意本地防火墙要打开5666能让外部的监控机访问
  
/usr/local/nagios/libexec/check_nrpe –h
查看这个命令的用法

可以看到用法是
check_nrpe –H 被监控的主机 -c要执行的监控命令
注意
:-c后面接的监控命令必须是nrpe.cfg文件中定义的.也就是NRPE daemon只运行nrpe.cfg中所定义的命令
查看
NRPE的监控命令
cd /usr/local/nagios/etc
vi nrpe.cfg

# The following examples use hardcoded command arguments...
command[check_users]=/usr/local/nagios/libexec/check_users -w 5 -c 10
command[check_load]=/usr/local/nagios/libexec/check_load -w 15,10,5 -c 30,25,20
command[check_hda1]=/usr/local/nagios/libexec/check_disk -w 20 -c 10 -p /dev/hda1
command[check_zombie_procs]=/usr/local/nagios/libexec/check_procs -w 5 -c 10 -s Z
command[check_total_procs]=/usr/local/nagios/libexec/check_procs -w 150 -c 200

注意:其他命令需要自行添加

也就是
check_nrpe -c参数可以接的内容,等号=后面是实际执行的插件程序(只这与commands.cfg中定义命令的形式十分相似,不过是写在了一行).也就是说 check_users就是等号后面/usr/local/nagios/libexec/check_users -w 5 -c 10的简称.
我们可以很容易知道上面这
5行定义的命令分别是检测登陆用户数,cpu负载,hda1的容量,僵尸进程,总进程数.各条命令具体的含义见插件用法(执行”插件程序名 –h”)
由于
-c后面只能接nrpe.cfg中定义的命令,也就是说现在我们只能用上面定义的这五条命令.我们可以在本机实验一下.执行
/usr/local/nagios/libexec/check_nrpe -H localhost -c check_users

/usr/local/nagios/libexec/check_nrpe -H localhost -c check_load

/usr/local/nagios/libexec/check_nrpe -H localhost -c check_hda1

/usr/local/nagios/libexec/check_nrpe -H localhost -c check_zombie_procs

/usr/local/nagios/libexec/check_nrpe -H localhost -c check_total_procs

在运行
nagios的监控主机上
之前已经将
nagios运行起来了,现在要做的事情是:
安装
check_nrpe插件
commands.cfg中创建check_nrpe的命令定义,因为只有在commands.cfg中定义过的命令才能在services.cfg中使用
创建对被监控主机的监控项目

安装
check_nrpe插件
# tar -zxvf nrpe-2.8.1.tar.gz
# cd nrpe-2.8.1
# ./configure
# make all
# make install-plugin
只运行这一步就行了,因为只需要check_nrpe插件

论坛徽章:
0
8 [报告]
发表于 2009-02-11 20:02 |只看该作者
apache刚装好了nrpe,现在我们测试一下监控机使用check_nrpe与被监控机运行的nrpedaemon之间的通信.

# /usr/local/nagios/libexec/check_nrpe -H 192.168.1.208
NRPE v2.8.1

看到已经正确返回了NRPE的版本信息,说明一切正常.
commands.cfg中增加对check_nrpe的定义
vi /usr/local/nagios/etc/commands.cfg
在最后面增加如下内容

########################################################################
#
# 2007.9.5 add by yahoon
# NRPE COMMAND
#
########################################################################
# 'check_nrpe ' command definition
define command{
        command_name check_nrpe
        command_line $USER1$/check_nrpe -H $HOSTADDRESS$ -c $ARG1$
        }

意义如下

command_name check_nrpe
定义命令名称为check_nrpe,services.cfg中要使用这个名称.

command_line $USER1$/check_nrpe -H $HOSTADDRESS$ -c $ARG1$
这是定义实际运行的插件程序.这个命令行的书写要完全按照check_nrpe这个命令的用法.不知道用法的就用check_nrpe –h查看

-c
后面带的
$ARG1$参数是传给nrpe daemon执行的检测命令,之前说过了它必须是nrpe.cfg中所定义的那5条命令中的其中一条.services.cfg中使用check_nrpe的时候要用!带上这个参数
下面就可以在
services.cfg中定义对apache主机磁盘容量的监控
define service{
        host_name              apache
被监控的主机名,这里注意必须是linux且运行着nrpe,而且必须是hosts.cfg中定义的
        service_description     check-disk
        
监控项目的名称
        check_command           check_nrpe!check_disk
      
监控命令是check_nrpe,是在commands.cfg中定义的,带的参数是check_disk,是在nrpe.cfg中定义的

        max_check_attempts      5
        normal_check_interval   3
        retry_check_interval    2
        check_period            24x7
        notification_interval   10
        notification_period     24x7
        notification_options    w,u,c,r
        contact_groups          sagroup
        }
像这样将其余几个监控项目加进来
.

6.Nagios
的性能分析图表
(此安装在监控机上进行)
Nagios
监控的侧重点在“此时”服务是否正常,是一个瞬时状态。通过对这个状态的监控和告警,管理员可以第一时间对主机或者服务的故障做处理。但是我们往往也非常关心主机的性能以及服务的响应时间等情况,这些情况是一个持续的变化曲线,并非一个实时的值,如果通过查看日志数据来分析的话,既繁琐有抽象,所以,我们希望
Nagios可以帮我们做这份工作,然后将报表提交给我们,这样就非常方便了。这就是今天需要用到的Nagios的相关开源项目—— PNP

PNP
是一个小巧的开源软件包,它是基于
PHPPERL,利用rrdtoolNagios采集的数据绘制成图表。如果你要安装PNP,那么准备工作有如下3项:
1
、整合
ApachePHP
2
、安装
rrdtools
3
、安装
Perl
1
)安装
php
./configure \
--prefix=/usr/local/php \
--with-mysql=/usr/local/mysql \
--with-apxs2=/usr/local/apache2/bin/apxs \
--with-gd --with-jpeg-dir=/usr/lib --enable-gd-native-ttf \
--with-zlib-dir=/usr/lib --with-png-dir=/usr/lib \
--with-freetype-dir=/usr/include/freetype2 --with-ttf \
--enable-sockets --enable-ftp --enable-mbstring

make && make install

#
httpd配置文件里加入,使apache支持php
AddType application/x-httpd-php .php .phtml
AddType application/x-httpd-php-source .phps

#
拷贝
php配置文件到指定位置
cp php.ini-dist /usr/local/php/lib/php.ini

2
)安装
rrdtools
./configure
make&&make install

3)
安装
Perl
rm -f config.sh Policy.sh
sh Configure -de
make
make test
make install

要介绍
PNP工作原理,首先要说明一下Nagios提供的数据接口,也就是PNP的数据来源。在定义hostservice 中都有一个定义项,名为process_perf_data,其值可以定义为01,其作用是是否启用Nagios的数据输出功能。如果你将此项赋值为 1,那么Nagios就会将收集的数据写入到某个文件中,以备提取。所以,如果你想让Nagios将数据输出的话,首先要将Nagios的主配置文件 nagios.cfg中相关的配置修改:

process_performance_data=1
service_perfdata_command=process-service-perfdata  
#默认此句被注释掉了,在这里去掉前面的#
如果想要对某个监控对象做数据图表,则需在所对应的
host或者service定义中(一般写在hosts.cfg或者services.cfg文件中),包含如下的定义:

process_perf_data   1

论坛徽章:
0
9 [报告]
发表于 2009-02-11 20:02 |只看该作者
这样,Nagios就会调用相应的命令来输出数据了。Nagioscommand.cfg定义中默认有一项“process-service- perfdata”,该命令声明了Nagios输出哪些值到输出的文件中。不过其定义相对简单,PNP提供了一个perl脚本,更详尽的定义了一个输出数据的方法。如果要使用PNP的话,我们需要在command.cfg的定义中,将“process-service-perfdata”命令对应的执行命令行的内 容替换成该脚本:

define command{
command_name process-service-perfdata
command_line /usr/local/nagios/libexec/process_perfdata.pl
}
这样设置了之后,Nagios就会利用PNP提供的脚本进行相关的工作了。刚刚定义命令时用到的脚本“process_perfdata.pl”现在还不存在。我们现在就来安装,也就PNP的软件包安装方法很简单,过程也很顺利

./configure --with-rrdtool=/usr/local/rrdtool-1.0.50/bin/rrdtool --with-perfdata-dir=/usr/local/nagios/share/perfdata/
make all
make install

安装结束之后,再去检查一下
Nagios的插件目录(libexec),就会发现多了一个名为“process_perfdata.pl”的脚本。
ok
,现在执行一下
Nagios配置检查命令
/usr/local/nagios/bin/nagios -v /usr/local/nagios/etc/nagios.cfg
如果没有什么错误,那么我们重新启动
Nagios
/etc/init.d/nagios restart
验收一下成果,在浏览器的地址栏中输入:

http://IP/nagios/pnp/index.php


基本上
nagios的主要功能就有这些,nagios的使用关键在于如何活用那些丰富的插件.nagios可以说是一个对于linux/unix环境支持十分好的程序.
之前我说重启
nagios的时候都是用的杀进程的方式,其实也可以不这么做.如果在安装nagios的时候安装了启动脚本就可以使用/etc/init.d/nagios restart 还可以带的参数有stop, start,status
如果报错了
,有可能是脚本里面的路径设置错误,解决办法:
vi /etc/init.d/nagios
prefix=/usr/local/nagiosaa改为安装的目录/etc/init.d/nagios
:nagios安装的时候说是将脚本安装到了/etc/rc.d/init.d,其实这和/etc/init.d是一个目录。

论坛徽章:
0
10 [报告]
发表于 2009-08-23 12:35 |只看该作者

回复 #1 八重樱 的帖子

要是图片没挂就完美了
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP