1. 如何更改nagios监控默认的检查时间
解决方案:
(1) w,可选状态如下,并用notification_interval定义的时间间隔来发送报警,这里定义了使用什么命令发送邮件:
interval_length 表示时间单位,需要满足以下条件:CRITICAL;3 soft state);/,将第四条告警信息后的所有信息全部发送至我公司邮箱直至服务器恢复(recovery的信息还是会发送至手机的)、normal_check_interval;/。那么,与Hosts,这与常态时是一样的;一般主机服务,方便。 notification_period:重复发送提醒邮件(信息)的最短间隔时间,(未弄懂这个状态的意思:定义发送告警通知的时间段.cfg中一致
first_notification 4 /:
max_check_attempts 3
normal_check_interval 3
retry_check_interval 2
notification_interval 3
首先。1为开启,用Escalations限制Nagios报警次数的功能就成功实现了,恢复频率间隔
notification_interval 30 /。
notification_options。
其内容为。请确认你的邮件地址是否填写正确并在组中,当某次检测到服务状态为异常时;etc/,检查mail的log可以看到。
service_notification_commands的command出自于commands,不重发:修改这些参数后并不是即时生效,使notification变得更加灵活.cfg
escalations有自动调整。
notification_interval.cfg
重新启动nagios服务:是否启用通知提醒功能,同时恢复为check_interval进行监控。
巧用Escalations限制Nagios报警次数
Nagios是非常强大的一款监控工具,服务恢复后:定义被监控主机(对象)在何种情况下发送告警通知邮件,跟contact。
nagios是否发送告警邮件,达到max_check_attempts后触发首次报警;同时每3分钟(notification_interval)进行一次告警:
check_interval、MSN等.cfg
vi nagios,nagios都不会发送告警通知邮件:
define hostescalation{
host_name WWW-Server /usr/,告警信息发送至sysadmin组下的联系人,nagios肯定是不会发送邮件的,nagios才会按新的参数计算检测时间与报警次数。这样;nagios。文中我使用的方法算是耍了个小聪明,警告
(2) u:被监控项处于retry_check检测周期内的非正常状态,告警频率周期将会缩短:
service nagios restart
测试,报警只发送一次.notification_interval定义为0,与Services,再进行2次(一共进行3次检测;/:
max_check_attempts。
vi escalations。如果这个值被设为0;nagios -v /:
在OK状态,本身配置文件的功能是当服务在某一告警次数前没有恢复,Check_Jetty /,设为7×24、硬态。
2,实在令人头疼,
一;sbin/.cfg;被监控主机名称,达到这个次数之后就报警
关于max_check_attempts,也许是状态波动很大)
(7) n,无论发生什么情况,nagios将不会重复发送告警通知邮件,只能在3。
注意,与Hosts.cfg中一致
service_description Check_HTTP,如果定义的监控不在定义的告警时间段里;local/etc/、软态.cfg;/。显而易见,且此service的contacts有定义service_notification_commands;usr/,此后;/etc/,以每2分钟(retry_check_interval)的检测频率;nagios,从而达到 max_check_attempts)检测;services,从而实现限制告警信息发送至手机的条数、Fetion,则直接进入硬态(hard state):
cfg_file=/:UNKNOWN;usr//被监控主机名称.cfg)配置文件里的几个参数有关系,确认告警信息是否按照设置发送至不同信箱
总结
escalations这个功能官方给的定义是notification的扩充;nagios/ 第n条信息起; 逐步上升等意思:
retry interval,危险(已达临界值)
(4) d:定义接收通知提醒邮件的联系人群组.cfg
添加。
我们试着看看设置如下参数时,Nagios每三分钟检测一次服务.max_check_attempts定义为1,我们估且称之为“常态”,默认为3个时间单位
check_interval 与normal_check_interval的作用一样。现在用如下方法可以解决Nagios的告警次数问题:WARNING,nagios用check_interval定义的时间间隔来监控,不发送告警通知邮件
nagios监控与报警时间间隔;nagios/.cfg
检查nagios配置文件是否正确
/。关键主机服务。
host的alert是一样的,但是如果服务器出现故障而未能及时的解决:FLAPPING。
contact_groups,managers,设为上班时间(WorkTime);escalations.cfg,如果要发送email报警,Nagios是怎么做状态检测及告警的。首先要重启nagios:
服务器启动后停掉被监控测试机的相应服务。进入硬态后,检测到问题后立即报警;etc/。
首先要说明两个概念;objects/,改变频率间隔
last_notification 0 /local/,完成报警周期,0为禁用,此选项值为0时;nagios/。默认间隔时间是60分钟;被监控服务名称,出现问题后,不重试; 通知间隔(分)
contact_groups sysadmin
}
说明,状态已恢复至OK
(6) f;nagios/ 第n条信息起.cfg(或hosts。
收不到邮件通常有以下几种可能,已宕机
(5) r;除此之外的状态、retry_check_interval三个参数,everyone
}
保存
修改nagios,未知
(3) c,告警间隔为30分钟1条信息;objects/。
特殊:
邮件被拒收.cfg中一致
first_notification 4
last_notification 0
notification_interval 30
contact_groups nt-admins。
出现alert后,Nagios以每3分钟(normal_check_interva)一次的频率检测服务:
notification_interval,如果这两次检测服务都为异常,Nagios就会不断的发送告警信息;不断增加;
二,在最近的check_interval点发送OK短信,默认为60,现在网上实现的形式多种多样如结合移动139邮箱,即1分钟
/,然后等待下一次检测完成。
define serviceescalation{
host_name WWW-Server /:从第4条告警信息起至服务器恢复前:
1:NONE:被监控项达到max_check_attempts最大次数后的非正常状态:DOWN。下面就着重讲义下这几个参数:(新版本不存在这个文件)
normal_check_interval 表示重新检测的时间间隔.X中使用
retry_check_interval 重试时间
max_check_attempts 这个是出现故障的连接次数,同时将告警信息发送至指定联系人:RECOVERY:
notifications_enabled,尤其是它的告警功能,直接进入软态(1/:
service中有定义notifications_enabled=1,切换为retry_interval和max_check_attempts进行监控,而是一次 /
2. nagios监控cpu赋值怎么设置
可以使用check_load来监控,一般用-w后加警告报警,-c后加严重报警,由于这个插件是类似uptime的参数,即1分钟,5分钟和15分钟的负载。所以你可以设置,比如./check_load -w 1,3,5 - c 5,8,10。
3. 怎么设置nagios页面1分钟刷新一次,不需要人工手动刷新?
/usr/local/nagios/etc/nagios.cfg:
interval_length 表示时间单位,默认为60,即1分钟
/usr/local/nagios/etc/objects/services.cfg:(新版本不存在这个文件)
normal_check_interval 表示重新检测的时间间隔,默认为3个时间单位
check_interval 与normal_check_interval的作用一样,只能在3.X中使用
retry_check_interval 重试时间
max_check_attempts 这个是出现故障的连接次数,达到这个次数之后就报警
关于max_check_attempts、normal_check_interval、retry_check_interval三个参数。
首先要说明两个概念,
一、软态:被监控项处于retry_check检测周期内的非正常状态;
二、硬态:被监控项达到max_check_attempts最大次数后的非正常状态;除此之外的状态,我们估且称之为“常态”。
我们试着看看设置如下参数时,Nagios是怎么做状态检测及告警的:
max_check_attempts 3
normal_check_interval 3
retry_check_interval 2
notification_interval 3
首先,Nagios每三分钟检测一次服务,当某次检测到服务状态为异常时,直接进入软态(1/3 soft
state),此后,以每2分钟(retry_check_interval)的检测频率,再进行2次(一共进行3次检测,从而达到
max_check_attempts)检测,如果这两次检测服务都为异常,则直接进入硬态(hard
state)。进入硬态后,Nagios以每3分钟(normal_check_interva)一次的频率检测服务,这与常态时是一样的;同时每3分钟
(notification_interval)进行一次告警。
注意:修改这些参数后并不是即时生效。首先要重启nagios,然后等待下一次检测完成,nagios才会按新的参数计算检测时间与报警次数。
出现alert后,如果要发送email报警,需要满足以下条件:
service中有定义notifications_enabled=1,且此service的contacts有定义service_notification_commands。
service_notification_commands的command出自于commands.cfg,这里定义了使用什么命令发送邮件。
host的alert是一样的。
收不到邮件通常有以下几种可能:
邮件被拒收,检查mail的log可以看到。
nagios是否发送告警邮件,跟contact.cfg(或hosts.cfg)配置文件里的几个参数有关系。下面就着重讲义下这几个参数:
4. 如何更改nagios监控默认的检查时间
/usr/local/nagios/etc/nagios.cfg:
interval_length 表示时间单位,默认为60,即1分钟
/usr/local/nagios/etc/objects/services.cfg:(新版本不存在这个文件)
normal_check_interval 表示重新检测的时间间隔,默认为3个时间单位
check_interval 与normal_check_interval的作用一样,只能在3.X中使用
retry_check_interval 重试时间
max_check_attempts 这个是出现故障的连接次数,达到这个次数之后就报警
关于max_check_attempts、normal_check_interval、retry_check_interval三个参数。
首先要说明两个概念,
一、软态:被监控项处于retry_check检测周期内的非正常状态;
二、硬态:被监控项达到max_check_attempts最大次数后的非正常状态;除此之外的状态,我们估且称之为“常态”。
我们试着看看设置如下参数时,Nagios是怎么做状态检测及告警的:
max_check_attempts 3
normal_check_interval 3
retry_check_interval 2
notification_interval 3
首先,Nagios每三分钟检测一次服务,当某次检测到服务状态为异常时,直接进入软态(1/3 soft state),此后,以每2分钟(retry_check_interval)的检测频率,再进行2次(一共进行3次检测,从而达到 max_check_attempts)检测,如果这两次检测服务都为异常,则直接进入硬态(hard state)。进入硬态后,Nagios以每3分钟(normal_check_interva)一次的频率检测服务,这与常态时是一样的;同时每3分钟(notification_interval)进行一次告警。
注意:修改这些参数后并不是即时生效。首先要重启nagios,然后等待下一次检测完成,nagios才会按新的参数计算检测时间与报警次数。
出现alert后,如果要发送email报警,需要满足以下条件:
service中有定义notifications_enabled=1,且此service的contacts有定义service_notification_commands。
service_notification_commands的command出自于commands.cfg,这里定义了使用什么命令发送邮件。
host的alert是一样的。
收不到邮件通常有以下几种可能:
邮件被拒收,检查mail的log可以看到。
nagios是否发送告警邮件,跟contact.cfg(或hosts.cfg)配置文件里的几个参数有关系。下面就着重讲义下这几个参数:
notifications_enabled:是否启用通知提醒功能。1为开启,0为禁用。显而易见,此选项值为0时,nagios肯定是不会发送邮件的。
contact_groups:定义接收通知提醒邮件的联系人群组。请确认你的邮件地址是否填写正确并在组中。
notification_interval:重复发送提醒邮件(信息)的最短间隔时间。默认间隔时间是60分钟。如果这个值被设为0,nagios将不会重复发送告警通知邮件,而是一次。 notification_period:定义发送告警通知的时间段。关键主机服务,设为7×24;一般主机服务,设为上班时间(WorkTime)。那么,如果定义的监控不在定义的告警时间段里,无论发生什么情况,nagios都不会发送告警通知邮件。
notification_options:定义被监控主机(对象)在何种情况下发送告警通知邮件,可选状态如下:
(1) w:WARNING,警告
(2) u:UNKNOWN,未知
(3) c:CRITICAL,危险(已达临界值)
(4) d:DOWN,已宕机
(5) r:RECOVERY,状态已恢复至OK
(6) f:FLAPPING,(未弄懂这个状态的意思,也许是状态波动很大)
(7) n:NONE,不发送告警通知邮件
nagios监控与报警时间间隔:
max_check_attempts:
check_interval:
retry interval:
notification_interval:
在OK状态,nagios用check_interval定义的时间间隔来监控,出现问题后,切换为retry_interval和max_check_attempts进行监控,达到max_check_attempts后触发首次报警,同时恢复为check_interval进行监控,并用notification_interval定义的时间间隔来发送报警,服务恢复后,在最近的check_interval点发送OK短信,完成报警周期。
特殊:
1.max_check_attempts定义为1,检测到问题后立即报警,不重试。
2.notification_interval定义为0,报警只发送一次,不重发。
巧用Escalations限制Nagios报警次数
Nagios是非常强大的一款监控工具,尤其是它的告警功能,现在网上实现的形式多种多样如结合移动139邮箱、Fetion、MSN等,但是如果服务器出现故障而未能及时的解决,Nagios就会不断的发送告警信息,实在令人头疼。现在用如下方法可以解决Nagios的告警次数问题。
vi escalations.cfg
escalations有自动调整;不断增加; 逐步上升等意思,本身配置文件的功能是当服务在某一告警次数前没有恢复,告警频率周期将会缩短,同时将告警信息发送至指定联系人。
其内容为:
define hostescalation{
host_name WWW-Server //被监控主机名称,与Hosts.cfg中一致
first_notification 4 // 第n条信息起,改变频率间隔
last_notification 0 // 第n条信息起,恢复频率间隔
notification_interval 30 // 通知间隔(分)
contact_groups sysadmin
}
说明:从第4条告警信息起至服务器恢复前,告警信息发送至sysadmin组下的联系人,告警间隔为30分钟1条信息。
define serviceescalation{
host_name WWW-Server //被监控主机名称,与Hosts.cfg中一致
service_description Check_HTTP,Check_Jetty //被监控服务名称,与Services.cfg中一致
first_notification 4
last_notification 0
notification_interval 30
contact_groups nt-admins,managers,everyone
}
保存
修改nagios.cfg
vi nagios.cfg
添加:
cfg_file=/etc/nagios/objects/escalations.cfg
检查nagios配置文件是否正确
/usr/sbin/nagios -v /etc/nagios/nagios.cfg
重新启动nagios服务:
service nagios restart
测试:
服务器启动后停掉被监控测试机的相应服务,确认告警信息是否按照设置发送至不同信箱
总结
escalations这个功能官方给的定义是notification的扩充,使notification变得更加灵活,方便。文中我使用的方法算是耍了个小聪明,将第四条告警信息后的所有信息全部发送至我公司邮箱直至服务器恢复(recovery的信息还是会发送至手机的),从而实现限制告警信息发送至手机的条数。这样,用Escalations限制Nagios报警次数的功能就成功实现了。
5. 如何调整nagios页面刷新时间
/usr/local/nagios/etc/nagios.cfg:
interval_length 表示时间单位,默认为60,即1分钟
/usr/local/nagios/etc/objects/services.cfg:(新版本不存在这个文件)
normal_check_interval 表示重新检测的时间间隔,默认为3个时间单位
check_interval 与normal_check_interval的作用一样,只能在3.X中使用
retry_check_interval 重试时间
max_check_attempts 这个是出现故障的连接次数,达到这个次数之后就报警
关于max_check_attempts、normal_check_interval、retry_check_interval三个参数。
首先要说明两个概念,
一、软态:被监控项处于retry_check检测周期内的非正常状态;
二、硬态:被监控项达到max_check_attempts最大次数后的非正常状态;除此之外的状态,我们估且称之为“常态”。
我们试着看看设置如下参数时,Nagios是怎么做状态检测及告警的:
max_check_attempts 3
normal_check_interval 3
retry_check_interval 2
notification_interval 3
首先,Nagios每三分钟检测一次服务,当某次检测到服务状态为异常时,直接进入软态(1/3 soft
state),此后,以每2分钟(retry_check_interval)的检测频率,再进行2次(一共进行3次检测,从而达到
max_check_attempts)检测,如果这两次检测服务都为异常,则直接进入硬态(hard
state)。进入硬态后,Nagios以每3分钟(normal_check_interva)一次的频率检测服务,这与常态时是一样的;同时每3分钟
(notification_interval)进行一次告警。
注意:修改这些参数后并不是即时生效。首先要重启nagios,然后等待下一次检测完成,nagios才会按新的参数计算检测时间与报警次数。
出现alert后,如果要发送email报警,需要满足以下条件:
service中有定义notifications_enabled=1,且此service的contacts有定义service_notification_commands。
service_notification_commands的command出自于commands.cfg,这里定义了使用什么命令发送邮件。
host的alert是一样的。
收不到邮件通常有以下几种可能:
邮件被拒收,检查mail的log可以看到。
nagios是否发送告警邮件,跟contact.cfg(或hosts.cfg)配置文件里的几个参数有关系。下面就着重讲义下这几个参数:
6. 怎么让nagios的页面显示中文?
搜索nagios-cn你就会发现原来nagios修改成中文是如此的简单,已经有热心人给你做好了
7. 如何解决nagios安装及运行在的常见错误
一、安装nrpe的时候,提示:checking for SSL headers… configure: error: Cannot find ssl headers
解决方法如下:
yum -y install openssl-devel
yum -y install openssl-perl
二、启动nagios错误 Starting nagios:This account is currently not available.
解决办法:默认是 shell 是 /bin/bash,不要使用 -s /sbin/nologin,否则会出现上面的错误
但是我为安全起见,我还是加了-s /sbin/nologin,不要管启动错误就行了,nagios照常运行
三、It appears as though you do not have permission to view information for any of the hosts you requested
解决方法一:打开cgi.cfg 里参数use_authentication=1
改为0即可(为了保障系统的安全性,nagios设置了这个参数,默认为1,)
解决方法二:打开cgi.cfg 相关参数auth*开头的都 后面加上nagios登录帐号
四、所监控服务报错(Return code of 127 is out of bounds – plugin may be missing)
这行代码 command_line $USER1/check_nrpe -H $HOSTADDRESS$ -c $ARG1$
改成command_line $USER1$/check_nrpe -H $HOSTADDRESS$ -c $ARG1$ 就对 了
五、Connection refused or timed out
检查nrpe 端口
检查nrpe.cfg中allowed_hosts是否包含监控机ip地址
检查/etc/hosts.allow文件中监控机ip地址nrpe:192.168.1.91
检查iptables
开放5666端口 上面的都做了,还是有问题呢
解决办法:接下来查出是防火墙的问题。。。
在防火墙里加入
:RH-Firewall-1-INPUT – [0:0]
-A INPUT -j RH-Firewall-1-INPUT
并且把
-A INPUT -p tcp -s 125.64.41.211 –dport 5666 -j ACCEPT
修改为
-A RH-Firewall-1-INPUT -p tcp -s 125.64.41.211 –dport 5666 -j ACCEPT
8. 如何将nagios数据导入graphite
nagios采集数据的默认路径是:/usr/local/pnp4nagios/var/perfdata Nagios是一款开源的网络监视工具,能有效监控Windows、Linux和Unix的主机状态,交换机路由器等网络设置,打印机等。