目前没遇到网络引起的故障,一般不要乱修改配置,网络还是很稳定的。
案例:
之前遇到一个tomcat应用无法访问,查看catlian.out日志,发现大量的“can't creat new connection”,修改tomcat最大连接数后,能坚持1-2分钟,又不行了。然后数据库负载报警,登陆数据库服务器,发现大量来自这个应用服务器的连接,数据库慢查询日志最高的sql执行20多秒,把这个sql给dba,优化后解决。
对于在线日志, 我经常是定期去取,然后关注关键字, 比如下面的一行脚本会统计 某节点上的ORACLE DB alert里面告警信息, 并统计数量。
for i in HOST_LIST
do
echo " "
ssh host$i "hostname;ls $_TRACE_DB1_LD; egrep 'ORA-(00600|00700|00240|00494|07445)' $_TRACE_DB1_LD|sort |uniq -c | tee >( wc -l)"
done