日志监控很重要!!!一个运维的伤心史……
获奖详情:http://bbs.chinaunix.net/thread-4216624-1-1.html今天发这个帖子是因为正好公司在搞这个日志检索工具,因为什么呢请看下面案例。
案列介绍:
上个月的一天,监控突然报警某linux 主机网卡流量异常,直接把网卡打满了,然后出口流量也被打满 基本一个网段都快完了。
马上去服务器上检查,直接断掉这个服务器,苦命的检查了半个多小时,发现是被人攻击了。删掉木马程序也不行。后来把目录权限给限制了
不让写才解决问题,但是怎么出现的问题呢
最后看了下tomcat的目录 居然有web shell 在上面。
检查服务器的ssh 日志 发现已经被尝试密码好几个月了。
这个主机为购买的系统,联系厂家重新安装软件。
上述案例截图我就不补上传了,太伤心了。
大家来讨论问题吧
本期特邀嘉宾:本书作者chenryn,大家有什么问题可以尽情发问。(饶琛琳 新浪网系统架构师,曾任人人网技术专家,中华网高级运维工程师等职位。参与了大规模系统的运维监控设计与自动化平台的建设,对CDN架构、系统监控和日志分析都有丰富的经验。)
讨论问题 :
1 上述案例告诉我们,日志监管真的很重要,你们遇到过什么问题?
2 大家都在使用什么日志分析软件?
3 你觉得还有什么好的办法解决这样的问题呢?
活动时间:2015年11月13日—2015年12月13日
奖励设置:
活动结束后,我们将选取4位讨论精彩的同学,各送一本《ELK stack权威指南》。
http://images.china-pub.com/ebook60001-65000/64005/zcover.jpg
作者: 饶琛琳
丛书名: 数据分析与决策技术丛书
出版社:机械工业出版社
ISBN:9787111516347
上架时间:2015-10-10
出版日期:2015 年10月
开本:16开
版次:1-1
内容简介:Elasticsearch、Logstash、Kibana这三个开源软件组成了当今最流行的实时数据分析利器,为快速应对大数据时代的数据收集、检索、可视化,提供了一站式解决方案,成为实时日志处理领域开源界的第一选择。本书对ELK stack的工作原理概念进行了解剖,不仅分享了大量实战案例和实现效果,而且分析了部分源代码。作者将自己多年的运维开发实战经验融入了书中,使得本书易读、易懂,将复杂的环境分解得清清楚楚,展示了多种工具的组合使用,为打造复杂环境的数据分析系统提供了有价值的参考。
样章试读:
1.日志对于运维来说太重要了,排查问题首先就要从日志着手,还有诸如安全审计等。
2.之前基本还是人肉的方式查问题,效率太差了,最近在着手搭建日志分析平台,就是ELK stack。
3。这个平台上线后应该可以解决日志的查找速度问题,开发查看日志也会更加的方便。 支持,很不错的书。 提两个问题:lol:
1.如果在每个服务器上都安装logstash会不会太重了,而且如果业务有使用java会对jdk的版本有要求,使用logstash也同样依赖于jdk,可能会造成jdk版本的冲突,这个怎么处理?
2.目前在考虑使用logstash-forwarder,但是这个软件功能呢又比较简单,又想对json类型的日志进行收集处理,请问有没有什么更好的方法?
之前的问题问的太幼稚了..
在indexer的filter那进行处理就行了 1 上述案例告诉我们,日志监管真的很重要,你们遇到过什么问题?
没有巡检吗?上个月的都有问题居然没有发现。我们会对带外管理、cpu、内存、网络、安全都有审计和监控。
有很多开源的软件可以用。
像上述的问题,应该早就报警了。
有大量的日志文件信息包需要监管。
有很多易用的软件。
2 大家都在使用什么日志分析软件?
zabbix,ganglia等,我们自己也作了一些。
3 你觉得还有什么好的办法解决这样的问题呢?
提高软件供应商的软件水平。
软件使用厂家也要多自己培养和学习。
多巡检。 虫虫猫 发表于 2015-11-13 16:50 static/image/common/back.gif
提两个问题:
1.如果在每个服务器上都安装logstash会不会太重了,而且如果业务有使用java会对jdk的版本 ...
高版本的java一般是能兼容低版本的,你们的应用是不是出现什么问题了??是不是用到版本的特定功能?? 1 上述案例告诉我们,日志监管真的很重要,你们遇到过什么问题?
日志虽然是事后诸葛亮,但还是非常重要的,遇到攻击、异常等,首先想到的应该是日志,如果日志也被删除,那这个系统基本上无可救药了。
重要的系统,如果机器够用的话,最好有独立的日志服务器,这样遇到攻击了时候,也能保证日志不被删除。
web系统最简单的是加一级nginx反向代理,日志都在反向代理服务器上,想删除也不容易。
2 大家都在使用什么日志分析软件?
目前自己写的分析程序,两分钟分析一次,跟防火墙联动,遇到攻击特征的字符串就自动封IP或者限制连接数,相当于一个手动的utm,防火墙造价太高,并且不一定能适合我们的应用。
现在的运维工具基本上都支持日志分析。
3 你觉得还有什么好的办法解决这样的问题呢?
不定时分析日志,肯定是运维的失误。
不仅是网站的日志,像登录日志,messages异常,security日志等,必须每天过滤一遍,重要的系统最好几分钟就来一次,遇到问题及时报警。 1 上述案例告诉我们,日志监管真的很重要,你们遇到过什么问题?
我遇到过和案例一模一样的问题
2 大家都在使用什么日志分析软件?
没用软件,靠cat和vi命令行
3 你觉得还有什么好的办法解决这样的问题呢?
Linux杀毒软件 回复 8# lsstarboy
目前自己写的分析程序,两分钟分析一次,跟防火墙联动,遇到攻击特征的字符串就自动封IP或者限制连接数,相当于一个手动的utm
--这个能详细说说怎么实现的么,比如说什么是有攻击特征的字符串?怎么自动封ip和限制连接数?谢谢
另外一个,我觉得日志太多,怎么才能从日志里面区分是哪些日志是不正常的日志,哪些是正常的日志?难道说要把这些东西全部整理一遍,让后再根据这些特征整脚本去进行监控?