- 论坛徽章:
- 2
|
本帖最后由 to407 于 2015-01-27 11:22 编辑
1.请举例说明CLI方式下如何分析系统日志?
对于在线日志, 我经常是定期去取,然后关注关键字, 比如下面的一行脚本会统计 某节点上的ORACLE DB alert里面告警信息, 并统计数量。
for i in HOST_LIST
do
echo " "
ssh host$i "hostname;ls $_TRACE_DB1_LD; egrep 'ORA-(00600|00700|00240|00494|07445)' $_TRACE_DB1_LD|sort |uniq -c | tee >( wc -l)"
done
2.谈谈你对开源日志分析工具和商业日志分析工具使用的感受或心得?
商业的工具我最喜欢splunk。
开源的 我们尝试 logstash。
其实我们平时的话,在不同的生产环境下,需要关心的log也是比较特定的, 没必要用大而全的平台。 重点关心一些日志,通过邮件或者短信告警就行了。
3.谈谈你是如何收集Unix/Linux以及Windows平台上各种日志?
windows的日志比较难处理, 因为filedes一直在写的原因不能移除日志,只能定期做一些备份, 维护的时候删除一些。
Linux就比较好, 可以把文件打tar包备份, 然后把原来的文件用echo清空以继续写。 tar的文件目标经常有多个,也比较固定,可以脚本化,配合scp 放到固定的地方。
4.介绍你目前的日志存储方案?是否考虑架设集中日志管理平台,又遇到了何种问题?
目前来讲就是远端存储,通过ssh管理。有时候也用nfs挂载。
像一些oracle的日志,也用tfa来通过浏览器管理分析。
5.工作中多久查看日志系统,并对其中严重日志进行分析,是否进行关联分析?
基本上我的环境半个小时都会收集关键数据, 严重的问题 几分钟都会轮询一次。 收集信息的话,像cup memory的信息都要。
分析的时候,收集到系统信息,如cpu/mem 都可以通过 gnuplot打成图形来格式化。 比较直观
6.由网络资产(服务器、网络设备)产生的各种告警日志,每个设备的流量信息、以及设备的漏洞信息,你认为他们之间存在什么样的关联,打算如何对待这些信息(处理的方式)?
比如网卡,路由等设备的日志, 如果出现异常, 那么要看是否 反应在我的产品日志里, 看产品的网络心跳,主从通信是否正常。
7.你通过日志分析来排除网络或系统故障码?当你遇到网络攻击时,会去主动分析日志吗?请用详细实例说明。
在很多时候 日志有用, 我比较关心的是什么时间点/timestamp, 日志发生大的变化, 然后找那个时间点附近做了什么变更操作,或者一些安全策略的变动。
经常用来排错,
比如曾经遇到过OVM /XEN的环境下, host和guest无法ssh通信的缘故, 查找log发现大量的netfront错误。
Nov 5 21:32:18 guest01 kernel: xen_netfront: GSO size must not be zero
通过排查是OVM的bug, 换成新的linux kernel patch就解决。
类似的也有 因没有禁止LRO 导致guest性能下降, 通过改参数禁用LRO,比较网络IO的gnuplot输出,比较直观的看到变化。
8.你是否尝试将Apache、Ftp、Samba、Snort、OSSEC、Iptables,DNS等应用服务器日志存储到MySQL,再通过Web界面图形化展示?你是通过那些方法实现的,难度在哪儿?
我没有这种打算, 因为我目前需要关心的日志内容比较单一化, 我关心单独的产品,关联的日志也就是一些需要的系统日志和负载信息。
所以目前来讲, 集中化的管理界面没有紧迫性。
当然我乐意去尝试一些开源的dashboard来做为监视器。 类似ansible tower的界面也不错。
9.目前你所管理的网络中流量监控系统起到那些作用,又由那些不足?
我做的流量相关的监控,主要是关注节点增加时,集群之间的通信成本,是资源的性能问题。
我个人觉得没有比较好的办法, 我很希望有一个图形化的界面,把网络流量 细化到端口/产品, 来实时监控。
10.希望日志存储多长时间?是否有必要销毁?
日志在不需要的情况下就可以删除。
如果一些要求比较高的环境, 我建议可以在删除之前, 加入archive, archive可以再做一年或者更多时间的策略删除。
我这边没有必要, 因为我的存储空间有限。 当我得到了一些gnuplot的输出,我拿到了希望的结果以后, 原始值就可以删除了。
同样, 我的产品问题,如果说通过日志已经找出问题,解决问题了, 那么这些日志就可以扔一边,加到删除等待队列了。
11.是否考虑在企业中建设SIEM平台,以整合原先各种零散的监控和日志分析报警系统?
单位有这样的产品。 但我个人目前来讲没有使用这个平台的紧迫性。
12. 说说你眼中的OSSIM平台,能为运维人员解决那些事情,还有那些功能是它所无法实现的?你在学习、使用OSSIM中又遇到了那些困难?如果有OSSIM平台部署和应用培训是否会参加?
OSSIM的想法很好。 我希望这个平台可以更加模块化,插件化, 这样我可以在dashboard里只选我需要的。
我认为OSSIM的最大问题,就是功能模块太多,但没有商业软件那种细化需求和界面。 这样的话,我自己就不会去尝试所有的检查模块。
|
|