IT运维技术讨论之三：大话日志分析与管理 - 第3页 - 监控及自动化运维技术 - Chinaunix

睿智2012 发表于 2015-01-25 17:09

高大上的话题，来学可习

fengzhanhai 发表于 2015-01-25 18:36

:hug:好活动顶一下

niao5929 发表于 2015-01-26 08:31

很高深的日志分析没有搞过。所以很想看看楼主的书，看完了才好写体会。呵呵。去年的里纳斯自传一晚上就看完了。然后写了篇长博文

hexilanlan 发表于 2015-01-26 08:52

能看书就很好了。。。。

bbskuang 发表于 2015-01-26 12:54

本帖最后由 bbskuang 于 2015-01-26 13:05 编辑

过来顶一贴。

to407 发表于 2015-01-26 14:48

日志方面，非常喜欢splunk。。。可惜不是开源的项目。

action08 发表于 2015-01-26 19:01

这本书蛮有价值的，获奖的同学如果兴趣不大，我可以积分购买一本

minarvin 发表于 2015-01-27 08:56

2.谈谈你对开源日志分析工具和商业日志分析工具使用的感受或心得？
开源的日志分析工具用的比较少，商业的目前使用hp的arcsight，arcsight的强大之处在于事件处理能力和事件关联分析功能，目前平台每天9000万条的数据量，感觉性能和日志压缩都还可以，之前测试过splunk，splunk的日志搜索速度很快，但是功能没有arcsight强。
3.谈谈你是如何收集Unix/Linux以及Windows平台上各种日志？
unix，linux系统日志直接syslog发出来，windows使用wmi接口,网络设备一般也是syslog，netflow；snmp用的不多。
4.介绍你目前的日志存储方案？是否考虑架设集中日志管理平台，又遇到了何种问题？
当前日志采用集中存储设置，但是会考虑运行日志和业务日志进行分离，日志的存储采用非关系型数据库。当前遇到的问题:1)海量日志的存储需求；2）时间跨度较大的日志查询速度慢；3）日志集中后权限控制的问题。
5.工作中多久查看日志系统，并对其中严重日志进行分析，是否进行关联分析？
当前已在日志系统中设定好告警规则，只有触发告警或业务有问题时才会去查看日志系统，告警规则设定会根据需要进行事件的关联分析配置。
6.由网络资产（服务器、网络设备）产生的各种告警日志，每个设备的流量信息、以及设备的漏洞信息，你认为他们之间存在什么样的关联，打算如何对待这些信息（处理的方式）？
每个设备的流量和session状态肯定都是有规律和固定的，可以根据历史数据建立基线，触发告警；网内的资产一般都会每年都会进行2次漏扫，这样可以把漏扫的结果导入到日志平台完善安全模型，当攻击和漏洞温和时触发高危事件。
9.目前你所管理的网络中流量监控系统起到那些作用，又由那些不足？
对于网络流量的监控，单纯的阀值告警意义不是很大（只有严重到一定程度才会触发告警，而且每天的流量也不会是一条直线），我希望是用一个月或更长时间的数据以周为单位建立一条动态的基线，每天同一时刻与动态基线对比变化幅度大于5%的就生产预警。
10.希望日志存储多长时间？是否有必要销毁？
希望在线日志半年，归档日志保留3年。一些业务的日志需要保留的时间会更长一些。
11.是否考虑在企业中建设SIEM平台，以整合原先各种零散的监控和日志分析报警系统？
已经部署了，效果还不错。特别是接入了业务日志后，平台想象空间很大。
12.说说你眼中的OSSIM平台，能为运维人员解决那些事情，还有那些功能是它所无法实现的？你在学习、使用OSSIM中又遇到了那些困难？如果有OSSIM平台部署和应用培训是否会参加？
OSSIM平台没有用过但是希望能够提供以下功能：1）运维方面，根据日志生成系统、应用、网络设备告警并提供查询全文检索，多条件过滤 2）安全方面，对高级别安全事件告警，根据趋势提前预警 3）合规审计
面临的困难：安全模型的定义；
如果有培训当然希望能参加。

cgweb 发表于 2015-01-27 09:16

minarvin，能否介绍一下使用的何种SIEM产品，感觉怎样呢？

to407 发表于 2015-01-27 11:12

本帖最后由 to407 于 2015-01-27 11:22 编辑

1.请举例说明CLI方式下如何分析系统日志？

对于在线日志，我经常是定期去取，然后关注关键字，比如下面的一行脚本会统计某节点上的ORACLE DB alert里面告警信息，并统计数量。

for i inHOST_LIST
do
echo " "
ssh host$i "hostname;ls $_TRACE_DB1_LD; egrep 'ORA-(00600|00700|00240|00494|07445)' $_TRACE_DB1_LD|sort |uniq -c | tee >( wc -l)"
done

2.谈谈你对开源日志分析工具和商业日志分析工具使用的感受或心得？

商业的工具我最喜欢splunk。
开源的我们尝试 logstash。

其实我们平时的话，在不同的生产环境下，需要关心的log也是比较特定的，没必要用大而全的平台。重点关心一些日志，通过邮件或者短信告警就行了。

3.谈谈你是如何收集Unix/Linux以及Windows平台上各种日志？
windows的日志比较难处理，因为filedes一直在写的原因不能移除日志，只能定期做一些备份，维护的时候删除一些。

Linux就比较好，可以把文件打tar包备份，然后把原来的文件用echo清空以继续写。tar的文件目标经常有多个，也比较固定，可以脚本化，配合scp 放到固定的地方。

4.介绍你目前的日志存储方案？是否考虑架设集中日志管理平台，又遇到了何种问题？
目前来讲就是远端存储，通过ssh管理。有时候也用nfs挂载。
像一些oracle的日志，也用tfa来通过浏览器管理分析。

5.工作中多久查看日志系统，并对其中严重日志进行分析，是否进行关联分析？
基本上我的环境半个小时都会收集关键数据，严重的问题几分钟都会轮询一次。收集信息的话，像cup memory的信息都要。

分析的时候，收集到系统信息，如cpu/mem都可以通过 gnuplot打成图形来格式化。比较直观

6.由网络资产（服务器、网络设备）产生的各种告警日志，每个设备的流量信息、以及设备的漏洞信息，你认为他们之间存在什么样的关联，打算如何对待这些信息（处理的方式）？

比如网卡，路由等设备的日志，如果出现异常，那么要看是否反应在我的产品日志里，看产品的网络心跳，主从通信是否正常。

7.你通过日志分析来排除网络或系统故障码？当你遇到网络攻击时，会去主动分析日志吗？请用详细实例说明。

在很多时候日志有用，我比较关心的是什么时间点/timestamp,日志发生大的变化，然后找那个时间点附近做了什么变更操作，或者一些安全策略的变动。

经常用来排错，

比如曾经遇到过OVM /XEN的环境下， host和guest无法ssh通信的缘故，查找log发现大量的netfront错误。

Nov5 21:32:18 guest01 kernel: xen_netfront: GSO size must not be zero

通过排查是OVM的bug，换成新的linux kernel patch就解决。

类似的也有因没有禁止LRO 导致guest性能下降，通过改参数禁用LRO，比较网络IO的gnuplot输出，比较直观的看到变化。

8.你是否尝试将Apache、Ftp、Samba、Snort、OSSEC、Iptables，DNS等应用服务器日志存储到MySQL，再通过Web界面图形化展示？你是通过那些方法实现的，难度在哪儿？

我没有这种打算，因为我目前需要关心的日志内容比较单一化，我关心单独的产品，关联的日志也就是一些需要的系统日志和负载信息。

所以目前来讲，集中化的管理界面没有紧迫性。

当然我乐意去尝试一些开源的dashboard来做为监视器。类似ansible tower的界面也不错。

9.目前你所管理的网络中流量监控系统起到那些作用，又由那些不足？

我做的流量相关的监控，主要是关注节点增加时，集群之间的通信成本，是资源的性能问题。

我个人觉得没有比较好的办法，我很希望有一个图形化的界面，把网络流量细化到端口/产品，来实时监控。

10.希望日志存储多长时间？是否有必要销毁？

日志在不需要的情况下就可以删除。

如果一些要求比较高的环境，我建议可以在删除之前，加入archive， archive可以再做一年或者更多时间的策略删除。

我这边没有必要，因为我的存储空间有限。当我得到了一些gnuplot的输出，我拿到了希望的结果以后，原始值就可以删除了。

同样，我的产品问题，如果说通过日志已经找出问题，解决问题了，那么这些日志就可以扔一边，加到删除等待队列了。

11.是否考虑在企业中建设SIEM平台，以整合原先各种零散的监控和日志分析报警系统？

单位有这样的产品。但我个人目前来讲没有使用这个平台的紧迫性。

12. 说说你眼中的OSSIM平台，能为运维人员解决那些事情，还有那些功能是它所无法实现的？你在学习、使用OSSIM中又遇到了那些困难？如果有OSSIM平台部署和应用培训是否会参加？

OSSIM的想法很好。我希望这个平台可以更加模块化，插件化，这样我可以在dashboard里只选我需要的。

我认为OSSIM的最大问题，就是功能模块太多，但没有商业软件那种细化需求和界面。这样的话，我自己就不会去尝试所有的检查模块。

页: 1 2 [3] 4 5 6 7 8

Chinaunix's Archiver