godamen 发表于 2015-01-27 11:14

1.请举例说明CLI方式下如何分析系统日志?
日志通常以文本文件按服务日期存储,用脚本按分钟抽样,手工以tail和grep为主
2.谈谈你对开源日志分析工具和商业日志分析工具使用的感受或心得?
web日志实时用logstash+elasticsearch,每日分析用awstats,每周分析用analog,都是开源产品最终以web方式浏览
系统日志用商业产品splunk,开源用logstash+elasticsearch,每日用logwatch及自制脚本作简报
3.谈谈你是如何收集Unix/Linux以及Windows平台上各种日志?
syslog-ng实时汇总到日志服务器,Windows服务器很少所以不做收集
4.介绍你目前的日志存储方案?是否考虑架设集中日志管理平台,又遇到了何种问题?
syslog-ng+syslog做集中存储,logstash+elasticsearch和splunk做分析
5.工作中多久查看日志系统,并对其中严重日志进行分析,是否进行关联分析?
报警或及常时会进行查看,会进行关联分析
6.由网络资产(服务器、网络设备)产生的各种告警日志,每个设备的流量信息、以及设备的漏洞信息,你认为他们之间存在什么样的关联,打算如何对待这些信息(处理的方式)?
日志彼此关联,会相互影响,相互配合找出源头
7.你通过日志分析来排除网络或系统故障码?当你遇到网络攻击时,会去主动分析日志吗?请用详细实例说明。
会查看日志了解攻击是何时开始,针对哪些服务,并最终影响哪此服务和服务器并加以解决
8.你是否尝试将Apache、Ftp、Samba、Snort、OSSEC、Iptables,DNS等应用服务器日志存储到MySQL,再通过Web界面图形化展示?你是通过那些方法实现的,难度在哪儿?
snort等少量系统日志会考虑存入mysql,apache等大量web日志不会考虑.
9.目前你所管理的网络中流量监控系统起到那些作用,又由那些不足?
nagios+cacti作报警及图表,snort做入侵检测,iftop实时查看流量.nagios流量插件有时取值会失败.
10.希望日志存储多长时间?是否有必要销毁?
尽可能长时间的保留
11.是否考虑在企业中建设SIEM平台,以整合原先各种零散的监控和日志分析报警系统?
有现成免费的可以考虑
12. 说说你眼中的OSSIM平台,能为运维人员解决那些事情,还有那些功能是它所无法实现的?你在学习、使用OSSIM中又遇到了那些困难?如果有OSSIM平台部署和应用培训是否会参加?
还未使用,鸡蛋放在一个篮子里也会有点风险

xuexiaogang 发表于 2015-01-28 13:09

有几万大神回复的真多

minarvin 发表于 2015-01-28 20:27

回复 29# cgweb
使用的hp的arcsight,感觉还可以,功能比较强大。


   

cgweb 发表于 2015-01-28 20:39

回复 34# minarvin


详细介绍一些arcsight使用感受吧

minarvin 发表于 2015-01-28 21:59

arcsight的优点:
1)成熟的商业软件比较稳定,支持的日志格式也很多;
2)安全模型比较成熟;
3)日志的存储采用非关系型数据库,压缩和效率比较高;
4)日志可以做复杂的关联性分析;
5)功能挺丰富输出的形式也很丰富:dashboard,表报,活动频道,活动列表等等。
缺点:
1)商业要收费,而且也不便宜;
2)使用配置比较复杂需要专业的人来维护,使用推广不是很好;
3)实施完成后续运营是个挑战,我感觉很多soc的项目最终都失败了主要就是后期的运营跟不上;
4)平台比较封闭无法做到自主可控。

cgweb 发表于 2015-01-29 09:18

回复 36# minarvin


    不错,关注一下OSSIM,看看他两之间主要差异在哪些地方?

cgweb 发表于 2015-01-29 09:21

回复 36# minarvin


    SOC后期运营需要注意哪些地方呢?想听听您的高见。

iov_aaron 发表于 2015-01-29 11:07

回复 1# cgweb

1.请举例说明CLI方式下如何分析系统日志?

CLI方式下一般主要是针对单台服务器下的日志分析。
对于临时查看的日志,通过 tail grep awk sed等命令组合使用来对日志进行查看分析。
更常用的则是通过shell脚本定时分析日志。

2.谈谈你对开源日志分析工具和商业日志分析工具使用的感受或心得?
商业日志分析工具,对splunk有简单了解,但是没有具体使用过,据说比较很强大。
开源的日志解决方案则有很多,flume、logstash等等。目前我们使用logstash+redis+elasticsearch+kibana来收集日志。
整体来说还不错,可以实现日志实时收集、查询、日志展示等功能.

3.谈谈你是如何收集Unix/Linux以及Windows平台上各种日志?
4.介绍你目前的日志存储方案?是否考虑架设集中日志管理平台,又遇到了何种问题?
以上两个问题一起:
目前我们公司基本上都使用linux服务器,目前还不涉及windows平台的日志收集。
linux下的日志管理,主要分为2部分:
1,通过logstash+es+kibana对日志进行集中收集,统一展示。该平台更加趋向于日志的实时收集展示及日志检索及分析统计,对日志有做进一步处理,包括分析、筛选过滤等。
2,搭建分布式文件系统作为FTP日志归档服务器,通过脚本定时对历史日志进行压缩,转移,按照业务、类型、IP等分类存储。
两种方式结合,通过elk平台进行实时日志查询,通过归档服务器查看源日志同时也是对服务器空间的清理。

5.工作中多久查看日志系统,并对其中严重日志进行分析,是否进行关联分析?
日志查询比较频繁,主要对web日志有做分析,包括状态吗分布、访问IP分布、响应时长等。
日志关联分析目前没有。

6.由网络资产(服务器、网络设备)产生的各种告警日志,每个设备的流量信息、以及设备的漏洞信息,你认为他们之间存在什么样的关联,打算如何对待这些信息(处理的方式)?

7.你通过日志分析来排除网络或系统故障码?当你遇到网络攻击时,会去主动分析日志吗?请用详细实例说明。
会主动分析日志。
比如通过web日志查看访问IP的分布,访问url分布等


8.你是否尝试将Apache、Ftp、Samba、Snort、OSSEC、Iptables,DNS等应用服务器日志存储到MySQL,再通过Web界面图形化展示?你是通过那些方法实现的,难度在哪儿?
没有存储到mySQL。
使用elasticsearch存储日志,kibana展示日志。

9.目前你所管理的网络中流量监控系统起到那些作用,又由那些不足?
10.希望日志存储多长时间?是否有必要销毁?
个人认为日志应当按照类型进行分类,比如用户日志、交易日志、调试日志、操作日志等到
对于交易日志需要长期保存,对于操作日志等则需要根据需求保留时长,对于调试日志则没有必要,最多保存一个星期用于问题定位分析即可。

11.是否考虑在企业中建设SIEM平台,以整合原先各种零散的监控和日志分析报警系统?
12. 说说你眼中的OSSIM平台,能为运维人员解决那些事情,还有那些功能是它所无法实现的?你在学习、使用OSSIM中又遇到了那些困难?如果有OSSIM平台部署和应用培训是否会参加?

   

pu2182_cn 发表于 2015-01-29 15:36

1.请举例说明CLI方式下如何分析系统日志?
      可以查看/var/log下的系统日志,需要查什么就查看相关的日志。
2.谈谈你对开源日志分析工具和商业日志分析工具使用的感受或心得?
      目前使用的fluentd 插件来采集nginx,wowza流媒体服务器和应用程序的日志。所需要的日志格式 fluentd 可以通过使用正则表达式灵活配置。入库可以支持各种格式,目前入到mongodb库中。感觉日本人做的这个软件比较好用,缺点是资料不是很多,有些坑只有做过才能迈过去。
3.谈谈你是如何收集Unix/Linux以及Windows平台上各种日志?
      目前使用的fluentd 插件来采集nginx,wowza流媒体服务器和应用程序的日志。
4.介绍你目前的日志存储方案?是否考虑架设集中日志管理平台,又遇到了何种问题?
      日志存储在mongodb库里。没有特殊的日志存储方案。mongodb库采用分布式存储方式,切片方式。
5.工作中多久查看日志系统,并对其中严重日志进行分析,是否进行关联分析?
      目前我司有针对日志的日志应用系统,有实时的查询和统计。
6.由网络资产(服务器、网络设备)产生的各种告警日志,每个设备的流量信息、以及设备的漏洞信息,你认为他们之间存在什么样的关联,打算如何对待这些信息(处理的方式)?
      网络设备的告警日志,之前做过得项目是通过snmp主动采集或者trap告警或者syslog告警的被动方式采集。设备流量包括漏洞也是有可能产生告警日志的,视告警的紧急程度进行处理。
7.你通过日志分析来排除网络或系统故障码?当你遇到网络攻击时,会去主动分析日志吗?请用详细实例说明。
      会的,只要是日常的日志工作做得好,当有系统故障或者网络故障是,日志系统中会有相应的数据呈现,比如ping时延大,设备cpu,内存,网络带宽利用率高等。
8.你是否尝试将Apache、Ftp、Samba、Snort、OSSEC、Iptables,DNS等应用服务器日志存储到MySQL,再通过Web界面图形化展示?你是通过那些方法实现的,难度在哪儿?
      目前未进行如此处理。入库到支持大数据量的NoSql库mongodb中。
9.目前你所管理的网络中流量监控系统起到那些作用,又由那些不足?
      目前是通过zabbix对服务器进行的流量监控,超出阈值发送告警信息。
10.希望日志存储多长时间?是否有必要销毁?
      目前我们是保留三个月的。
11.是否考虑在企业中建设SIEM平台,以整合原先各种零散的监控和日志分析报警系统?
      可以考虑
12. 说说你眼中的OSSIM平台,能为运维人员解决那些事情,还有那些功能是它所无法实现的?你在学习、使用OSSIM中又遇到了那些困难?如果有OSSIM平台部署和应用培训是否会参加?
      无。

minarvin 发表于 2015-01-29 22:57

回复 38# cgweb
高见谈不上了,我感觉平台运营好需要注意:
1)要有专业的人来维护管理,最好不要老换人;
2)用户视图接口要友好便于推广,平台应该仅仅是管理员自己来用的;
3)功能不仅仅限于一些没有太大意义的报表的输出,应该是能够为主机,中间件,应用,网络设备,网络安全等生成对运维有帮助的告警、报表等;
4)平台的运营过程可以参考戴明环pdca进行持续改进和优化,是一个动态的过程,不能够是一次实施便固定不变;
5)新需求和新资产接入的需制定相应的申请规范和审核制度,控制平台输出的条例。
6)最好能够把平台做到信息管理系统的portal中实现单点登录并于工单系统想结合,高级别的事件的处理必须实现闭环。

   
页: 1 2 3 [4] 5 6 7 8
查看完整版本: IT运维技术讨论之三:大话日志分析与管理