- 论坛徽章:
- 0
|
1 上述案例告诉我们,日志监管真的很重要,你们遇到过什么问题?
电商公司,约有web服务器200多台,平时最关心的一点是网站的响应时间,这些数据都是由access.log处分析得来,公司有专门的bi团队,但做法不是实时的,而是将log先试用sync的方式传输到一台专门到log服务器,然后再使用hadoop分析,这种做法会导致数据有很大的延迟,真出了响应时间慢的问题,是不能立即得到解决的,目前我的做法是,使用zabbix实时分析每5分钟的log,优点是实时,但缺点是分析程序需要自己写,满足不了普遍性的需求,综合看来,elk或者kafka是比较合适的解决方案,同时也可将其与zabbix结合起来,加上报警功能,也是最近的实践方向,求送书,让我成为elk大神吧。
2 大家都在使用什么日志分析软件?
公司有三套系统,bi的hadoop集群,分析业务数据,运维的elk集群,重点分析php fatal log,但目前运维使用最重要的还是zabbix+自定义脚本来分析网站响应时间的这套小系统。
3 你觉得还有什么好的办法解决这样的问题呢?
log分析的原则,我觉得有亮点,1是实时,2是数据可视化。newrelic的做法很值得借鉴,通过仔代码中埋码的方式收集数据,甚至可以将系统模块与模块之间的调用数据都可以抓到,对于分析系统性能很有帮助,但它是不能对log进行汇总分析的,比如,不能实现老板的“给我计算一下上一个月各个国家的登录用户比例数据”这样的需求, 相比后知后觉的elk等分析工具,这种先知先觉的方式也是一个比较好的思路。 |
|