免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12345下一页
最近访问板块 发新帖
查看: 157713 | 回复: 45
打印 上一主题 下一主题

[其他] 大型数据中心运行监测体系的建设与运用 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2014-04-27 22:12 |只看该作者 |倒序浏览
本帖最后由 jiang_box 于 2014-04-27 22:17 编辑

概述  
   当前,在银行为客户所提供的各类金融服务中,有很大的比例需要依托IT系统实现,因此银行数据中心的稳定可靠运行,是银行能否为客户提供优质服务的基础保障。对于如何实现数据中心的稳定可靠运行,所涉及到的技术与管理环节众多,在此,仅讨论银行数据中心运行监测体系的建设与运用。
何为运行监测体系
  运行监测体系,是指由相关专业岗位的人员、被监测应用系统对象信息、衡量对象各组件工作状态KPI、各类策略监测采集所需工具、监测数据处理与分析手段、相关维护与运用工作流程等构成的一个功能体系。  
应用系统包括什么
  运行监测体系所监测的对象,是应用系统整体构成的所有组成环节,而不仅仅是应用程序,还应包括其运行所依赖的存储环境、网络环境、服务器资源、各类系统软件、外部链路资源、维护操作任务、内部配置数据、系统间会话、业务数据交换任务等组件,因此,应用系统整体运行监测KPI体系,需针对应用整体构成的各组件进行统一设计,并通过一系列指标,去衡量各组件的运行是否正常。
如何评价监测效能  
  如何评价一套运行监测体系是否有效非常重要,因为通过适当的评价,能够发现这个体系中存在的问题,并制定有针对性的改进计划,以此不断提高运行监测能力。例如,从运行监测的结果维度评价,最直接的指标就是监测报警的有效性与准确性,有效性是指在所发生的各类运行故障中,监测系统能够及时预报、发现的比率,例如,能够发现95%以上的运行故障;准确性是指报警系统的误报率,例如,平均每3条关键报警即能发现一次真实故障。通过对于上述两项指标,以及指标达成情况的详细分析,发现问题并改进策略,就能够不断提升监测系统的整体有效性。
  如何建设并运用一套有效的运行监测体系,为银行数据中心的安全运行提供基础技术保障,是目前运维管理层所面临的课题之一。总结近几年专注于运维及监控管理的一些实践经验,将按照规划、体系、技术、运用,四个不同纬度进行简要介绍。
  
   

规划篇
  虽然已经有较多的网管监控、系统监控项目在各类数据中心实施,但是如何针对数据中心的整体进行监测,并将之建设成为一套能够不断自我完善、能够为运维管理提供支持的体系,是当前金融行业数据中心面临的运维管理难题,要解决这一难题,首先需要理清思路、识别要点、有效规划,谈到运行监测体系的建设规划,将分为识别与认知、评估与测量、采集与处理、展现与运用,四个方面进行简述:
   识别与认知:所谓识别,是指能够以IT系统对外服务为线索,进行所有技术层面及维度的梳理与确认,不仅仅将“可见”的各类构成组件纳入监测范围,如服务器、数据库实例等,还应将“不可见”的组件纳入监测范围,如交易链路等,在全面识别监测对象信息后,就是有效的认知,也就是针对各类监控对象构成组件,其运行特点、关键状态是什么,为后续工作奠定关键的知识基础。
   评估与测量:对于监测对象进行有效识别与认知后,就是针对各类IT运行组件,如何评估与测量,评估是指应该以那些KPI、数据去判断某一IT组件运行是否正常、是否存在隐患、是否满足运行容量需求等,在具备了评估策略后,就要解决测量的问题,也就是以何种方法去测量才是有效的,例如,是采取抽样统计法,还是阀值判断法等。
   采集与处理:在确定了测量方法后,就是根据系统运行实际环境等因素,设计可行的监测数据采集手段,在确保生产系统安全稳定运行的前提下,能够尽量获取实时、全面的测量数据,并通过固定的逻辑对于采集数据进行处理,以便后续的处理与分析,例如,针对采集测量进行统一编码,在采集数据后进行,对于数据进行“贴标签”处理,这样,才能做监测数据的二次判断与分析,解决监控报警的诊断与定位问题。
   运用与改进:对于监测数据进行有效处理后,就是有针对性的运用,也针对一线值守人员、二线技术人员、技术专家、事件经理、运维决策人员的不同工作目标,需要分别展现哪些数据、结果,同时,还需要具备监测数据运用结果日常分析的机制,以便发现整体监测体系存在漏洞,并设计优化方案,不断查缺补漏,改进监测体系。
体系篇
  运行监测体系的构成,是以有效的人员岗位分工与合作为主体,辅助以适用的工具、有效的知识及规范,形成发现问题、改进问题的不断自我完善机制,如下图所示:

  在上述运行监测体系图示中,主要的岗位分工及工作过程要点如下:

一线值守人员按操作规程及时处理各类监测数据,并详细跟踪、记录处理过程;
监控管理人员跟踪并分析各类报警数据的有效性,发现问题并设计优化策略;
监控技术人员按需求开发各类监测工具及手段,维护监控资产信息,并确保监控工具及功能能够被有效地交付到一线值守人员、二线技术人员等岗位;
二线技术人员及时响应并处置报警,并根据实际使用效果,及时提出监控优化需求,同时针对各类运行问题与隐患,不断完善相关技术规范,避免同类问题的反复发生;
运维质量管理人员,应采集各类监测与运行数据,形成常规分析机制,及时通报当前关键问题、工作优化建议,推动整个体系的不断优化,消除各类技术与工作隐患;



技术篇
技术篇:技术整体架构、采集技术、处理技术、展现技术、自动化技术
  光运行监测体系,最终离不开相关技术的研发与运用,以及各类工具及管理平台的实际落实,
  有效的运行监测体系,最终离不开相关技术平台的支撑,而要搭建这一有效的运行监测技术平台,首先要解决如下几个技术层面的关键问题:
   如何配置整体技术架构:监控整体技术架构应包括监测数据采集层、专业监控工具功能层、监测数据快速处理层、监测数据分析展现与运用层,形成对于监测数据的完成处理流程,满足控制整体生产环境监控部署、从监测数据中发现问题的技术需求:

   如何确保数据有效采集:对于生产环境中各类运行数据的采集,首先要尽量规避对于生产系统的直接影响,其次是保证数据的实时性与准确性,最后是对于原始监测消息的准确加工与判断,最终形成有效的监控采集数据。

   如何快速确认与定位:当获取到监控报警后,首先要解决的是确认其有效性,也就是是否真的发生了生产故障,其次是针对已发生的生产故障,按照资产配置关系及技术逻辑,进行定位分析,再次是进行故障原因诊断,并进行有针对性的处置与验证;因此,在监测体系的技术环节中,需要解决监控报警消息的有效性自动化确认、故障层面自动化定位两个关键技术问题,才能保证监控报警的有效与准确,为后续处置提供精确导航。

   如何有效展现与运用:对于有效的监控报警数据与消息,应按需展现与运用,分别针对值守人员、技术人员、管理人员的不同工作目标,提供不同的视图与界面,因此,需要解决监控数据的快速展现与灵活定制问题,解决此类问题的关键,就是对于数据的有效预处理与分布式计算,目前,海量非结构化数据采集与处理技术,非常适用于解决此类问题。
运用篇
  对于运行监测体系的有效运用,是建设并不断维护这一体系的最终目标,在数据中心运维管理工作之中,运行监测体系应该在如下方面发挥主要的作用:
运行事件管理前移:通过不断完善运行监测体系,应该在事件发生的征兆阶段、隐患阶段发现相关线索,并建立长效工作机制,跟踪各类报警的处理结果,发现需要改进之处,不断优化改进监控策略,通过此类工作的不断往复,提升监控预警能力,将运行事件的管理与控制,前移到预警阶段,以此减小故障对于生产的影响;
故障根源问题分析:由于生产环境的技术复杂性,一定会发生成因复杂的故障,并很难进行根源分析,为消除此类隐患,应该通过监控策略的不断完善,在故障现象发生的同一时刻,按照技术逻辑与经验,同步抓取现场数据,为根源分析提供详尽的现场资料;
系统运行容量规划:目前生产系统的构成环节多关联性广,因此对于生产系统运行容量的预估与管理,需要实时采集各技术层面数据,并能够进行有效整合,发现各个环节运行数据之间的变化联动性、放大系数等规律,然后根据业务请求的变化情况,去评估系统整体容量变化规律、系统容量瓶颈等关注点,为达成这一目标,也需要通过有效的监测体系去采集相关数据;
系统开发非功能需求:在监测体系不断评估与优化的过程中,一方面,能够发现生产系统自身存在的运行隐患,并帮助技术部门进行优化,另一方面,也需要针对系统的可被监测性,提出系统开发的非功能性需求,从源头解决系统运行的可被监测与控制性,加强系统自身的运行健壮度,例如:应用系统日志的标准化、业务请求标识的统一规划等;
客户交易动态数据分析:在运行监测体系工作过程中,能够通过海量非结构化日志采集、网络报文镜像分析等手段,获取客户交易行为的动态数据,一方面能够及时发现客户交易过程中的各类故障及异常现象,另一方面,也能够分析客户的交易趋势及喜好等,为业务流程优化、应用系统功能优化等提供分析数据,为数据中心从运维阶段,发展到运营阶段提供技术基础;
  随着信息技术的不断发展,银行数据中心的技术环境也在不断变化,因此,配套的运行监测体系,无论在管理思路、岗位流程、技术手段等方面,也是在不断发展与变化,为确保这一体系始终能够为安全运营提供有效支撑,最核心的管理思路就是要建立一套动态维护的监控档案,将监控对象、监控KPI、监控策略进行统一管理,这里,监控对象类似于构成我们人体的各类器官、神经、组织、思维、能力等,监控KPI就是衡量上述对象的指标及方法,监控策略是实现采集监控KPI的监控手段,并根据应用系统整体构成的关系,针对监控策略进行统一编码,以便进行报警消息的深入分析与诊断。
  
  图示三:应用系统整体运行监测档案设计思路


论坛徽章:
16
IT运维版块每日发帖之星
日期:2015-10-02 06:20:00IT运维版块每月发帖之星
日期:2015-09-11 19:30:52IT运维版块每周发帖之星
日期:2015-09-11 19:20:31IT运维版块每日发帖之星
日期:2015-08-26 06:20:00每日论坛发贴之星
日期:2015-08-20 06:20:00IT运维版块每日发帖之星
日期:2015-08-20 06:20:002015年辞旧岁徽章
日期:2015-03-03 16:54:15金牛座
日期:2014-05-04 16:58:09双子座
日期:2013-12-17 16:44:37辰龙
日期:2013-11-22 15:20:59狮子座
日期:2013-11-18 22:55:08射手座
日期:2013-11-12 10:54:26
2 [报告]
发表于 2014-05-04 16:42 |只看该作者
其实运维应该用itil的流程来管理吧。。。

论坛徽章:
0
3 [报告]
发表于 2014-05-05 13:55 |只看该作者
大家好,我刚刚注册到该板块的实习版主,我先做个自我介绍,希望今后通过这个板块,与大家共同探讨,建立起来监控管理、运维自动化、运行架构方面的真正能力体系,对大家各自的工作和事业发展都能有所帮助,当然,如果我们真能以合适的形式组织起来,建立一个运维实施与服务的能力平台,将更有发展潜力,下面我自己做个简单介绍:
1)工作经历:我是1993年毕业于计算机软件专业,从毕业后,就在中国银行从事储蓄等软件开发,那个年代没有开发与运维之分,之后在1996年换工作到光大银行,1998年参与收购另外一家银行后的会计、储蓄系统整合,之后在1999年开始最早的银行系统大集中,也就是将各个省分行的系统及主机,统一合并到总行一个数据中心之中,2003年参与了银行核心系统升级换代,之后因面临一系列运维中暴露的问题,开始有了开发与运维的分工,同时我开始着手ITIL项目与监控系统的建设,那个时候经验不多,在整体管理思路不清晰的情况下,必然面临了很多技术问题及其运用的问题,到了2009年,因电子商务、互联网金融的发展,银行的电子交易量大增,对运维压力更大,我基于以往经验,从新开始建立整套的监控管理平台及技术工具,当然也配套开始进行ITIL必要流程的建设,到了2013年,已经在运行监控能力上得到了很好的效果,2014年,我的工作又有了变化,到了另外一家商业银行全面负责运维中心管理,也希望通过这个机会,将以往的经验更好的运用;
2)技术经验:我对于UNIX环境下的C语言开发、INFORMIX数据库、ORACLE数据库比较熟悉,另外对于大型数据中心的主机、存储、网络、操作均比较熟悉,其实感觉最宝贵的,是这10几年遇到的各类故障、问题、教训,这应该是运行技术架构设计与管理中去解决的问题,另外,从2004年开始接触监控,一直到现在,一方面在监控技术上比较熟悉也比较清楚每种技术的运用条件和目的,另一方面也熟悉监控的需求是什么、如何与运维其它环节配合;还有,自从2004年开始,因为银行的各类批作业越来越多,面临着调度操作等难题,那时我开始着手做了一个批作业自动化项目【当然批作业只是运维自动化领域中的一个部分,不是全部】通过这个项目,也积累了很多技术经验与管理经验,后续我将陆续分享给大家;
3)交流目标:希望通过这个板块,能够在运行管理全局的角度,明确监控、自动化、ITIL、运行架构是如何定位与控制,各个环节的技术要点是什么,技术难题如何解决,是否有更好的技术产品与方案。
  
    最近因为刚到一个新的工作岗位,有点忙,没时间发新帖子,接下来将找时间,将自己的资料与大家共享,同时也抛出一些问题大家讨论!

论坛徽章:
0
4 [报告]
发表于 2014-05-06 09:24 |只看该作者
这个建设起来可以提高运维效率,但是本人就是一个长期建设和积累的过程!

论坛徽章:
0
5 [报告]
发表于 2014-05-06 09:25 |只看该作者
这个建设起来可以提高运维效率,但是本身就是一个长期建设和积累的过程

论坛徽章:
0
6 [报告]
发表于 2014-05-06 16:52 |只看该作者
应用日志发送规范

日志级别
普通信息:用户正常登陆和计费信息。此信息发送到应用程序自有日志文件。
次要信息:用户认证失败等。此信息发送到应用程序自有日志文件。
主要信息:应用程序异常但未影响正常对外服务。此种信息发送到自有应用日志。
重要信息:应用进程停止服务;批处理操作错误;批处理任务关键环节成功。此种消息发送到操作系统syslog。
备注:信息级别的定制可供参考。应用系统的开发者可自行划分信息级别。
发送方法
使用C语言
#include <syslog.h>
main()
{
syslog(LOG_INFO, "Connection from host  CallingHost");
}
以上程序将在/var/adm/syslog/syslog.log中写入一条信息(Connection from host  CallingHost),并同时通过操作系统进程(syslogd)向日志管理服务器发送信息。命令使用细节可以看UNIX帮助,在操作系统下使用man syslog命令。

使用Unix Shell
#!/bin/sh
logger -t BarthJob -p local0.info test
以上程序将在/var/adm/syslog/syslog.log中写入一条信息(test),并同时通过操作系统进程(syslogd)向日志管理服务器发送信息。命令使用细节可以看UNIX帮助,在操作系统下使用man logger命令。

论坛徽章:
0
7 [报告]
发表于 2014-05-30 12:57 |只看该作者
数据中心实际运维管理工作与ITIL各类管理流程的映射关系,供大家参考【ITIL理论来源于实践】
数据中心工作映射表v0.1.xls (17.5 KB, 下载次数: 597)

论坛徽章:
0
8 [报告]
发表于 2014-06-05 18:06 |只看该作者
变更分类及相应标准梳理.xls (25 KB, 下载次数: 252)

论坛徽章:
62
洛杉矶湖人
日期:2015-02-10 09:56:11黑曼巴
日期:2016-06-28 17:41:282015-2016NBA季后赛纪念章
日期:2016-06-28 17:41:282016猴年福章徽章
日期:2016-02-18 15:30:34圣安东尼奥马刺
日期:2015-05-04 22:46:00菠菜神灯
日期:2015-05-04 22:35:07新奥尔良黄蜂
日期:2015-03-17 13:54:52明尼苏达森林狼
日期:2015-03-16 21:51:15萨克拉门托国王
日期:2015-03-02 16:10:58华盛顿奇才
日期:2015-03-02 16:10:58迈阿密热火
日期:2015-03-02 16:10:582016科比退役纪念章
日期:2016-06-28 17:41:28
9 [报告]
发表于 2014-06-13 11:25 |只看该作者
好文,顶。。。。。

论坛徽章:
0
10 [报告]
发表于 2014-06-15 18:45 |只看该作者
厉害厉害厉害
赞!
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP