免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: jiang_box
打印 上一主题 下一主题

[其他] 大型数据中心运行监测体系的建设与运用 [复制链接]

论坛徽章:
0
31 [报告]
发表于 2015-02-06 11:13 |只看该作者
前辈同行,是个大好人!!lol

论坛徽章:
0
32 [报告]
发表于 2015-02-06 11:18 |只看该作者
我们现在是分两块,应用运维用的IBM TIVoli(也可以监控网络线路),网络我们用开源自搭的nagios(centreon)+nagios主要用于监控网络线路及短信告警,端口及线路流量用CACTI,同行前辈,有没更好的建议?能加你QQ请教嘛?谢谢!!

论坛徽章:
0
33 [报告]
发表于 2015-02-28 17:00 |只看该作者
姜老师:
    如果在开发时,就做到应用日志的统一、规范,能否通过日志实现应用级的监控;对于交易监控,这种做法与旁路监控(天旦的产品)相比,有何优劣?
    能否结合您以往的经验,谈一谈,谢谢~

论坛徽章:
0
34 [报告]
发表于 2015-03-18 11:13 |只看该作者
周期比较长点而已~

论坛徽章:
6
2015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-03 17:33:522015元宵节徽章
日期:2015-03-06 15:50:39IT运维版块每日发帖之星
日期:2016-01-11 06:20:00IT运维版块每日发帖之星
日期:2016-03-19 06:20:0019周年集字徽章-19
日期:2019-09-06 18:56:11
35 [报告]
发表于 2015-03-22 17:11 |只看该作者
正确的部署分布式OSSIM系统,将化解平时很多难以解决的问题。

论坛徽章:
1
2015亚冠之柏斯波利斯
日期:2015-05-25 13:29:55
36 [报告]
发表于 2015-05-09 09:46 |只看该作者
安逸... 舒服...  
楼主大大他感谢你了 以后一定要来给你捧场  太赞了

求职 : Linux运维
论坛徽章:
203
拜羊年徽章
日期:2015-03-03 16:15:432015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:57:092015小元宵徽章
日期:2015-03-06 15:58:182015年亚洲杯之约旦
日期:2015-04-05 20:08:292015年亚洲杯之澳大利亚
日期:2015-04-09 09:25:552015年亚洲杯之约旦
日期:2015-04-10 17:34:102015年亚洲杯之巴勒斯坦
日期:2015-04-10 17:35:342015年亚洲杯之日本
日期:2015-04-16 16:28:552015年亚洲杯纪念徽章
日期:2015-04-27 23:29:17操作系统版块每日发帖之星
日期:2015-06-06 22:20:00操作系统版块每日发帖之星
日期:2015-06-09 22:20:00
37 [报告]
发表于 2015-05-09 16:54 |只看该作者
实习版主太厉害

论坛徽章:
0
38 [报告]
发表于 2015-05-15 14:03 |只看该作者
发表于 2015-02-28 17:00:14 |只看该作者
姜老师:
    如果在开发时,就做到应用日志的统一、规范,能否通过日志实现应用级的监控;对于交易监控,这种做法与旁路监控(天旦的产品)相比,有何优劣?
    能否结合您以往的经验,谈一谈,谢谢~
回复maomao8131:
   在开发阶段,可以将应用日志进行标准化处理,然后已工业标准化的模式,如SYSLOG等,抛出到采集服务器,例如SYSLOG服务器、FLUM采集等,之后利用HADOOP体系,标准系统日志分析,普通监控工具去分析报警。
   具体的细节,在日志分级、分类、抛出,以及采集、处理、归档、分析、展现、报警等方面,我也有些资料,如果需要就与我联系。

论坛徽章:
0
39 [报告]
发表于 2015-05-20 16:35 |只看该作者
不错
支持一下

论坛徽章:
0
40 [报告]
发表于 2015-05-28 08:54 |只看该作者
                                             城商行信息化建设的成本与收益
                                   —— 通过标准化运行控制,降低信息系统建设成本提高收益
                                                                 哈尔滨银行科技发展部数据中心  姜岩
      银行信息系统的建设和运行,始终面临着成本与收益的矛盾,一方面需要快速且高质量的开发建设,并确保安全稳定运行,另一方面要面临人力资源、系统资源及资金成本等压力,城商行因人力资源及资金投入有限,此类矛盾尤为突出,本文将结合具体工作实践,与各位同行探讨如何通过技术工作的标准化与自动化管理措施,缓解此类矛盾。
一、运行成本与收益
作为银行的技术部门,既要完成日常的技术管理与建设工作,又要全面考虑信息系统建设与运行的成本与收益问题,并针对成本或者收益中的关键要点,以及银行发展的阶段重点及条件,确定相关的解决方案。
1.信息化建设及运行的成本
信息系统建设的最终目标,是产品及服务的稳定运行,因此从建设与运行的综合角度分析,构成成本的几个主要因素如下:
1)建设成本:主要包括信息系统的需求分析、技术设计、开发测试所需人力与资源成本,但从系统建设后的稳定运行角度分析,可以抽取上述工作的共同之处,通过标准化设计,形成通用性方法,以此降低该部分的成本,例如:在系统建设的需求分析与技术设计阶段,经常要考虑并处理系统间的配合问题,其中既有线上同步关联,也有线下异步关联,那么就可以将系统间异步关联的需求设计与技术实现,进行标准化管理,从异步的逻辑控制模式、数据传输的方法、异常情况的处置等环节,进行标准化,以供同类问题的共同使用。
2)资源成本:信息系统建设并投入运行后,需要网络及系统等资源成本承载运行,以往为确保系统运行的安全问题,在资源设计上会留出较多的余量,虽然通过服务器虚拟化等技术,可以实现资源的池化与弹性调整,但必须具备有效的资源使用情况监测与动态调度能力,才能在系统运行初始阶段只配置有限资源,根据业务发展动态调整资源,有效降低资源性成本。
3)维护成本:系统投入运行后,需要定期变更、数据备份及查询等维护工作,为降低此类成本,只能通过运维工作及操作的标准化与自动化,减少人员操作成本。
4)运行成本:系统运行过程中,需要实时监测、定时清理、批量任务执行、故障处置操作等,上述任务即为运行成本,此类任务对于系统运行至关重要,但可通过任务的标准化与自动化,降低相关成本。
5)风险成本:系统运行过程中,出现的各类故障及运行问题,即为风险成本,如何有效控制此类问题的发生,最大程度上降低风险成本,既需要在管理方式上落实,也需要在技术手段上加以控制,例如:根据系统的构成关键环节、整体运行路径、问题定位诊断流程、故障处置验证策略,进行技术方案的标准化设计与自动化实现,再结合简洁高效的管理流程,才能有效控制风险事件发生后的影响。
2.信息化建设及运行的收益
   通过信息系统的建设与运行,银行能够获得的收益分为如下几个方面:
1)业务运行收益:保持业务系统稳定可靠运行,为银行各项业务的顺利开展提高保障,即为业务运行收益,通过技术与管理手段,增强业务系统的稳定与可靠性,即可增加此类收益。
2)客户服务收益:除保持业务系统稳定运行,为客户提供基本金融业务服务外,如能在数据查询、问题解决等方面提供快速便捷的解决方案,也能进一步提升银行对于客户的服务收益,如:针对各分支行等一线营业网点,提供快捷的数据查询与调阅城商行信息化建设的成本与收益
—— 通过标准化运行控制,降低信息系统建设成本提高收益
[size=9.0000pt]哈尔滨银行科技发展部数据中[size=9.0000pt]心  [size=9.0000pt]姜岩
[size=10.5000pt]银行信息系统的建设和运行,始终面临着成本与收益的矛盾,一方面需要快速且高质量的开发建设,并确保安全稳定运行,另一方面要面临人力资源、系统资源及资金成本等压力,城商行因人力资源及资金投入有限,此类矛盾尤为突出,本文将结合具体工作实践,与各位同行探讨如何通过技术工作的标准化与自动化管理措施,缓解此类矛盾[size=10.5000pt]。
一、运行成本与收益[size=10.5000pt]作为银行的技术部门,既要完成日常的技术管理与建设工作,又要全面考虑信息系统建设与运行的成本与收益问题,并针对成本或者收益中的关键要点,以及银行发展的阶段重点及条件,确定相关的解决方案。
[size=10.5000pt]1. [size=10.5000pt]信息化建设及运行的成本
[size=10.5000pt]信息系统建设的最终目标,是产品及服务的稳定运行,因此从建设与运行的综合角度分析,构成成本的几个主要因素如下[size=10.5000pt]:
[size=10.5000pt]1) [size=10.5000pt]建设成本:主要包括信息系统的需求分析、技术设计、开发测试所需人力与资源成本,但从系统建设后的稳定运行角度分析,可以抽取上述工作的共同之处,通过标准化设计,形成通用性方法,以此降低该部分的成本,例如:在系统建设的需求分析与技术设计阶段,经常要考虑并处理系统间的配合问题,其中既有线上同步关联,也有线下异步关联,那么就可以将系统间异步关联的需求设计与技术实现,进行标准化管理,从异步的逻辑控制模式、数据传输的方法、异常情况的处置等环节,进行标准化,以供同类问题的共同使用。
[size=10.5000pt]2) [size=10.5000pt]资源成本:信息系统建设并投入运行后,需要网络及系统等资源成本承载运行,以往为确保系统运行的安全问题,在资源设计上会留出较多的余量,虽然通过服务器虚拟化等技术,可以实现资源的池化与弹性调整,但必须具备有效的资源使用情况监测与动态调度能力,才能在系统运行初始阶段只配置有限资源,根据业务发展动态调整资源,有效降低资源性成本。
[size=10.5000pt]3) [size=10.5000pt]维护成本:系统投入运行后,需要定期变更、数据备份及查询等维护工作,为降低此类成本,只能通过运维工作及操作的标准化与自动化,减少人员操作成本。
[size=10.5000pt]4) [size=10.5000pt]运行成本:系统运行过程中,需要实时监测、定时清理、批量任务执行、故障处置操作等,上述任务即为运行成本,此类任务对于系统运行至关重要,但可通过任务的标准化与自动化,降低相关成本。
[size=10.5000pt]5) [size=10.5000pt]风险成本:系统运行过程中,出现的各类故障及运行问题,即为风险成本,如何有效控制此类问题的发生,最大程度上降低风险成本,既需要在管理方式上落实,也需要在技术手段上加以控制,例如:根据系统的构成关键环节、整体运行路径、问题定位诊断流程、故障处置验证策略,进行技术方案的标准化设计与自动化实现,再结合简洁高效的管理流程,才能有效控制风险事件发生后的影响。
[size=10.5000pt]2. [size=10.5000pt]信息化建设及运行的收益
[size=10.5000pt]   [size=10.5000pt]通过信息系统的建设与运行,银行能够获得的收益分为如下几个方面:
[size=10.5000pt]1) [size=10.5000pt]业务运行收益:保持业务系统稳定可靠运行,为银行各项业务的顺利开展提高保障,即为业务运行收益,通过技术与管理手段,增强业务系统的稳定与可靠性,即可增加此类收益。
[size=10.5000pt]2) [size=10.5000pt]客户服务收益:除保持业务系统稳定运行,为客户提供基本金融业务服务外,如能在数据查询、问题解决等方面提供快速便捷的解决方案,也能进一步提升银行对于客户的服务收益,如:针对各分支行等一线营业网点,提供快捷的数据查询与调阅服务,大幅提升客户的满意度。
[size=10.5000pt]3) [size=10.5000pt]数据分析收益:通过对于银行业务运行及客户交易历史数据的分析,能够使得银行从数据分析中活动更多收益,但从信息系统的设计、开发、运行等环节,就要从业务场景及使用目标的角度,进行预先的数据关联分析“埋点”处理,为数据分析提供更好的“数据标签”基础,然后通过标准化数据抽取与推送服务,为一线业务部门提供基础数据服务,帮助业务部门进行定向营销分析等活动。
[size=10.5000pt]4) [size=10.5000pt]安全运行收益:与风险成本相对应,如能保障关键应用系统的稳定运行,如贵金属交易等高风险高震荡型系统的稳定运行,同样能够为银行带来收益,为达到此目标,同样在系统的设计、开发、运行阶段,就要针对监视采样、定位控制等非功能需求,进行预先的系统建设“埋点”,以便能够有效控制。
[size=10.5000pt]如何控制或者降低成本,增加或者提升收益,需要从信息系统的建设策略、技术基础、人员能力及工具知识等几个方面综合考虑,归纳并抽取其中的成本控制点与收益关键点,通过科技工作措施予以落实。
二、解决方案分析[size=10.5000pt]在初步明确了银行信息系统建设与运行成本及收益的几项关键内容之后,简要介绍如何通过整体建设策略的设计、可控实施方法的落实以及实用技术手段的建设等工作措施,达成降低成本提升收益的总体目标[size=10.5000pt]。
[size=10.5000pt]1. [size=10.5000pt]技术经验的迭代式积累
[size=10.5000pt] [size=10.5000pt]        [size=10.5000pt]从[size=10.5000pt]无论上述分析的成本控制点[size=10.5000pt] [size=10.5000pt]还是收益关键点,以及配套的技术手段与管理经验,都需要一个常态化的迭代式优化改进过程作为基本建设策略,这也是高费效比信息系统建设与运行的实现基础[size=10.5000pt]。
[size=10.5000pt]2. [size=10.5000pt]配套管理方法的可控落实
[size=10.5000pt]为积累系统运行与控制技术经验,需解决知识获取、标准化转换、实施规范化、运行操作可控化几个关键落实环节,分别介绍如下:
[size=10.5000pt]1) [size=10.5000pt]知识获取:系统整体运行控制的知识获取有两个渠道,一方面是通过常态化迭代式问题分析与归纳,另一方面是通过外部知识库及支持;
[size=10.5000pt]2) [size=10.5000pt]标准化转换:对于获取的各类知识与经验,需按照使用场景分目录整理,例如按照基础技术层面,梳理数据的可用性检查、隐患分析、性能排查、配置标准检查等类型,按照应用层面,梳理交易通道检查、全渠道业务可用检查等等,形成如下形式目录,便于标准化实施:
[size=10.5000pt]    file:///C:\Users\jiangyan\AppData\Local\Temp\ksohtml\wps1E8B.tmp.jpg
[size=10.5000pt]                        [size=9.0000pt]图示一:运维标准化目录
[size=10.5000pt]3) [size=10.5000pt]实施规范化:为提高可靠性与效率,需进行技术实施规范化设计,最终形成有效的控制体系,例如在巡检脚本开发阶段,将巡检逻辑流程与被巡检对象有效分离,逻辑以脚本或者工具实现,被巡检对象作为参数传递,以此提高实施的规范化程度,为自动化奠定基础。
[size=10.5000pt]4) [size=10.5000pt]运行操作控制:完成知识的获取、标准化、规范化之后,需配套设计运行操控的调度方法,才能有效控制关键策略的精确执行,例如在业务路径可用性探测过程中,将探测路径中的各个节点进行编码,并设计配套的深度值,如探测到异常情况后,则根据深度值判断根源,提高运行操作控制的精确度。
[size=10.5000pt]3. [size=10.5000pt]技术平台的持续优化
[size=10.5000pt]因系统运行环境的技术发展,需面对各类新增技术难题,因此对于系统整体运行所需支撑平台,需具备[size=10.5000pt]平台层面的持续改进与优化能力[size=10.5000pt]。
三、运维中间件的实现[size=10.5000pt]在应用系统开发过程中,需利用中间件控制开发难度降低开发成本,主要是利用中间件的资源管理、服务调度、弹性收缩等功能,借用应用开发中间件的概念,在系统整体运行调度过程中,也需要通过建立运行中间件的技术体系,降低系统运行成本、提高运行收益,运行中间件需提高的标准服务包括:部署自动化、监测自动化、处置自动化、数据动态抽取等,在具备了上述标准化服务平台后,运行其上的应用系统仅需根据调度需要,进行必要的“埋点”开发,也就是提高被监控、被调度、被抽取等基本功能点,不必再考虑复杂的运行场景逻辑,如下图所示:
file:///C:\Users\jiangyan\AppData\Local\Temp\ksohtml\wps1E9B.tmp.jpg[size=10.5000pt]
[size=10.5000pt]                        [size=10.5000pt] [size=9.0000pt]图示二:运维中间件的构成
[size=10.5000pt]  根据上述运行所需“中间件”服务的分析,在运行标准化及自动化方面,还需细分为:操作控制、监控诊断、发布验证、应急处置、配置核查等领域,因各领域的技术环境与实现目标存在差异,因此在实施方法及技术规范上,也需差异化控制,例如:
[size=10.5000pt]Ø [size=10.5000pt]操作控制领域,主要以常规作业等为主,那么作业在哪些日期什么条件执行,执行的结果如何判断,出现结果异常如何处理等内容,需要在技术规范和实施工具等层面解决;
[size=10.5000pt]Ø [size=10.5000pt]监控诊断领域,主要是各类系统状态监测、有效性检查、故障定位诊断为主,那么就需要解决采集的问题,跨层面跨节点多维度判断问题等;
[size=10.5000pt]Ø [size=10.5000pt]处置调度领域,当异常情况发生后,能够根据预先设定的场景,以及实时运行数据的结果,进行逻辑判断,进行应急处置,并调度系统与数据的配套规避与恢复操作;
[size=10.5000pt]Ø [size=10.5000pt]发布验证领域,主要以系统及应用发布验证为主,需要解决发布白名单控制,动态发布对象的参数化处理等问题;
四、让运维带来更多收益[size=10.5000pt]通过运行标准化及自动化的实施,不仅仅能够达到控制风险降低成本等目标,如果充分运用,还能够达到提升收益的目的,具体表现在如下几个方面:例如,通过自动化数据查询服务,为分支行一线业务部门提供及时的账务查询、司法查询数据查询、内外部客户的自助报障、应用系统的敏捷开发快速投产、业务创新流程的快速落地等。
[size=10.5000pt]1. [size=10.5000pt]数据查询
[size=10.5000pt]分支行一线业务部门经常面对大量的账务查询、司法查询工作,通过运行自动化手段提供标准服务,能够提升效率降低人力成本,同时通过为分支行提供按需抽取的服务,为分支行直接提供业务分析、营销分析的原数据或分析过程数据,直接支持分行业务营销等。
[size=10.5000pt]2. [size=10.5000pt]快速投产
[size=10.5000pt]通过变更发布白名单控制机制,以及配套的技术手段实施,能够让灵活多变的业务逻辑需求在满足安全可控的要求同时,快速投产,提升业务部门效益,例如:针对微信银行的变更特点及风险,梳理发布白名单,将非关联功能、非数据结构变化等低风险高可控的变更,设计为标准的发布流程,并配置到发布白名单之中,根据需要,有开发人员发起发布流程,经过研发项目组经理与功能测试经理审核后,自动将程序包载入准生产环境验证,如成功,则载入生产环境多活服务器集群之中,进行灰度发布,以此实现业务需求的快速投产。
[size=10.5000pt]
[size=10.5000pt]3. [size=10.5000pt]业务创新
[size=10.5000pt]通过快速组合已有应用系统资源、外部平台资源,为分支行提供特定化的业务管理线上服务,可针对本地化特性化,以及临时性的业务管理与扩展需求,实现线上服务提供,例如分支行通过微信群组实现某一特定贷款产品的获客沟通,通过后线灵活流程控制,实现行内资源整合与SAAS服务,在确保业务数据及资料安全的同时,保证实现速度与质量等[size=10.5000pt]。
五、结束语[size=10.5000pt]本文[size=10.5000pt]简单阐述了通过运行标准化自动化的实施,从整体上降低信息系统建设与维护的成本,同时通过标准化及自动化手段,让运维直接带来收益的思路与实践经验,但因每家银行的已有环境及资源,当前主要问题等不尽相同,因此在目标相同的情况下,需要采取不同的策略设计实现路线,才能最终收到较好的效果[size=10.5000pt]。
服务,大幅提升客户的满意度。
3)数据分析收益:通过对于银行业务运行及客户交易历史数据的分析,能够使得银行从数据分析中活动更多收益,但从信息系统的设计、开发、运行等环节,就要从业务场景及使用目标的角度,进行预先的数据关联分析“埋点”处理,为数据分析提供更好的“数据标签”基础,然后通过标准化数据抽取与推送服务,为一线业务部门提供基础数据服务,帮助业务部门进行定向营销分析等活动。
4)安全运行收益:与风险成本相对应,如能保障关键应用系统的稳定运行,如贵金属交易等高风险高震荡型系统的稳定运行,同样能够为银行带来收益,为达到此目标,同样在系统的设计、开发、运行阶段,就要针对监视采样、定位控制等非功能需求,进行预先的系统建设“埋点”,以便能够有效控制。
如何控制或者降低成本,增加或者提升收益,需要从信息系统的建设策略、技术基础、人员能力及工具知识等几个方面综合考虑,归纳并抽取其中的成本控制点与收益关键点,通过科技工作措施予以落实。
二、解决方案分析
在初步明确了银行信息系统建设与运行成本及收益的几项关键内容之后,简要介绍如何通过整体建设策略的设计、可控实施方法的落实以及实用技术手段的建设等工作措施,达成降低成本提升收益的总体目标。
1.技术经验的迭代式积累
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP