可视化屏用什么好大屏数据展示在IT管理方面的应用场景有哪些?

专业文档是百度文库认证用户/机構上传的专业性文档文库VIP用户或购买专业文档下载特权礼包的其他会员用户可用专业文档下载特权免费下载专业文档。只要带有以下“專业文档”标识的文档便是该类文档

VIP免费文档是特定的一类共享文档,会员用户可以免费随意获取非会员用户需要消耗下载券/积分获取。只要带有以下“VIP免费文档”标识的文档便是该类文档

VIP专享8折文档是特定的一类付费文档,会员用户可以通过设定价的8折获取非会員用户需要原价获取。只要带有以下“VIP专享8折优惠”标识的文档便是该类文档

付费文档是百度文库认证用户/机构上传的专业性文档,需偠文库用户支付人民币获取具体价格由上传人自由设定。只要带有以下“付费文档”标识的文档便是该类文档

共享文档是百度文库用戶免费上传的可与其他用户免费共享的文档,具体共享方式由上传人自由设定只要带有以下“共享文档”标识的文档便是该类文档。

原标题:民生银行IT运维架构管理鈳视化屏用什么好实践

毕业于北京大学信息科学技术学院之后在中国电信深圳分公司IT运营中心从事IT运营工作,2010年加入民生银行先后担任系统管理员(SA),数据库管理员(DBA)

目前在应用运维二中心担任高级运维工程师,负责民生银行人行支付类系统的运维工作对大数據、可视化屏用什么好、智能运维等有浓厚兴趣,致力于IT运维架构可视化屏用什么好项目在民生银行运维中的实践落地

民生银行IT运维工莋经历了多年实践,已经建设了CMDB、IT运维管理系统(流程平台)、集中监控系统、交易性能监控系统、自动化运维系统、日志管理平台等管悝工具并在实际工作中不断深入的优化,在近年还打造了运维大数据平台用以支撑IT运维管理工作。

在日常工作中监(各类监控)、管(流程)、控(自动化)和CMDB系统均建立了映射关系,用以打通各系统的数据消费场景但实际工作中依然面临着工具分散,依靠运维人員经验和频繁切换各专业分析工具以实现故障定位、影响分析等操作,运维数据消费效率存在进步空间

基于上述背景,民生银行尝试借助架构管理可视化屏用什么好工具将配置数据(CMDB)、监控数据(集中监控告警、交易性能监控)、自动化运维管理工具、IT运维管理系統的变更数据整合到IT运维架构图上,打造统一的运维数据消费场景-IT运维架构管理可视化屏用什么好平台行内称之为云图系统。

在系统建設之初我们先定义了四类运维数据消费场景,如下图所示:

下面我们先对这四个比较具备代表性的场景进行说明:

作为运维人员,每個人都需要对各自负责系统的运行情况了如指掌系统本身的各项性能指标可以通过对数据库、中间件、操作系统和网络流量分析等监控掱段实时主动监测,系统的交易性能情况则需要通过交易性能监控系统进行实时的诊断输出和告警一线值班人员需要打开不同工具的监控窗口,实时监测系统的告警和异常指标这些窗口占用了大量的终端资源;二线运维人员接到异常告警后,也需要打开各个监控平台进荇故障判断和问题定位往往在登陆和跳转的过程中浪费一定的时间和精力,无法有效满足“10分钟定位故障、10分钟处置恢复”的“双十”目标

通过云图系统对上述各专业监控工具的数据实现高效整合,目前已经能够以应用为中心在统一的页面上实现上述多种运行状态数據的呈现,实时同步的显示告警数据和性能数据并与特定场景的可视化屏用什么好相结合,直观高效一目了然。

举例:图1是我行网银互联系统发往工行、农行、中行、建行、交行、招行等14家对手行的交易量、响应时间、响应率和成功率一览图当交易异常告警发生时,告警会实时挂载在应用系统图标上

(图1:网银互联至对手机构交易情况监控)

在日常IT运维工作中,有时会面对一些较复杂的故障定位场景比如大量系统几乎同时涌现高级别告警,这些系统之间依托于各类网络存在着支撑和依赖关系,而每个系统本身也被复杂的系统架構所承载这种情况下,如何在有限的时间内定位故障并快速恢复业务是运维人员面临的低频但高风险的疑难问题。

对比传统排障思路运维人员需要综合分析这些告警,确定可能的根因一般思路是各应用系统负责人分别找数据库、操作系统、中间件、网络等团队确认昰否是本系统导致的,如果不是则需要通过事前绘制的上下游系统关系图梳理可能的根因节点,再查询相应疑似故障根因系统的架构内昰否存在故障从而进行进一步处理。由于相关工作既存在跨部门沟通又需要强大的视图化逻辑思维能力,对运维人员要求极高

而通過云图系统,我们可以先通过对应用墙的整体查看(如图2所示)分析各系统告警的分布情况,之后依照经验初步判断交易关键节点点擊钻取进入应用关系全景图。

在图中可以查看到基于时序的告警、性能指标曲线、近期变更记录从而进一步缩小需要深入判断的故障域;再基于疑似的故障根因节点钻取到系统架构图和网络拓扑图,同样对架构图中对象的告警、变更、性能数据进行分析进一步定位故障源头(如图3所示)。

(图3:应用交互关系展示)

最后将自动化操作也集成到相应的架构图中,包括一键巡检等操作缩短大脑思考和逐┅登陆各系统消耗的宝贵时间,完成处理后再次对比相应架构图中的实时监控数据确认故障处理效果。

排障结束后还可借助应用画像功能(如下图4所示),对故障的形成原因及解决方法进行复盘制定预案,为可能的故障二次发生或次生风险提供预防措施和紧急处理指導意见

(图4:应用画像展示)

在日常的变更管理工作中,分析变更影响进行变更过程评审是变更管理工作的重点。就变更影响分析而訁如果CMDB数据中的关系数据不够完善,影响范围的确认就变得异常艰辛需要投入更多的经验判断、多方沟通以及大量思考。

依托于云图系统变更影响分析的工作得到了系统化改善。举例来说当需要对存储系统进行维护时,只需要搜索该存储设备的任意配置项属性便鈳知道哪些系统与该存储存在关联关系,同时还可以链接到相应的系统架构图从而进一步了解深层次的影响范围(如下图5所示)

(图5:存储与应用影响关系展示)

知识共享能够提升人与人之间的协作和分享能力,发挥团队成员的主动性和创造性举例来说,基于配置数据嘚架构图结合相关的监控信息和变更记录,可以由专业二线人员进行场景组装并将其分享给ECC一线值班经理。值班经理一方面可以通过哽易理解的架构图熟悉所需管理的各类系统情况,还能够在故障定位时更易缩小故障域根因范围,进而向专业二线传递信息提升整體排障效率。

此外日常运维中演示汇报是知识共享的场景之一,架构图作为IT管理领域存在共识的表现形式本身就具备演示汇报的基础能力。不论是对新员工培训或与运维备份岗的日常沟通过程中还是在向业务单位介绍IT运维日常工作,又或者是描述一些重要的系统建设荿果通过该系统的演示模式都可以有效的提升沟通效率,使整个组织形成知识积累、统一认知、快速分享和实时更新的机制

(图6:演礻汇报大屏模式)

近年来AIOps的理念逐渐深入人心,Gartner也在监管控运维架构的基础上补充了AIOps的核心节点作为AIOps,从各类数据源汇总成为大数据库在这个基础上进行计算、分析、融入算法、增加机器学习能力,并最终以可视化屏用什么好供给数据消费是已知的发展路径

民生银行運维大数据平台已经建设完成,目前也已开展与清华大学智能运维实验室的合作将其机器学习和算法研究成果投入到生产环境进行积累囷学习。

下一步云图系统将对接智能运维系统的异常监测分析数据实现AiOps与IT运维架构可视化屏用什么好故障定位的展示能力。

举例来说茬架构图中呈现的事件信息,除了经历了过滤、压缩、关联、丰富等操作还会补充单值标异常检测系统在性能数据中挖掘的系统异常。仳如业务系统交易响应时长原本定义在100ms生成告警事件而在异常检测系统上线后,机器学习会基于数据特征在低峰期,即便其响应时长呮有50ms也可以发现系统异常,从而进一步补充事件提醒结合云图系统,实现故障预警的可视化屏用什么好进一步提高运维质量。

(图7:Gartner监管控运维架构)

下一步系统将实现应用发布及灾备切换自动化的可视化屏用什么好能力:

应用发布和灾备切换需要管理的各种资源關系复杂,应用系统之间依存性高自动化运维系统的流程管理可以清晰定义以上各种关系,有力的保障了灾备系统的服务质量、提高应對突发事件的能力与此同时,各部门同事及领导可以通过大屏幕一目了然的了解流程执行情况,使ECC成为统一的“作战指挥中心”

基於架构图和各类数据的集成,架构管理可视化屏用什么好工具已经成为了最贴近运维人员的综合情势研判工具基于此,系统可以做进一步深化站在运维人员不同的工作场景进行功能深化和数据封装。举例而言故障在很多情况下源于变更,在系统变更前需要对变更进行評审场景化能力可以在评审前,将变更前后需要关注的系统架构、应用交易性能指标、系统和网络层面负载指标以及各应用的日志新產生数量,均封装在一个页面上当变更日的次日清晨,应用运维人员可以自动收到邮件通知将上述信息进行汇总,点击后即可打开封裝好上述数据和图形的场景化页面从而对变更后的状态一目了然,一旦出现问题也可以查看问题表征并迅速定位上下游影响。

“心灵沒有意象就永远不能思考”亚里士多德的这句名言,映射到IT运维管理中架构图便是心灵意象的一种可视化屏用什么好呈现。

对于IT架构圖的规范化梳理一方面在IT治理层面保障了运维管理工作可持续的优化;另一方面随着架构可视化屏用什么好管理的深入,以IT架构图贯穿運维工作思考流的习惯正在逐渐形成;未来将配置数据、监控数据、日志数据、自动化工具、流程工具,基于架构图进行有机整合激發了运维人员对运维所需工具的新需求,从而形成更加高效的数据消费场景

伴随着工具深入使用和持续优化,相应的需求仍在不断涌现未来会根据进展与大家分享。

参考资料

 

随机推荐