查看原文
其他

【e医疗原创】孟晓阳:IT运行监控系统设计与使用心得

2016-03-25 e医疗 e医疗

点击上方蓝字关注我们,点击文末“写评论”激扬观点。


北京协和医院信息管理处

高级工程师

孟晓阳


工 欲 善 其 事


  随着医院信息化建设逐年深入,应用范围越来越广,配套的服务器、存储和网络设备也越来越多。IT设备的快速增长,使信息系统的管理面临很大的运维压力,传统的人工巡检和排错的方式,已经无法满足业务系统对高可用性的需求。在近年来发生的医院信息系统宕机事故中,因为不能及时发现和排除故障而导致的UPS起火、空调宕机、数据库崩溃的情况,占了很大的比例。


  “工欲善其事,必先利其器”,最近几年,越来越多的医院开始采用了机房监控系统、网管系统、数据库监控等技术手段,在不同层面上保障了医院信息系统的安全稳定。以上这些软件我们统称IT运行监控系统,其作用是自动化的采集、分析 IT设备的运行状态数据,通过图形化的方式进行展示,并对超出设置阈值的指标进行报警。


  同时我们也发现了这样的问题:


  一方面是产品本身“鱼龙混杂”,有的产品似乎功能上很强大,但可靠性不高,实际应用过程中常出现设备故障时不报警,设备正常运行时却会误报的状况。


  另一方面是实施结果“中看不中用”,有的医院监控大屏做的很漂亮,但后台的配置没有细化,并不能真正监控到日常发生的故障。如果说产品本身的差异需要厂商的进一步改进,那么如何物尽其用,用好管好IT运行监控系统就是医院信息部门的责任了。


  我院自2008年自主开发机房温湿度监控系统开始,逐步上线了机房监控、网络监控、服务器数据监控、虚拟化监控等多个监控模块,并对界面和报警进行了整合。基本做到了“早于用户发现故障,早于故障消灭隐患”,同时结合基于ITIL的日常IT运维管理流程,有效地保障了信息系统的高可用性。


系 统 设 计



  根据以往的经验,我们将医院信息系统的运行环境包括机房环境、网络、服务器、数据库、应用系统客户端五部分,关系如图1所示。


  图示主要说明了两个问题:(1)下层的运行环境为上层的运行环境提供支撑;(2)作为用户界面的业务软件客户端位于最上层。


  由此可知,当下层的运行环境出现问题时,将逐层向上产生影响,如能及时发现和处理,就可以消除故障隐患,从而避免事故隐患蔓延到用户界面,减少造成业务中断的几率。因此,逐层分析可能产生故障的因素,建立一组较为全面的监控指标体系,是设计IT运行监控系统的关键。这些指标应包括以下方面。


①——机房监控——①


  医院信息系统机房是服务器、网络及其附属设备运行的环境和场所,在国家标准GB50174-2008 《电子信息系统机房设计规范》中,对其建设和运行指标有详细的约定,其中应进行监控的重点是配电系统和环境温湿度。


(1)配电系统


  配电系统包括市电供应、不间断电源和发电机三部分。


  对市电供应应监控电能质量,主要指标包括开关状态、电流、电压、有功功率、功率因数、谐波含量。


  不间断电源就是常说的UPS(UninterruptiblePower System),其主要监控指标为:监控输入和输出功率、电压、频率、电流、功率因数、负荷率;电池输入电压、电流、容量;同步/不同步状态、不间断电源系统/旁路供电状态、市电故障、不间断电源系统故障;监控蓄电池的电压、阻抗和故障。


  对发电机系统应监控:油箱(罐)油位、柴油机转速、输出功率、频率、电压、功率因数。此外,机房的PUE( P o w e r Us a g e Effectiveness)值是评价机房能耗的一个重要指标,它表示机房总设备能耗与IT设备能耗的比值。在监控系统中,我们可以通过采集到的电压电流数据,计算出实时的PUE值。


(2)环境温湿度


  环境温湿度指标是机房环境中最重要的指标,业内有“温度每升高10度,设备使用寿命减半”的说法,因此维持机房温湿度恒定是对机房环境的基本要求。对空调系统应监控开关、制冷、加热、加湿、除湿的运行状态;相对温度、相对湿度、传感器故障、压缩机压力、加湿器水位、风量设置阀值,超出报警。在空调、水管、窗户等易产生水源泄露的部位,应安装漏水感应装置,并监控其状态。对机房环境,应监控房间各区域以及机柜内部的温度、湿度数据以及变化趋势。监控探头应放置在被监控设备的入风口位置,如:对于下送风上回风,设置冷热通道的机房,应监控其冷通道顶部的温度。


②——主机系统监控——②


  绝大多数的主机系统监控是基于SNMP协议(Simple NetworkManagement Protocol/简单网络管理协议)的。SNMP是应用最为广泛的TCP/IP 协议,采用了Server/ Client的模式,通过管理端与SNMP代理间的交互工作完成对设备的管理;而 MIB(Management Information Base 管理信息库)包是解读SNMP消息内容的字典,MIB包以文本形式保存树状的代码信息,每个分支代表一种类型的统计信息或状态信息。通过SNMP代理可以响应管理端关于MIB信息的各种查询,如:get,getnext,set等。被管设备还可以通过发送TRAP包的形式主动向管理端发送紧急报警信息,从而实现对设备的监控。


(1)存储系统


  对于存储系统,除了通用的基于SNMP协议的监控,还可以通过SMI-S协议( StorageManagement Initiative Specification,主动存储管理规范)获取更多的设备信息。SMI-S协议是SNIA (StorageNetworking Industry Association,美国存储网络工业协会)提出的存储管理的接口标准,它使存储管理可以真正实现与厂商无关,从而降低管理成本,提高管理效率。当前主流的存储设备厂商,如:IBM、博科、EMC、NetAPP、浪潮、 HP等都支持该协议。基于SMI-S协议,监控软件可以自动获取HBA 主机、FC交换机、FC数据存储设备以及光纤通道状态,并生成存储拓扑,以图形化的方式实现对存储设备资源的统一管理。


(2)服务器


  对硬件故障的监控可以采用基于IPMI (Intelligent Platform Management Interface,智能平台管理接口)的数据采集方式。IPMI是管理基于 Intel结构的企业系统中所使用的外围设备采用的一种工业标准,该标准由英特尔、惠普、NEC、美国戴尔电脑和SuperMicro等公司制定,用户可以利用IPMI监视服务器的物理健康特征,如温度、电压、风扇工作状态、电源状态等。如用户可以通过IBM X系列服务器的控制网口连接主板的集成管理模块,收集服务器硬件物理状态。对于服务器性能监控最主要的3个指标是CPU利用率、内存利用率和文件系统使用率。系统管理员应经常对以上指标的历史数据进行分析,如有利用率过高的情况,应结合应用场景分析,及时处理。


(3)虚拟化监控


  VMware虚拟化解决方案是当前最常用的虚拟化技术,其自带的vCenter管理工具可以很方便的监控和管理vSphere运行环境。不少监控软件也包括类似vCenter的虚拟化管理模块,甚至可以通过 API接口对不同品牌的虚拟化管理平台进行整合,接收从虚拟化设备发出SNMP TRAP信息,生成自己的监控界面,方便系统管理员进行管理。


(4)服务与日志监控


  监控软件还应支持对操作系统进程的监控,判断其所使用的资源比例和健康状况,还应对基础应用服务的核心端口、HTTP、FTP、POP3、SMTP、 DNS、NTP等服务可用性和响应时间的监控。日志监控是指对windows日志、syslog日志或其他文本类型的日志监控管理,对接收到的日志信息进行存储、分析并报警。对日志的监控主要通过关键字检索或事件ID识别来实现,日志报警应支持逻辑判断,设置不同的级别,对不需产生报警的事件进行例外排除。


③——数据库监控——③


  保证数据可靠安全是保证信息系统高可用性的最终目的。


  进行数据库的调优和管理数据备份是 DBA的主要职责。对数据库的监控主要关注可用状态、性能和空间容量三个方面。可用状态是指被监控的数据库是否能正常访问,特定进程或服务是否状态正常;性能指标包括连接数是否过大、读缓存命中率是否过低、写缓存命中率是否过低、死锁数量是否过大、回滚数是否过高等;空间容量是指监测表空间和数据文件的大小、状态和使用率、数据库碎片比率等。以Oralce数据库为例,我们在实际工作中监控了以下指标:


(1) Session数

(2)后台进程状态(SMON、PMON、DBWn、LGWR、CKPT等)

(3)PGA状况(内存争用比、PGA使用率、 PGA命中率)

(4)SGA状况(Buffercache命中率、库缓存命中率、数据字典命中率、共享池命中率、回滚段争用比)

(5)表空间利用率、日志使用情况


  另外,检查数据备份是否成功是系统管理员的日常工作,常用的备份软件有IBM的TSM、 Symantec的Veritas Netbackup等,监控系统应可集成其状态和报警。


④——网络监控——④


  网络相当于医院信息系统的神经中枢,各种网络设备分布于各楼层配线间中,最难于管理。采用人工巡检时,只能观察到某个时点的设备通断状况和有无报警信息,无法实时全面的了解整个网络的运行情况。


  采用IT运行监控系统,可以从以下几个方面着手,对网络运行状况进行全面的监控:通过网络拓扑图,网络管理员可以直观的查看网络逻辑拓扑图和网络物理拓扑图,及时发现网络的逻辑和物理问题。拓扑图通过使用不同的图标来表示不同网络对象,用不同的颜色来表示不同的设备运行状况。


  网络故障通常会影响到一片而不是一个信息节点,网络拓扑图上数据和信息有助于管理员快速的确定故障影响范围,从而进一步判断故障产生的原因。在实时显示网络运行状况信息的同时,运行监控系统可以将这些运行数据(如:设备CPU、内存利用率;设备各端口出入流量、平均包长及丢包、错包率等)记录下来,用于以后的数据分析。


  通过历史曲线比对,TOP N数据分析等手段,可以了解设备的利用情况以及网络性能的瓶颈。IP地址管理工具可以自动发现网络上在用的设备的IP地址,帮助网络工程师发现网络上有哪些IP 地址可用。通过与基准表中IP地址范围和子网设置信息的对比,判定IP地址的在线、未登记或非法接入状态,并以不同的图标进行展示,支持IP地址登记管理,查看在线IP地址的登记状态,根据条件批量的变更IP地址的登记状态。


  IP地址管理工具还可以自动发现IP地址和MAC地址的对应关系,建立MAC地址IP地址的绑定关系,并根据设置的策略进行阻断或报警。此外,有的监控软件还可以实现自动巡检功能,定期自动采集设备运行参数,形成巡检报告;还有的监控软件可以对网络设备的配置信息自动备份、批量更新配置信息;在无线网络管理方面,有的监控软件可以图形化的展示建筑物中的AP节点和信号强度,扫描用户数量、位置等,也是一个值得探索的方向。


⑤——业务拓扑视图——⑤


  对IT基础设施的监控是为了保障业务软件的运行,监控系统应提供所见即所得的业务和资源建模能力,从业务角度出发,将组成业务系统的IT资源按照其关联关系、权重等组成业务逻辑模型进行监控,建立从业务视角出发的监控视图。当业务应用出现故障时,能清晰展现所影响的服务及部门;每个业务服务对应一张业务拓扑视图,能从客户端、业务软件、IT基础设施不同层面展现关联关系,当 IT资源产生异常时,能够高亮显示报警及故障的传递关系。




  如图2所示的的OA系统,配备有中间件和数据库服务器两组主机,数据库主机上又运行着数据库监控,中间件主机做了Windows集群,上面还有相应的Weblogic的进程。以上信息都可以以OA系统为索引,展示在同一业务拓扑视图中。推而广之,对于业务本身的一些指标,如当日挂号数、已就诊人数、处方数、检查检验申请等也可纳入业务拓扑图,并对数据在不同业务系统中的流向进行配置和标识,这样的从业务负载到IT基础设施保障情况的一体化视图,就可以清晰地反映出整个医院信息系统的运营状况。


⑥——报警管理——⑥


  在信息部门的办公区应设置监控大屏,播放IT运行监控系统的运维门户视图,集中显示信息系统整体运行状况,包括:IT资产统计、报警列表、机房环境监控图、服务器位置及拓扑、全院网络拓扑、数据库状态、应用系统定期作业执行情况等。


  对于故障报警,应包括但不限于声光电、短信、邮件、手机App等多种方式。如:当IT运行监控系统收到 SNMP TRAP报警信息或检测到超过了预先设定的阀值时,会通过短信模块向管理员手机发送短信报警,同时监控大厅的报警灯闪烁并蜂鸣报警,运维门户的拓扑图上标示出故障位置。故障等级设为三档,正常、提醒和警告。系统通过拨测自检,确保自身运转正常;当发现异常数据但不影响系统正常使用时生成提示信息,当判断故障需要紧急处理时显示为警告。此外还需注意避免报警风暴的产生,如:同样内容的报警30分钟只有显示一次,同类型的报警整合成一条等。


人 防 技 防 要 并 重


  正如著名的海恩法则所描述的——


“ 每一起严重事故的背后

必然有29次轻微事故

300起未遂先兆

以及1000起事故隐患 ”


  对于一个庞大而复杂的医院信息系统体系而言,如果不借助工具,进行事故隐患排查和早期处理似乎是个不可能完成的任务,而通过IT运行监控系统可以让系统管理员可以一目了然地了解到信息系统各个环节的运行状况,图形化的展示方式可以帮助各个专业的工程师在同一个平台下进行合作和管理。


  对于上面所设计和期望达到的监控覆盖范围,虽然我们至今仍未能完全实现,但系统投入使用以来,显著减轻了IT运维人员的巡检压力;在几次硬件故障发生时,均能及时报警,未造成进一步的事故;通过对历史数据分析,还可以再现事故发生的过程,排查类似隐患,避免同类情况再次发生。同时我们也意识到,在IT运维管理方面需要人防和技防并重,技术只是辅助手段,如果IT运维人员责任心不强,不能重视并及时处理报警,IT运行监控系统也不能发挥作用。


  另一方面,对报警参数的配置是一个动态调整和完善的过程,需要在使用过程中,尽可能将所有软硬件报警信息都纳入其中,根据实际情况调整阈值,持续改进。


以上来源:e医疗2016年02月刊



点击以下链接了解更多内容

【会议】关于2016医学影像信息技术大会,最新信息在这里!

扫码报名参会



e医疗的2015年终特刊承载了众多行业意见领袖的观点和感悟,他们从各自的角色和担负的职责出发,从个人的经历娓娓道来对行业的观察,点击e医疗微信公众号菜单栏“年终特刊”,便查看最新关于特刊的全部内容。



推荐关注

e医疗2016年02月刊

《科技新时代》e医疗订阅可选用以下两种方式:
1. 邮局订阅,邮发代号:2-643;

2. 致电读者俱乐部,热线:(010)-65157887-666

3.批量订购后台直接联系小编,留下订购意向及联系方式^_^

除本刊所有版权图片外,本文中其余图片来源为360图片,若涉及版权问题,请与我们联系删除事宜。


“e医疗”原创文章,转载请注明来源



e医疗

医疗卫生信息化资讯平台
微博 | @ e医疗
微信 | e-healthcare
杂志 | e医疗


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存