莱钢宽厚板厂的生产和管理由MES 信息系统来支撑,当MES 系统出问题时,维护人员才查找、解决问题。这种运行维护模式非常被动,已经不能适应企业生产管理的需求。为此,基于ITIL 管理理念和遵循面向对象的设计结构,融合网络、主机系统、应用服务、业务管理等因素,从业务视角出发,为实现各项管理数据的共享集中、互通互融,开发了莱钢MES 信息系统的运行维护管理系统。
1 ITIL简介
ITIL(Information Technology Infrastructure Library,信息技术基础设施库)是IT 服务管理的国际标准,提供了IT 服务管理的知识框架体系,主要用于IT 服务运营阶段。IT 运维服务是IT 管理的核心和重点部分,信息部门内部日常运营管理,涉及IT业务系统和运维人员2 部分,主要包括7 项管理服务内容:1)设备管理,对网络设备、服务器设备、操作系统运行状况进行监控和管理。2)应用/服务管理,对各种应用支持软件如数据库、中间件、群件以及各种通用或特定服务的监控管理,如Tuxedo、Oracle、Web 等的监控与管理。3)数据/存储/容灾管理,对系统和业务数据进行统一存储、备份和恢复。4)业务管理,包含对企业自身核心业务系统运行情况的监控与管理,对于业务的管理,主要关注该业务系统的CSF(关键成功因素)和KPI(关键绩效指标)。5)目录/内容管理,该部分主要对于企业需要统一发布或因人定制的内容管理和对公共信息的管理。6)资源资产管理,管理企业中各IT 系统的资源资产情况,这些资源资产可以是物理存在的,也可以是逻辑存在的,并能够与企业的财务部门进行数据交互。7)信息安全管理,目前信息安全管理主要依据的国际标准是ISO 17799,该标准涵盖了信息安全管理的10 大控制方面、36 个控制目标和127种控制方式,如企业安全组织方式、资产分类与控制、人员安全、物理与环境安全、通信与运营安全、访问控制、业务连续性管理等。
2 运行维护管理系统
2.1 系统架构
系统架构模型如图1 所示。模型通过建设有效的组织目标管理,规范的运维流程体系,并且提供丰富的运营监控技术手段,确保莱钢网络及系统运行维护中心提供IT 服务的可用性、连续性,保障宽厚板MES 业务应用系统的稳定、高效运行。
莱钢MES 系统组成:1)硬件:小型机、PC 服务器、PC 机、路由器、交换机、防火墙、存储设备、不间断电源、机房空调及视频监控等设备;2)软件:AIX、HACMP、Oracle、Tuxedo、Xcom、MES 系统平台等。
莱钢宽厚板MES 系统运维平台主要包括监控管理子系统和服务流程管理子系统2 部分,通过监控管理子系统的设备拓扑自动发现,实现对网络设备、链路流量、服务器系统、PC 终端、数据库系统、应用系统、机房环境和业务系统等进行全面的监控和管理;通过故障监控和性能监控,经过事件统一处理分析平台,将故障、性能越限和配置变动信息进行集中监控管理,重要的信息形成工单传递到流程管理子系统;服务流程管理子系统控制IT 运维中的业务保障服务流程,使运维流程符合ITIL 标准;在系统的展现层,提供运维管理门户,将运维管理的事件、故障、性能、配置、工单、报表等集中在一个平台综合展现。
2.2 系统功能
莱钢MES 运维管理系统分为系统监控管理、运维服务管理、信息安全管理和报表系统等模块,系统组成见图2。运维管理系统以流程为导向,从设备、应用到服务的全方位管理,对莱钢MES 所维护的设备、操作平台、应用软件和业务系统进行监控和管理。
2 莱钢MES 运维管理系统逻辑结构
1)系统监控平台。监控管理实现对Cisco 网络设备、IBM P550、Oracle、Tuxedo、MES 服务等进行集中统一的管理。监视网络设备、网络安全设备的在线状态、CPU 利用率、内存大小、设备日志、设备路由表信息、设备配置文件的监控。监视对AIX、Windows等操作系统的主机系统的运行状况监控,包括主机的在线状态、CPU 利用率、内存大小及利用率、磁盘空间大小及利用率、所提供的关键服务状态、主机的网络接口流量、丢包和错包率等信息。监视Oracle 数据库运行状态,包括数据库进程、数据库锁、数据库日志等信息;对数据库资源监视,包括数据库CPU、数据库CATCH 等信息;对数据库Session监控等信息。实现对Tuxedo 等中间件的运行状态监控,监控服务启动、关闭时有无错误信息,服务消耗的CPU、内存和线程数等信息。
2)运行维护服务管理。运维服务管理通过规范化和流程化的服务管理,提供事件管理、问题管理、变更管理、知识库管理、值班管理等功能,建立流程的闭环管理,提高故障处理的效率和质量。事件管理包括接受和记录事件、确定优先级、知识库关联、事件处理、和关闭事件。问题管理为事件管理找到原因和解决办法,彻底解决该类故障。电子化值班管理,规范值班管理制度,包括交接班的处理和记录、记录值班过程中的事务、为绩效管理提供考核数据。知识库作为故障解决方案中心,提供运维知识信息的检索等。
3)信息安全管理。应用防火墙,保证网络隔离;建立桌面管理系统,管理维护用户PC;建立全网的补丁分发及病毒防治,保障系统的安全;应用备份系统,保证数据安全。
4)报表系统。针对事件、问题处理完成情况,对个人、部门工作情况进行详细的统计和分析。
3 结语
基于ITIL 的运维管理系统投运后,集成现有的管理流程,减少手工重复性操作的成本,提升操作控制性能,规范IT 运行维护部门关键业务流程,并能评估技术人员和流程的性能,从而提高了莱钢网络及系统运行维护中心的服务水平和效率,变被动响应为主动服务,降低了运营成本,保障了宽厚板MES 业务应用系统的稳定、高效运行。
本文作者:王彦民 谭会君 来源:网络
CIO之家 www.ciozj.com 微信公众号:imciow