宝钢股份是我国最现代化的钢铁联合企业,以其诚信、人才、创新、管理、技术等诸方面综合优势,奠定了在国际钢铁市场上世界级钢铁联合企业的地位。公司专业生产高技术含量、高附加值的钢铁产品,产品覆盖汽车制造、家电生产、石油开采、油气输送等领域,出口日本、韩国、欧美等四十多个国家和地区。作为负责生产控制级计算机的设备维护部门也感受到了前所未有的压力:随着公司业务范围的不断拓展,共要负责178套计算机系统运行维护工作,运行维护响应速度及服务质量面临严峻考验;各类技改、科研、改善等自主开发任务,使得人力资源的短缺日益严重。原先分散的、手工的IT系统运行维护管理模式已经无法满足发展的需求,寻求一种合理IT管理模式迫在眉睫。
1、企业IT管理的三层构架
企业的IT管理工作分为运作层、战术层和战略层,如图1所示。
从上面的三层架构可以看出,目前的IT管理大部分还处于系统&网络管理层次,即主要还是侧重于对IT基础设施本身的技术性管理工作。我们希望通过成熟的ITIL管理理念使IT支持与业务应用相结合;通过对IT管理流程的规划、设计建立和实施,进入服务管理阶段,实现信息系统管理效率和服务管理质量的同步提升,降低人工操作和管理带来的风险。使现在人工完成的事件记录、分派、通知、解决等过程自动化,规范业务支持流程,提高人员的工作效率和服务水平。
2、ITIL理念介绍
2.1 ITIL的由来和发展
ITIL是Information Technology InfrastructureLibrary的缩写,意为信息技术基础设施库,它是英国政府中央计算机与电信管理中心(CCTA)在20世纪90年代初期发布的一套IT服务管理最佳实践指南。在此之后,CCTA又在HP、IBM、BMC、CA、Peregrime等主流IT资源管理软件厂商近年来所做出的一系列实践和探索的基础之上,总结了IT服务的最佳实践经验,形成了一系列基于流程的方法,用以规范IT服务的水平,并在2000—2003年间推出了新的ITIL V2.0版本,这就是目前的ITIL标准。
ITIL为企业的IT服务管理实践提供了一个客观、严谨、可量化的标准和规范,企业的IT部门和最终用户可以根据自己的能力和需求定义自己所要求的不同服务水平,参考ITIL来规划和制定其IT基础架构及服务管理,从而确保IT服务管理能为企业的业务运作提供更好的支持。对企业来说,实施ITIL的最大意义在于把IT与业务紧密地结合起来,从而让企业的IT投资回报最大化。
经过近20年的发展,ITIL以流程为主线,进行了全面的扩充,最终形成了如图2所示的框架。这个框架现在成为了事实上的IT服务管理知识框架体系。
这一服务管理规范被划分为两个领域:服务支持和服务提供。服务支持的重点是IT服务的日常运行和支持,服务提供关注的是IT服务的长期计划和改进。
ITIL来源于实践,反过来它又用于指导实践。它列出了各个服务管理流程的“最佳”的目标、活动、输入和输出以及各个流程之间的关系,但并没有说明具体的日常运营活动。其重点是保证流程实现其应有的功能并与其他流程相协调。至于具体怎样实现这些功能,组织可根据实际需要采取不同的方式。
此外,实施ITIL并不是需要组织重建其所有的IT管理部门和职能。ITIL提供了一个指导性框架,这个框架可以保留组织现有的IT管理方法和技术中的合理部分,同时增加必要的方法和技术,并且方便和加强了各种IT职能间的沟通和协调。
2.2运行维护平台相关概念
事件:与计算机设备运行维护相关的所有事情。事件管理流程的目标是尽可能快地把服务恢复正常,使故障对运行的影响最小化。
问题:影响系统正常运行的根本原因。问题管理的目标是找到影响系统正常运行的根本原因并取得永久的解决方案。
变更:在运行维护过程中对系统所作的各种改变,包括增加、删除和修改。变更管理的目标是对变更的过程进行控制,对变更的结果进行记录;避免由于变更对系统或者服务造成的负面影响。
3、建立服务管理平台的目标和原则
3.1建立目标
3.1.1 处理流程的规范化
从事件创建、分派、升级、处理到最后关闭结束,所有的过程均在服务管理平台中进行了严格合理的定义。其问所涉及到的各类人员:如运行监控人员、系统责任人员、技术支撑人员和管理人员等,都在指定的范围和规范化的框架和流程下进行日常工作,从而保证问题处理的所有环节有条不紊,并具有最优效率。
3.1.2处理过程的可跟踪性
在事件处理过程中,通过全自动通知功能如邮件、任务栏等,及时通知相应的维护人员进行快速响应。在指定的时间内没有合理解决,将按照预定的升级规则,通知到高级别的处理人或管理层,进行问题移交,以分配更强大的资源来处理关键的问题。过程每个环节的活动情况均在服务管理平台中进行记录。
3.1.3历史问题可查询借鉴
服务管理平台是一个ITIL标准下的综合系统,除了事件和问题管理之外,还需具有知识库管理、变更管理、配置管理等围绕IT服务管理的其他部件。服务管理平台能对配置情况进行记录和更新,并把每个问题和变更与用户以及发生故障的配置项对应起来,形成历史记录以便查询和借鉴。
3.1.4知识经验的分享
可以根据故障发生的频度,把经过实践证明正确的解决方案形成知识库,供维护人员使用。维护人员通过知识库及时选择最优方案,可解决大部分通常和一般性问题。
3.1.5员工工作业绩可量化考核
通过服务管理平台的统计和分析功能,能提供各种有关查询报表,对运行维护人员的工作可以进行数量和质量上的记录和统计。
3.1.6统计分析提供决策依据
对于计算机运行维护的管理人员和部门,能通过服务管理平台了解更多的宏观信息。如:某个时间段内哪些方面的故障出现的数量最多、哪些方面的故障解决的效率最高或最低、维护人员的工作负荷统计问题、分布在哪些系统或设备等等。
这些故障分布以及故障处理效果,能从最直接的层面反映计算机系统的运作状态以及维护管理的效果。帮助管理和决策部门对于服务状况进行全面掌握和了解,从而进一步做决策和趋势分析。
3.2设计原则
以提升服务为核心,通过惟一的管理平台和请求人口将原本分散在各生产线的、相互隔离的流程处理模式统一起来并使之标准化。它把复杂的IT管理活动梳理成若干个核心流程,并把这些流程从各个视角规范化、标准化。
我们的目标是组建一个大型的、使用人员众多的管理平台,这就要求系统在设计时,首先要考虑到可靠性和性能,同时还要很好的安全保证体系以及集中管理;同时,由于管理流程正处于管理模式重新定位和调整的阶段,要求系统具有管理简便、灵活性较高和外部接口支持特性较强等特点,能够满足处于变新的管理模式。
3.2.1 高可靠性
管理平台是服务支持系统的窗口,每天要处理各类应急的请求和流程,因此必需具有高可靠性。一方面需要保证单机节点具有高可靠性的同时,另一方面还要求能在整体结构上进行冗余配置,通过增加节点能及时进行性能扩充,避免出现单点故障以及未来业务发展后的性能瓶颈。
3.2.2 高性能
系统部件和体系的设计,需保证最终的系统具有高性能。在结构上,能实现负载均衡,满足业务不断增长对IT服务更大的需要。
3.2.3安全性
由于涉及到不同管理层面和使用层面的用户,管理平台需具有较高的安全性,必需支持分组管理以及灵活的数据访问控制。
3.2.4可扩展性
系统之建设,往往是一个不断完善的递进的过程。这就要求管理平台系统的设计和部署,需考虑到系统进一步扩大所面临的各种扩展性要求。能满足系统接人用户不断增长、功能不断完善的情形下,对系统在性能和可靠性等各个方面的技术要求。
3.2.5兼容性
管理平台要能够兼容现已实施的管理工具和环境,最大限度地整合现有的工具和资源。同时,应提供开放的体系结构和标准的集成接口与技术,具有未来对第三方管理工具进行集成的能力。
3.2.6外部接口支持
管理平台应提供多种接口和方式。包括传统GUI、WEB以及未来的无线手持设备等。提供充分的外部接口,以满足不断发展的多种信息交互方式。
4、服务管理平台的建立
4.1系统配置
硬件配置:
Dell PowerEdge6800 Xeon 2.3G宰4 4GBRAM;网络利用宝钢现有的L4局域网络。
软件配置:
Windows2003 Server Edition;
CA ServiceDesk R11;
MicroSoft SQLServer2005中文企业版;
Crystal Report XI。
ServiceDesk是CA公司的流程管理平台开发软件,以SQLServer为后台数据库,提供基于ITIL的流程管理解决方案。
4.2管理平台模块结构
管理平台内包含5个模块,分别为:事件管理、问题管理、变更管理、知识库管理和配置库管理。这些模块包括了IT运行维护中的基本内容。以知识库和配置库为基础,向用户提供IT服务,见图3。
4.3.1过程监控层
过程监控层由值班运行人员组成,主要负责运行维护点的值班运行,接受并处理用户的请求。
4.3.2系统责任层
由系统责任人员组成,是机组的“衣食父母”。负责处理由运行监控层人员升级上来的疑难事件的解决;对事件进行及时分派和处理,按需协调用户、服务厂商以及备件等其他部门和人员进行故障处理;对重复发生的事件有责任查找其根本原因并组织解决,以确保系统的稳定运行;负责系统的软硬件变更,提交变更计划并实施变更;负责维护操作规程、排障规程和点检标准的完整性和有效性;负责维护配置项信息和实物的一致性等。
4.3.3技术支撑层
技术支撑层负责系统的技术支持。主要职责为:负责系统责任层人员升级上来的疑难事件的解决;对于系统责任层升级的问题和其他各种疑难问题进行分析和处理。技术支撑层为事件和问题解决的最后阶段,如果技术支撑层无法为故障的消除提供方案,则有责任向技术团队或者生产厂商寻求解决方案。
4.4运行维护管理平台的整体结构
运行维护管理平台以ITIL的服务支持理论为依据,提供了比较基本的事件管理、问题管理、变更管理以及知识库管理和配置库管理。支持人员可以通过该流程管理系统完成事件的记录、问题的流转以及变更的审批;维护知识库和配置库。
图5为运行维护管理平台的总体流程图。
5、经验
管理平台的建立,是对部门管理构架的一次质的改变,在系统实施前一定要取得一致的意见。只有管理者和员工对系统的实施有正确的理解,才能够真正做好这个系统。
有了管理平台并不意味着管理水平一定有了提高。管理平台是一个辅助工具,它可以帮助管理者规范流程,提升管理水平。但是,仅仅依靠管理平台是不行的。
在系统开发前,应对部门的人员构架和管理流程有基本的构想,尤其是人员构架,是整个系统的基础。
系统开发完毕并不是一个终点,而是利用这个平台进行管理水平提升的起点。结合业务的变化对流程进行完善和优化,才能真正用好这个平台。选择一个合适的软件开发平台,可以起到事半功倍的作用。
6、结语
管理平台的建立,使原本以技术为导向的管理转变为以流程为导向的管理;变被动的“救火队”为主动的预防为主管理;使原来孤立分散的管理为企业范围内统一的、标准化的管理。以ITIL为基础的管理平台提供了规范的流程和明确的职责,将服务与业务相结合,提升了IT服务管理的水平。
本文作者:夏焕卿 陶瑾 黄晔华 朱颖芬 来源:E-Works
CIO之家 www.ciozj.com 微信公众号:imciow