随着计算机技术的快速发展,信息处理的能力正日益增强,大量信息技术在电力行业经营管理中的广泛应用,使得信息安全问题显得越来越重要,当前,电力行业作为国民经济的基础性行业,各企业已经建立覆盖电力生产、经营、管理等各个方面的信息系统,以快速应对和处理企业运营过程中发生的各项事务,但是,随着IT系统的复杂性和用户对IT系统的依赖性不断增强,传统被动的IT系统运维管理模式已经无法提供全面可靠、安全的IT运行环境,评估和分析当前各电力行业IT系统的运维安全现状,从而提出更可靠的IT运维管理模式,对降低信息风险,提高IT系统的运维安全有着重要的意义。
当前,电力行业中大多数企业通过实施基于某一类标准的管理体系(如ITIL/ISO 20000的ITSM体系)对企业的信息系统进行监控和管理,对系统IT运维操作的流程规范进行部署和实施,然而,这些管理体系仅仅提供流程管理方面的要求,即面向日常运维的突发事件管理、问题管理、变更管理、配置管理等运维流程管理框架,从严格意义上来讲,这些管理体系只提供了规范,而在实际中所有突发事件、问题和变更以及日常巡检任务等在流程阶段需要进行实施操作时,必须依赖手工的方式予以完成,例如某个新业务系统上线,在变更实施过程中要调整防火墙的细微设置,通常的做法是安全人员在自己的本机上直接TELNET到防火墙的命令行界面进行规则配置,然而手工形式的运维操作会带来各种安全风险,在运维操作安全管理的过程中,必须有效地降低这些风险。
本文以电网公司信息运维综合监管系统(简称IMS系统)为研究对象,对其IT运维操作过程中存在的安全风险进行了分析,并在此基础上对系统的安全状况进行评估,提出相应的IT运维操作安全改善的对策。
1 IMS系统组成现状
电网公司综合监管系统在遵循国家电网公司信息运维体系与有关标准的前提下,结合自身特色建设而成,目前,该系统由1个管理平台和4个子系统组成(见图1)。其中,管理平台进行集中监控,4个子系统为:IT系统监控管理子系统、IT服务管理子系统、安全管理子系统和桌面管理子系统,分别对各项管理任务进行具体监控,IMS系统对华中电网IT系统的流程化、规范化管理起到了重要的作用,同时该系统为下一步自动化、智能化管理提供了坚实的基础。
图1 电网公司IMS系统示意图
2 IT运维操作安全风险分析
电网公司通过实施基于ITIL/ISO 20000的ITSM体系,对IMS系统进行监控和管理,该管理体系在运维操作过程中存在各种安全风险,具体如图2所示。
图2中各个管理领域内造成安全风险的因素具体表现为:(1)事件管理:在事件处理过程的修复工作中,往往需要对IT资源进行人工操作;(2)问题管理:问题管理中问题修复需要通过变更来实施;(3)变更管理:变更通过审批后,在执行阶段需要通过手工方式操作各种IT资源;(4)配置管理:配置管理更新或者审核过程中,需要手工访问IT配置项的实际物理信息,此时也需要人工操作。
从图2可以看出,无论ITSM流程多么完善、制度多么严格,一旦进入到实质性的实施阶段(例如变更实施),则需要相关运维人员按照预订的方案对IT资源进行各种操作,由于这些操作缺乏监控、审计和足够的自动化,必然存在较大的风险,尤其是在部分运维工作需要由外包人员来完成的情形下,风险更令人担忧,概括地讲,只要存在“两层皮”现象(即IT运维操作参照一套标准,但人工操作不能严格按照该标准执行),日常运维操作必然存在安全风险,这些风险主要来自于:(I)运维人员组成复杂;(2)缺乏严格监督;(3)缺乏对资源访问的全周期控制,包括事前、事中和事;(3)缺乏对资源访问的全周期控制,包括事前、事中和事后3个阶段的控制;(4)安全管理制度难以落实。
从图2可以看出,无论ITSM流程多么完善、制度多么严格,一旦进人到实质性的实施阶段(例如变更实施),则需要相关运维人员按照预订的方案对IT资源进行各种操作.由于这些操作缺乏监控、审计和足够的自动化,必然存在较大的风险,尤其是在部分运维工作需要由外包人员来完成的情形下,风险更令人担忧.概括地讲,只要存在“两层皮”现象(即rr运维操作参照一套标准,但人工操作不能严格按照该标准执行),日常运维操作必然存在安全风险.这些风险主要来自于:(1)运维人员组成复杂;(2)缺乏严格监督;(3)缺乏对资源访问的全周期控制,包括事前、事中和事后3个阶段的控制;(4)安全管理制度难以落实。
图2 ITSM流程中IT运维操作安全风险示意图
分析电力企业现阶段IT运维操作中存在的安全风险是展开和深人部署安全运维体系的基础,因此,围绕企业信息系统进行IT运维操作安全现状评估将具有非常重要的实际意义。
3 IT运维操作安全评估
3.1评估方法
评估以电网公司IMS系统为分析对象,采取如图3所示的IT运维操作安全管理现状评估方法,该方法主要包括以下3个部分的内容。
(1)调研。调研的目的是对IMS系统在IT运维操作安全管理方面的整体情况进行评估,调研通过对IMS系统涉及的运维人员进行面对面访谈的方式展开,最后对访谈的结果进行归纳和总结,从而对系统安全现状进行评估分析。
(2)评估理论基础。IT运维操作安全管理成熟度定义(1~5级分别为初始级、可重复级、已定义级、可管理级和优化级)和ISO 20000/ISO 27001中IT运维操作的相关安全要求是本次评估的理论基础。
(3)评估手段。对IT运维操作安全管理方面的数据进行收集和统计,包括实地操作、屏幕观察等。
图3 IT运维操作安全管理现状评估方法
3.2评估结果
采用求和取平均值的方法,分别得到IMS系统中7个管理领域的安全成熟度得分情况。
例如,对运维操作变更管理领域的成熟度评估得分为1.7,评估过程按照ISO 20000/ISO 27001中相关标准要求形成了6个评估点,各个评估点的分解得分数据如表1。
限于篇幅,其它6个管理领域的具体分解评估点和得分数据不在本文中列出,我们设定了各个维度的目标值为4(L4:可管理级),安全现状与安全目标值之间的差距如图4所示。
图4 IMS系统中各领域安全成熟度现状和目标差距
4 IT运维操作安全管理改善措施
根据IMS系统lT运维操作安全现状评估的结果,结合现阶段IMS系统中存在四大子系统的现状,我们拟定了IT运维操作安全管理的解决方案,图5展示了未来IT运维服务技术支撑的总体框架,该总体框架分为3个部分:运维门户(运维管理与操作服务门户、IMS门户),技术保障子系统(智能处理、操作自动化、操作管理、操作审计、监控管理、IT服务管理、安全管理和桌面管理)和支撑管理子系统(用户管理、权限管理、日志管理和自身管理),IT运维操作安全管理的路线如图6所示。
图6中各个阶段所实施的流程简单介绍如下。
(1)P0阶段:实施监控管理、IT服务管理、安全管理SOC、桌面管理、支撑管理子系统,IT运维操作安全管理的成熟度在1级左右。
(2)P1阶段:在P0阶段所实施的流程基础上实施运维操作管理、运维操作审计,初步实施运维门户,并建立运维操作安全管理体系,包括流程、职责和管理制度等,实施后,运维操作安全管理的成熟度可达到2级左右。
图6 IT运维操作安全管理路线图
(3) P2阶段:实现ITSM和运维操作管控平台的无缝集成.以电网公司1MS系统为例,该系统采用HPService Manager作为ITSM流程管理平台,将其与目前市场上成熟的IT资源操作控制和审计产品—Host Control Audit ( HAC)进行集成(图7-8给出了二者在变更流程、事件和服务请求流程中的集成情况),这些集成可以实现数据、结果以及审计相互自动反馈和访问.另外在P2阶段完全实施运维门户,部分实施运维管理智能分析.实施后,运维操作安全管理的成熟度可达到3级左右。
图7 ITSM平台和HAG运维操作管控平台在变更流程中的集成
(4) P3阶段:运维自动化,即:运维流程自动化与运维操作自动化.实施特有的运维操作自动化工具,实现运维工作中多数工具的自动化、脚本化、自动审计化,彻底解放操作人员的双手.实施后,运维操作安全管理的成熟度可达到4级左右。
(5)P4阶段:持续改进,不断优化.经过一段时间后,运维操作安全管理的成熟度可达到最高级5级。
图8 ITSM平台和HAC运维操作管控平台在事件和服务请求流程中的集成
5 结语
本文针对目前电力行业rr运维操作所存在的安全风险,以电网公司综合监管系统为研究对象,对其IT运维操作安全现状进行了分析和评估,并在此基础上提出了总体的解决方案和安全管理路线图,实践表明该评估方法和IT运维操作安全管理总体框架是可行、有效的,对其他电力企业中IT运维操作的安全管理具有借鉴的重要意义。
本文作者:曹波 匡尧 杨杉 高亮 来源:网络
CIO之家 www.ciozj.com 微信公众号:imciow