4.1.4 运维和服务
略。
信息系统的运维和服务应从信息系统运行的视角进行整合性的统筹规划,包括对信息系统、应用程序和基础设施的日常控制进行综合管理,以有效支持组织目标达成和流程实现。信息系统的运维和服务由各类管理活动组成,主要包括:运行管理和控制、IT服务管理、运行与监控、终端侧管理、程序库管理、安全管理、介质控制和数据管理等。
1. 运行管理和控制
IT团队发生的所有活动都应受到管理和控制。这意味着操作人员执行的所有操作和活动,都应是由管理层批准的控件、过程和项目的一部分。过程和项目应具有足够的记录保存,以便管理层能够了解这些活动的状态。管理层最终负责信息系统运行团队发生的所有活动。管理信息系统运行的管理控制主要活动包括:
- 过程开发:操作人员执行的重复性活动应以过程的形式记录下来,需要开发、审查和批准描述每个过程及其每个步骤的相关文档,并将其提供给运营人员。
- 标准制定:从运行执行任务的方式到所使用的技术,采用标准化定义和约束,从而有效推动信息系统运行相关工作的一致性。
- 资源分配:管理层分配支持信息系统运行的各项能力,包括人力、技术和资源。资源分配应与组织的使命、目标和目的保持一致。
- 过程管理:应测量和管理所有信息系统运行的相关过程,确保过程在时间上和预算目标内被正确和准确地执行。
2. IT服务管理
IT服务管理是通过主动管理和流程的持续改进来确保IT服务交付有效且高效的一组活动。IT服务管理由若干不同的活动组成:服务台、事件管理、问题管理、变更管理、配置管理、发布管理、服务级别管理、财务管理、容量管理、服务连续性管理和可用性管理。
(1)服务台。服务台(Service Desk)是组织体现IT服务的重要环节,也是服务干系人体验的重要感知窗口。服务台是服务中与服务干系人沟通和交车的重要界面,负责对服务干系人遇到的问题和需求进行响应和处理;服务台是IT服务平系人的“官方”接口和信息发布点,组织内部各个团队之间相互协作的纽带和协调者;服务台对IT服务质量及服务干系人体验的管理至关重要,是组织IT服务能力持续提升的战略单元。
(2)事件管理。事件是IT服务管理遭遇计划外中断或服务质量出现下降,以及尚未影响服务的配置项故障。事件可能是服务中断、服务速度变慢,软件缺陷以及其他任何组件发生故障。事件管理是IT服务中最常见的流程之一,也是IT服务必须建立和使用的流程,良好的事件管理必须具备快速解决事件的能力,从而在出现事件时能够尽快恢复服务的正常运作,可以有效提高服务的质量,提升服务干系人满意度。组织应该建立与事件管理过程一致的流程,流程中应该包括:事件受理、分类和初步支持、调查和诊断、解决、进展监控与跟踪、关闭等活动,通过有效执行所定义的活动,能够保障事件响应与处理的效果与效率。
(3)问题管理。当发生了几个着起来具有相同或相似根本原因的事件时,就会启动问题管理活动。问题管理的总体目标是减少事件的数量和严重性,这种对事件的控制既包括发生事件后的被动性措施,也包括采取主动措施(如:利用系统监控衡量系统运行状况和容量管理等)预防与容量相关的事件发生。与事件管理类似,当确定问题的根本原因时,应制定变更管理和配置管理以进行临时或永久修复。
(4)变更管理。变更是使一个或更多信息系统配置项的状态发生改变的行动。可见,变更管理的流程更多的是与过程相关,并且重在管理而不是技术,这与事件管理不同,后者建立在技术手段的基础上,强调其管理过程的机械性。变更管理可确保在信息技术环境中执行的所有变更都得到控制和一致化的执行。变更管理的目标是确保使用标准化的方法和程序来高效、及时地处理所有更改,以最大限度地减少与变更相关的事件对服务质量造成的影响,从而改善组织的日常运行。变更管理的主要目的是确保对信息技术环境的所有建议更改都经过适用性和风险管控的审查,并确保变更不会相互干扰,也不会干扰其他计划内或计划外的活动。为了有效,每个干系人都应该审查所有更改,以便正确、全方位地审查每项变更。
(5)配置管理。配置管理是通过技术或者行政的手段对信息系统的信息进行管理的一系列活动,这些信息不仅包括信息系统具体配置项信息,还包括这些配置项之间的相互关系。配置项通常包括:硬件详细信息、硬件配置、操作系统版本和配置、软件版本和配置等。配置管理的核心工作是识别、记录、控制、更新配置项信息,主要包含配置管理数据库(Configuration Management Databases,CMDB)的建立以及配置管理数据库准确性的维护,以支持信息系统的正常运行。在IT服务中,配置管理数据库可用于故障定位、问题分析、变更影响度分析、故障分析等,因此,配置管理数据库与真实环境的匹配度和详细度非常重要。
(6)发布管理。发布管理负责计划和实施信息系统的变更,并且记录该变更的各方面信息。发布是由其实施的变更请求定义的,发布一般是由许多问题修复和IT服务质量改进组成的。发布不仅包括软件方面的变更、硬件方面的变更,同时也包括IT服务管理体系的变更。发布管理通过实施合理的工作程序和严格的监控,保护现有的运营环境和服务不受冲击,负责对软件、硬件、体系发布进行计划、设计、生成、配置和检测,影响范围可能涉及现有的信息系统及其环境、IT用户和组织各分支机构等。
(7)服务级别管理。服务级别管理就是对IT服务的级别进行定义、记录和管理,并在可接受的成本之下与干系人达成一致的管理过程,通过服务水平协议(Service Level Agreement, SLA)、服务绩效监控和报告的不断循环,持续维护和改进服务质量,以及触发采取行动消除较差服务,从而满足干系人的服务需求。组织需要通过服务目录定义其提供的所有服务和目标。服务目录可被其他文件引用,如SLA,以避免同样的文本和目标被多次重复。服务目录是建立服务干系人预期的关键文件,相关人员都能容易并广泛地获取和阅读。
(8)财务管理。IT服务财务管理是负责对IT服务运作过程中所有资源进行财务管理的流程,主要活动包括:预算编制、设备投资、费用管理、项目会计和项目投资回报率(Return On Investment,ROI)管理等。财务管理考虑予支持组织目标的IT服务的财务价值。
(9)容量管理。容量管理用于确认信息系统中有足够的容量满足服务需求。如果信息系统的性能在可接受的范围内,则其具有足够的容量。容量管理不仅仅关注当前需求,还必须考虑未来的需求。容量管理主要活动包括;定期测量、计划变更、战略优化和技术变化等。容量管理由三个子过程组成:业务容量管理,服务容量管理、资源容量管理。
(10)服务连续性管理。服务连续性管理是一组与组织持续提供服务的能力相关的活动,主要是在发生自然或人为灾难时继续保持服务有效性的活动。服务连续性管理活动分为服务连续性管理的治理、业务影响分析、制订和维护服务连续性计划、测试服务连续性计划、响应与恢复五个过程。
(11)可用性管理。可用性管理是有关设计、实施、监控、评价和报告IT服务的可用性以确保持续地满足服务干系人的可用性需求的服务管理流程。可用性是指一个组件或一种服务在设定的某个时刻或某段时间内发挥其应有功能的能力,即在约定的服务时段内,IT服务实际能够使用的服务的时间比例。
3. 运行与监控
有效的IT运行要求IT人员按照既定流程和过程理解并正确执行任务。同时,IT运行还强调对人员进行培训,以有效识别异常和错误,并做出正确反应。IT运行的任务常包括:①按照计划执行作业;②监控作业,并按照优先级为作业分配资源;③重新启动失败的作业和进程;④通过加载或变更备份介质,或通过确保目标的存储系统就绪来优化备份作业;⑤监控信息系统、应用程序和网络的可用性,保证这些系统具备足够的性能;⑥实施空闲期的维护活动,如设备清洁和系统重启等。
IT组织通常制订工作计划,安排定期(每天、每周、每月、每季度等)执行的活动或任务。计划内的活动包括系统承载的活动(如备份)以及人工执行的活动(如访问评审、对账和月末结算)。系统中的计划内活动可以自动或手动调度。大型组织可能具备网络运营中心,也可能具备安全运营中心,这些中心由负责监控相关安全设备、网络、系统和应用程序中的活动的人员组成。在IT运行环境中发生的异常和错误,通常按照IT服务管理体系中的事件管理和问题管理流程进行处理。
1) 运行监控
IT团队应对信息系统、应用程序和基础设施进行监控,以确保它们继续按要求运行。监控工具和系统使IT运行人员能够检测软件或硬件组件何时未按计划运行等。检测和报告的错误类型包括:系统错误、程序错误、通信错误和操作员错误等。IT团队应记录任何意外或异常活动的事件,并基于流程对事件进行管理。
2) 安全监控
组织需要执行不同类型的安全监控,并把安全监控作为其整体策略的一部分,以预防和响应安全事件。组织可能执行的监控类型包括:防火墙策略规则中的例外情况、入侵防御系统的告警、数据丢失防护系统的告警、云安全访问代理的告警、用户访问管理系统的告警、网络异常的告警、网页内容过滤系统的告警、终端管理系统的告警(含反恶意软件)、供应商发布的安全公告、第三方发布的安全公告、威胁情报咨询、门禁系统的告警和视频监控系统的告警等。
4. 终端侧管理
IT团队职能的一个关键环节是它向组织人员提供的服务,以改善他们对IT访问和使用的情况。组织通常使用IT管理工具来促进对用户终端计算机的高效和一致的管理。一般来说,最终用户计算机是“锁定”的,这限制了最终用户可能在其设备上执行的配置更改的数量和类型,包括操作系统配置、补丁安装、软件程序安装、使用外部数据存储设备等,最终用户可能会将此类限制视为不便。但是,这些限制不仅有助于确保最终用户的设备和整个组织的IT环境具有更高的安全性,而且还促进了更高的一致性,从而降低了支持成本。
5. 程序库管理
程序库是组织用来存储和管理应用程序源代码和目标代码的工具。在大多数组织中,应用程序源代码非常敏感。它可能被视为知识产权,并且可能包含算法、加密密钥和其他敏感信息,这些信息应由尽可能少的人员访问。应用程序源代码应被视为信息,并通过组织的安全策略和数据分类策略进行管理。程序库的控制使组织能够对其应用程序的完整性、质量和安全性进行高度控制。程序库通常作为具有用户界面和多种功能的信息系统存在,其中主要功能包括:访问控制、程序签出、程序签入、版本控制和代码分析等。
6. 安全管理
信息安全管理可确保组织的信息安全计划充分识别和解决风险,并在整个运维和服务过程中正常运行。该领域的管理要点详见4.2.3节。
7. 介质控制
组织需要采取一系列活动,以确保数字介质得到适当管理,包括对其保护以及销毁不再需要的数据。这些过程通常与数据保留和数据清除过程相关联,以便通过物理和逻辑的安全控制充分保护所需的数据,同时有效丢弃和擦除不再需要的数据。处置不再需要的介质相关的程序,包括擦除该介质上的数据或使该介质上的数据无法以其他方式恢复的所有相关步骤。组织应考虑包含在介质管理、销毁策略和程序范围内的介质主要包括:备份介质、虚拟磁带库、光学介质、硬盘驱动器、固态驱动器、闪存、硬拷贝等。介质清理的策略和程序需要包含在服务提供商的相关要求中,以及记录保存活动以跟踪介质随时间推移的销毁情况。
8. 数据管理
数据管理是与数据的获取、处理、存储、使用和处置相关的一组活动。该领域管理要点见4.2.1节。