4.2.2 运维管理
略。
IT运维是组织IT服务中关键的一种类型。随着组织IT建设的不断深入和完善,信息系统运维已经成为了各行各业各组织管理者和IT团队普遍关注的问题。IT运维是指采用IT手段及方法,依据服务对象提出的服务级别要求,对其所使用的IT系统运行环境、业务系统等提供的综合活动。
1. 能力模型
国家标准GB/T 28827.1《信息技术服务运行维护第1部分通用要求》定义了IT运维能力模型,该模型包含治理要求、运行维护服务能力体系和价值实现,如图4-8所示。治理要求是为实现运行维护服务绩效、风险控制和服务合规性的组织目标,提出的关于最高管理层领导作用及承诺的能力体系建设要求。运行维护服务能力体系(MCS)是组织依据运行维护服务方针和目标,策划并制定运行维护服务能力方案,确保组织交付的运行维护服务内容符合相关规定,并满足质量要求,对运行维护服务交付过程、结果以及运行维护服务能力体系进行监督、测量、分析和评审,以实现运行维护服务能力的持续提升。价值实现是组织结合业务对信息系统的网络化、数字化和智能化要求,识别内部和外部用户对服务的需求或期望,定义多样化的服务场景,并通过服务能力、要素、活动的组合完成服务的提供,直接或间接地为服务需求方和利益相关者实现服务价值。
图4-8 IT运维能力模型图
1) 能力建设
组织需要考虑环境的内外部因素,在治理要求的指导下,根据服务场景,识别服务能力需求,围绕人员、过程、技术、资源能力四要素,策划、实施、检查和改进运行维护能力体系,向各种服务场景赋能,通过服务提供实现服务价值;并针对能力建设、人员、过程、技术、资源建立关键指标;还需要定期评价运行维护服务能力成熟度,衡量能力水平差距,以持续提升运行维护服务能力。
在治理层面,最高管理层应依据组织治理目标,提出运行维护服务能力管理治理要求,以确保实现运行维护服务绩效、风险控制和服务合规性。
在能力管理方面,运维能力管理是面向运维全生命期的总体能力管控机制,分为策划、实施、检查和持续改进四个阶段,各阶段交替循环,实现运维能力持续性地螺旋式上升的管理目标。这需要组织:①周期性的(如按年度)面向外部的用户需求以及内部的合规要求和成本约束等,对运维能力进行总体策划,包括服务目录的建立和维护,组织架构和管理制度的确立,并形成年度运维能力管理计划,确保运维目标的可实施性;②细化能力管理计划为具体的实施计划(通常按部门进行任务分解),并落地执行;③定期(如按半年度或季度)跟踪和检查实施计划的执行情况,并进行适时评估、优化和调整;④对IT运维能力管理的达成情况进行总结分析,并持续改进。实现按PDCA的方式实施能力管理,进而提升整体服务能力。
在能力管理过程中,组织需要首先明确能力管理团队的组成,并明确这些团队成员的职责范围与分工,根据组织IT运维的内外部环境、技术发展现状、运维各利益干系人的诉求、能力体系覆盖范围、管理者的作用、资金投入、人才保障、基础设备设施的情况、安全以及质量体系的基础等因素,实施能力策划活动,并明晰周期性的能力管理计划、能力指标等,在策划过程中需要明确策划的输入、输出、审批以及变更控制等;同时抓好能力计划实施的计划管理、协调管理、记录管理以及成果管理等,做到实施过程记录的“线条”证据化;并设立专门的检查组织,明确检查方法,并按照确定的计划实施检查;还需要建立适合于组织的改进机制,以及确保改进活动的有效实施。通常来说,能力管理不是分管运维的高级管理者或者主管运维的负责人单个岗位的工作,需要人力资源,技术研发、质量监督等等多方面的人员共同参与。
在价值实现方面,组织需要在不同的服务场景中识别服务需求,通过服务提供,满足用户需求,实现服务价值:
- 服务需求:识别服务需求并遵循能力管理的要求对服务场景进行完整的策划。
- 服务提供:配置符合能力要素要求且和服务场景相适宜的人员、过程、技术和资源,并遵循能力管理的要求实施服务提供。
- 服务价值:将运行维护服务能力体系输出的服务能力应用到服务场景中,通过服务成果、成本控制、风险控制实现服务价值。
2) 人员能力
在任何组织当中,人力资源都是组织的核心竞争力之一。因此绝大部分组织对人员相关的建设和管理都非常重视,无论是人员的容量、技能、工作绩效等方方面面,都是组织关注的重点。组织人员能力建设聚焦在从知识、技能和经验维度选择合适的人,从人员管理和岗位职责维度明确做适合的事,目的是指导IT运维团队根据岗位职责和管理要求“选人做事”。
结合IT运维工作的特点,运维人员一般分为管理类、技术类和操作类三种人员岗位,管理类主要负责运维的组织管理,技术类主要负责运维技术建设以及运维活动中的技术决策等,操作类主要负责运维活动的执行等。
为了保证人员能力满足运维服务的要求,组织依据运维能力策划要求,进行人员能力策划、岗位结构、人员储备、人员培训、绩效管理和能力评价等管理活动。
对运维的人员能力建设,通常还需要考虑:
- 面向IT运维所有干系人需求,建立人员需求规划;
- 基于人员需求计划,制定人员招聘、培训、储备和考核机制并实施;
- 定义IT运维人员岗位,根据工作内容不同,划分管理岗、技术岗、操作岗,并对每个岗位梳理工作职责,同时定义岗位的任职要求,包括知识、技能及经验要求等方面。
组织应按人员能力计划,进行运行维护人员能力评价,至少应包括:
- 建立运行维护服务对应岗位的等级评价标准;
- 建立运行维护服务团队和人员能力评价机制;
- 实施团队和人员能力评价;
- 依据评价结果对人员能力进行持续改进,需要时调整人员能力计划。
3) 资源能力
资源主要由人员、过程和技术要素中被固化下来的能力转化而成,人员、过程和技术要素在知识、服务管理、工具支撑等方面的能力被固化下来,同时又对人员、过程和技术要素提供有力的支撑和保障,进而形成资源能力中的知识库、服务台、备件库以及运行维护工具,资源能力确保IT运维能“保障做事”。
IT运维资源是为了保证IT运维的正常交付所依存和产生的有形及无形资产。该表述最后的落脚点是资产,这就区别于广义的资源概念,广义的资源是指组织拥有的物力、财力、人力等各种物质要素的总称。
组织在建设资源能力过程中,要充分重视自主知识、技术和业务流程的固化工作,从而充分发挥经验的沉淀,尤其要关注一线人员的技术资源化,从而保证质量的同时提高效率和效能,建议组织可以定期收集一下一线人员针对资源的意见和建议,从而及时补充必要的资源,保持组织的运维能力的优化提升。
组织应根据运维能力策划要求和特定服务场景的需求,按需建立和管理运行维护工具、服务台、备件库、最终软件库、服务数据和服务知识等,以满足不同服务场景的服务需求。实现与人员、过程和技术结合,保证资源能力满足价值实现过程中服务提供的需求。
4) 技术能力
组织需要通过自有核心技术的研发和非自有核心技术的学习,持续提升IT运维过程中发现问题和解决问题的能力,在提升IT运维效率方面是重点考虑的要素,技术要素确保IT运维能“高效做事”。
在实施IT运维过程中,可能面临各种问题、风险以及新技术和前沿技术应用所提出的新要求,组织需要根据服务对象要求或技术发展趋势,具备发现和解决问题、风险控制、技术储备以及研发、应用新技术和前沿技术的能力。
“早发现,早解决”一直是IT运维的一个重要原则,技术作为提高效率的基本因素,其在该领域中起着至关重要的作用。需要说明一点,这里的技术不单纯指IT技术,而是涵盖IT技术在内的所有IT运维技术,包括工作手册、思维方法等。从分类上来说,运维技术聚焦在发现问题的技术和解决问题的技术两大领域。
组织应根据运维能力策划要求,实施技术管理、技术研发和技术成果应用等活动,保证技术能力满足不同服务场景下的服务要求,包括运维服务能力长期发展的需求、治理、预期效益等,实现其服务价值。
5) 过程
组织通过过程的制定,把人员、技术和资源要素以过程为主线串接在一起,用于指导IT运维人员按约定的方式和方法,确保IT运维能“正确做事”。
过程又称流程,是为达到特定的价值目标而由不同的人分别共同完成的一系列活动。活动之间不仅有严格的先后顺序限定,而且活动的内容、方式、责任等也都必须有明确的安排和界定,以使不同活动在不同岗位角色之间进行转手交接成为可能。活动与活动之间在时间和空间上的转移可以有较大的跨度。而狭义的业务流程,则认为它仅仅是与客户价值的满足相联系的一系列活动。
组织需要结合服务场景与运维能力策划要求,设计过程框架,明确各过程之间的关系和接口,制定服务级别、服务报告、事件、问题、变更、发布、配置、可用性和连续性、系统容量、信息安全等管理过程的目标、活动和考核指标,支撑服务过程的规范化管理和服务价值实现。
2. 智能运维
中国电子工业标准化技术协会发布的团体标准T/CESA 1172《信息技术服务智能运维通用要求》,给出了智能运维能力框架,包括组织治理、智能特征、智能运维场景实现、能力域和能力要素,其中能力要素是构建智能运维能力的基础。组织需在组织治理的指导下,对智能运维场景实现提出能力建设要求,开展智能运维能力规划和建设。组织通过场景分析、场景构建、场景交付和效果评估四个过程,基于数据管理能为域提供的高质量数据,结合分析决策能力域做出合理判断或结论,并根据需要驱动自动控制能力域执行运维操作,使运维场景具备智能特征,提升智能运维水平,实现质量可靠、安全可控、效率提升、成本降低。智能运维能力框架如图4-9所示。
图4-9 能运维能力框架
(1) 能力要素。
智能运维的能力要素主要包括:
- 人员:运维团队需要熟悉IT运维领域的业务活动与流程,掌握自动化、大数据、人工智能、云计算、算法等技术,具备一定的智能运维研发能力。
- 技术:技术通常包括统一的标准和规范、开放的基础公共资源与服务、数据与流程及服务的互联互通等。
- 过程:智能运维定义的过程需要具备清晰界定人机界面,能够充分发挥智能化优势,实现过程优化,并考虑权限控制、风险规避。
- 数据:运维组织需要加强数据治理,保证数据质量,规范数据接口。运维应用需要围绕数据进行采集、加工、消费,提升运维智能化水平。
- 算法:可以聚焦在异常检测、根因分析、故障预测、知识图谱、健康诊断、决策分析等方面,具备有穷性、确切性、有效性等特点。
- 资源:组织在数据管理能力域数据服务中,对于资源管理,至少应根据不同场景要求,配置开放共享服务管理所需要的算力、带宽、存储等。
- 知识:知识通常包括运维技术方案及方法与步骤、运维的经验沉淀、运维对象的多维度描述、运维数据的智能挖掘结果等。
(2) 能力平台。
智能运维能力平台通常具备数据管理、分析决策、自动控制等能力。其中,数据管理能力用于采集、处理、存储、展示各种运维数据。分析决策能力以感知到的数据作为输入,做出实时的运维决策,驱动自动化工具实施操作。自动控制根据运维决策,实施具体的运维操作。
(3) 能力应用。
以运维场景为中心,通过场景分析、能力构建、服务交付、迭代调优四个关键环节,可以使运维场景具备智能特征。根据复杂程度,运维场景分为单一场景、复合场景和全局场景。
- 场景分析:是指从业务或IT本身接收对新服务或改进服务的需求,场景需求分析从业务需求、用户需求以及系统需求,不同层次阶段进行不同方式、内容以及侧重点的需求调研。
- 能力构建:是指基于运维场景分析的结果和目标要求,应用赋能平台中适合运维场景数据特点的加工处理能力、系统性设计数据的处理流程,构建符合特定运维场景需求的智能运维解决方案。
- 服务交付:是指制订详细的交付计划,准备必要的资源,评估可能存在的风险并明确规避方案,完善交付实施过程,通过服务交付检查确保运维场景的智能特征符合策划要求。
- 迭代调优:是指通过持续的迭代对智能运维场景的优化,确保投入符合智能运维具体场景的规划目标渐进式达成。
(4) 智能特征。
智能运维需具备若干智能特征,智能特征包括:
- 能感知:指具备灵敏、准确地识别人、活动和对象的状态的特点。
- 会描述:指具备直观友好地展现和表达运维场景中各类信息的特点。
- 自学习:指具备积累数据、完善模型、总结规律等主动获取知识的特点。
- 会诊断:指具备对人、活动和对象进行分析、定位、判断的特点。
- 可决策:指具备综合分析,给出后续处置依据或解决方案的特点。
- 自执行:指具备对已知运维场景做出自动化处置的特点。
- 自适应:指具备自动适应环境变化,动态优化处理的特点。

