跳到主要内容

5.2.3 数据运维

摘要

略。

数据开发利用的前提是通过合适的方式将数据保存到存储介质上,并能保证有效的访问,还要通过数据备份和容灾手段,保证数据的高可用性。数据质量管理是在数据产品的生产过程中,确定质量方针、目标和职责,并通过质量策划、质量控制、质量保证和质量改进,来实现所有管理职能的全部活动。

1. 数据存储

所谓数据存储就是根据不同的应用环境,通过采取合理、安全、有效的方式将数据保存到物理介质上,并能保证对数据实施有效的访问。这里面包含两个方面:①数据临时或长期驻留的物理媒介;②保证数据完整安全存放和访问而采取的方式或行为。数据存储就是把这两个方面结合起来,提供完整的解决方案。

(1) 数据存储介质。

数据存储首先要解决的是存储介质的问题。存储介质是数据存储的载体,是数据存储的基础。存储介质并不是越贵越好、越先进越好,要根据不同的应用环境,合理选择存储介质。存储介质的类型主要有磁带、光盘和磁盘三种。

(2) 存储管理。

存储管理在存储系统中的地位越来越重要,例如如何提高存储系统的访问性能,如何满足数据量不断增长的需要,如何有效的保护数据、提高数据的可用性,如何满足存储空间的共享等存储管理的具体内容如表5-11所示。

表5-11 存储管理的主要内容

表5-11

2. 数据备份

数据备份是为了防止由于用户操作失误、系统故障等意外原因导致的数据丢失,而将整个应用系统的数据或一部分关键数据复制到其他存储介质上的过程。这样做的目的是保证当应用系统的数据不可用时,可以利用备份的数据进行恢复,尽量减少损失。

当前最常见的数据备份结构可以分为四种:DAS备份结构、基于LAN的备份结构、LANFREE备份结构和SERVER-FREE备份结构。常见的备份策略主要有三种:完全备份、差分备份和增量备份。

在数据备份系统中,备份服务器、RAID和磁带机等设备提供了硬件基础,具体备份策略的制定、备份介质的管理以及一些扩展功能的实现都需要软件来完成。备份软件主要分为两大类:一是操作系统自带的软件,如麒麟操作系统的“备份”工具,这类软件实现的功能都很简单;二是专业备份软件,其能够实现比较全面的功能。

3. 数据容灾

一切引起系统非正常停机的事件都可以称为灾难,包括不可预料、不可抗拒的自然灾害,系统软硬件故障、人为误操作和恶意攻击等。根据容灾系统保护对象的不同,容灾系统分为应用容灾和数据容灾两类。应用容灾用于克服灾难对系统的影响,保证应用服务的完整、可靠和安全等一系列要求,使得用户在任何情况下都能得到正常的服务;数据容灾则关注于保证用户数据的高可用性,在灾难发生时能够保证应用系统中的数据尽量少丢失或不丢失,使得应用系统能不间断地运行或尽快地恢复正常运行。

在一般情况下,数据容灾是应用容灾的一个子集,也是应用容灾最根本的基础,因为“得数据者得天下”,数据是应用系统的基础。容灾是一个工程,而不仅仅是技术,有其完整的流程、规范及其具体措施。

数据备份是数据容灾的基础。数据备份是数据高可用的最后一道防线,其目的是为了在系统数据崩溃时能够快速恢复数据。虽然它也算一种容灾方案,但这种容灾能力非常有限,因为传统的数据备份主要是采用磁带进行冷备份,备份磁带一般存放在机房中进行统一管理,一旦整个机房出现了灾难,如火灾、盗窃和地震等灾难时,这些备份磁带也随之毁灭,起不到任何容灾作用。

容灾不是简单备份。真正的数据容灾就是要避免传统冷备份所具有先天不足,它在灾难发生时能全面、及时地恢复整个系统。容灾按其灾难恢复能力的高低可分为多个等级,例如国际标准SHARE 78定义的容灾系统有七个等级:从最简单的仅在本地进行磁带备份,到将备份的磁带存储在异地,再到建立应用系统实时切换的异地备份系统。恢复时间也可以从几天到小时级到分钟级、秒级或零数据丢失等。从技术上看,衡量容灾系统有两个主要指标:RPO(Recovery Point Object)和RTO(Recovery Time Object),其中RPO代表了当灾难发生时允许丢失的数据量;而RTO则代表了系统恢复的时间。

4. 数据质量评价与控制

在不同时期,数据质量有不同的概念和标准,目前普遍认为,数据质量高低必须从用户使用的角度来看,即使准确性相当高的数据,如果时效性差或者不为用户所关心,仍达不到质量管理标准。数据质量是一个广义的概念,是数据产品满足指标、状态和要求能力的特征总和。

1) 数据质量描述

数据质量可以通过数据质量元素来描述,数据质量元素分为数据质量定量元素和数据质量非定量元素。

2) 数据质量评价过程

数据质量评价过程是产生和报告数据质量结果的一系列步骤,图5-3描述了数据质量评价过程。

3) 数据质量评价方法

数据质量评价程序是通过应用一个或多个数据质量评价方法来完成的。数据质量评价方法分为直接评价法和间接评价法:

  • 直接评价法:通过将数据与内部或外部的参照信息,如理论值等进行对比。确定数据质量。
  • 间接评价法:利用数据相关信息,如数据只对数据源、采集方法等的描述推断或评估数据质量。

图5-3

图5-3 数据质量评价过程

4) 数据质量控制

数据产品的质量控制分成前期控制和后期控制两个大部分。前期控制包括数据录入前的质量控制、数据录入过程中的实时质量控制;后期控制为数据录入完成后的后处理质量控制与评价。依据建库流程可分为:

  • 前期控制:是在提交成果(即数据入库)之前对所获得的原始数据与完成的工作进行检查,进一步发现和改正错误。
  • 过程控制:实施减少和消除误差和错误的实用技术和步骤,主要应用在建库过程中,用来对获得的数据在录入过程中进行属性的数据质量控制。
  • 系统检测:在数据入库后进行系统检测,设计检测模板,利用检测程序进行系统自检。
  • 精度评价:对入库属性数据用各种精度评价方法进行精度分析,为用户提供可靠的属性数据。

5) 数据清理

数据清理也称数据清洗。从广义上讲,是将数据库精简以除去重复记录,并使剩余部分转换成符合标准的过程。而狭义上的数据清理是特指在构建数据仓库和实现数据挖掘前对数据源进行处理,使数据实现准确性、完整性、一致性、唯一性、适时性、有效性以适应后续操作的过程。从提高数据质量的角度出发,凡是有助于提高数据质量的处理过程,都可以认为是数据清理。一般说来,数据清理主要包括数据分析、数据检测和数据修正三个步骤,如图5-4所示。

图5-4

图5-4 数据清理的流程

数据清理的三个步骤:

  • 数据分析:是指从数据中发现控制数据的一般规则,比如字段域、业务规则等,通过对数据的分析,定义出数据清理的规则,并选择合适的清理算法。
  • 数据检测:是指根据预定义的清理规则及相关数据清理算法,检测数据是否正确,比如是否满足字段域、业务规则等,或检测记录是否重复。
  • 数据修正:是指手工或自动地修正检测到的错误数据或重复的记录。