5.2.4 数据开发利用
略。
数据只有得到充分的开发利用才能发挥出它的作用。通过数据集成、数据挖掘和数据服务(目录服务、查询服务、浏览和下载服务、数据分发服务)、数据可视化、信息检索等技术手段,帮助数据用户从数据资源中找到所需要的数据,并将数据以一定的方式展现出来,实现对数据的开发利用。
1. 数据集成
数据集成就是将驻留在不同数据源中的数据进行整合,向用户提供统一的数据视图(一般称为全局模式),使得用户能以透明的方式访问数据。其中“数据源”主要是指DBMS,广义上也包括各类XML文档、HTML文档、电子邮件、普通文件等结构化、半结构化和非结构化数据。这些数据源存储位置分散,数据类型异构,数据库产品多样。
数据集成的目标就是充分利用已有数据,在尽量保持其自治性的前提下,维护数据源整体上的一致性,提高数据共享利用效率。实现数据集成的系统称为数据集成系统,它为用户提供了统一的数据源访问接口,用于执行用户对数据源的访问请求。典型的数据集成系统模型如图5-5所示。
图5-5 数据集成系统模型
2. 数据挖掘
数据挖掘是指从大量数据中提取或“挖掘”知识,即从大量的、不完全的、有噪声的、模糊的随机的实际数据中,提取隐含在其中的、人们不知道的、却是潜在有用的知识。它把人们对数据的从低层次的简单查询,提升到从数据库挖掘知识,提供决策支持层面。数据挖掘是一门交叉学科,其过程涉及数据库、人工智能、数理统计、可视化、并行计算等多种技术。
数据挖掘与传统数据分析不同:①两者分析对象的数据量有差异,数据挖掘所需的数据量比传统数据分析所需的数据量大,数据量越大,数据挖掘的效果越好;②两者运用的分析方法有差异,传统数据分析主要运用统计学的方法、手段对数据进行分析,而数据挖掘综合运用数据统计、人工智能、可视化等技术对数据进行分析;③两者分析侧重有差异,传统数据分析通常是回顾型和验证型的,通常分析已经发生了什么,而数据挖掘通常是预测型和发现型的,预测未来的情况,解释发生的原因;④两者成熟度不同,传统数据分析由于研究较早,其分析方法相当成熟,而数据挖掘除基于统计学等方法外,部分方法仍处于发展阶段。
数据挖掘的目标是发现隐藏于数据之后的规律或数据间的关系,从而服务于决策。数据挖掘常见的主要任务包括数据总结、关联分析、分类和预测、聚类分析和孤立点分析。数据挖掘流程一般包括确定分析对象、数据准备、数据挖掘、结果评估与结果应用五个阶段,如图5-6所示,这些阶段在具体实施中可能需要重复多次。为完成这些阶段的任务,需要不同专业人员参与其中,专业人员主要包括业务分析人员、数据挖掘人员和数据管理人员。
图5-6 数据挖掘流程图
数据挖掘的结果经过决策人员的许可才能实际运用,以指导实践。将通过数据挖掘得出的预测模式和各个领域的专家知识结合在一起,构成一个可供不同类型的人使用的应用程序。也只有通过对分析知识的应用,才能对数据挖掘的成果做出正确的评价。
3. 数据服务
数据服务主要包括数据目录服务、数据查询与浏览及下载服务、数据分发服务。
(1) 数据目录服务。
由于专业、领域、主管部门、分布地域和采用技术的不同,数据资源呈现的是海量、多源、异构和分布的特点。对于需要共享数据的用户来说,往往存在不知道有哪些数据、不知道想要的数据在哪里、不知道如何获取想要的数据等困难。数据目录服务就是要解决这些问题,是用来快捷地发现和定位所需数据资源的一种检索服务,是实现数据共享的重要基础功能服务之一。
(2) 数据查询与浏览及下载服务。
数据查询、浏览和下载是网上数据共享服务的重要方式,用户使用数据的方式有查询数据和下载数据两种。
(3) 数据分发服务。
数据分发是指数据的生产者通过各种方式将数据传送到用户的过程。通过分发,能够形成数据从采集、存储、加工、传播向使用流动,实现数据的价值。分发服务的核心内容包括数据发布、数据发现、数据评价和数据获取。
4. 数据可视化
可视化技术是指将抽象的事物或过程变成图形图像的表示方法。科学计算可视化(Visualization in Scientific Computing)的基本含义是运用图形学的原理和方法,将科学与工程计算等产生的大规模数据转换为图形、图像,以直观的形式表示出来。
数据可视化(Data Visualization)概念来自科学计算可视化。数据可视化(见图5-7)主要运用计算机图形学和图像处理技术,将数据转换成为图形或图像在屏幕上显示出来,并能进行交互处理,它涉及计算机图形学、图像处理、计算机辅助设计、计算机视觉及人机交互技术等多个领域,是一门综合性的学科。
图5-7 数据可视化
由于所要展现数据的内容和角度不同,可视化的表现方式也多种多样,主要可分为七类:一维数据可视化、二维数据可视化、支维数据可视化、多维数据可视化、时态数据可视化、层次数据可视化和网络数据可视化,如表5-12所示。
表5-12常见数据可视化表现方式
5. 信息检索
信息检索(Information Retrieval)有广义和狭义之分。应义的信息检索是指将信息按一定的方式组织和存储起来,然后根据用户需求查找出特定信息的技术,所以全称是信息存储与检索(Information Storage and Retrieval)。狭义的信息检索仪指用户查找特定信息这部分,即按照用户的检索需求,利用已有的检索工具或数据库,从中找出特定信息的过程。
信息检索的主要方法如下:
(1)全文检索。以文本数据为主要处理对象,根据数据资料的内容而不是外在特征来实现的信息检索手段。
(2)字段检索。把检索对象按一定标准在不同字段由进行著录,并把不同字段作为检索依据。
(3)基于内容的多媒体检索。按检索内容可分为图像检索、视频检索和声音检索等。
(4)数据挖掘。从大量的、不完全的、模糊的、随机的数据中,提取隐含在其中且人们事先不知道的潜在、有用的信息和知识的过程。
信息检索的常用技术包括布尔逻辑检素技术、截词检索技术、临近检索技术、限定字段检索技术、限制检索技术等。
(1)布尔逻辑检索技术。严格意义上的布尔检索法是指利用布尔逻辑运算符连接各个检索词,然后由计算机进行相应的逻辑运算,以找出所需信息的方法。
(2)截词检索技术。截词检索技术是指用截断的词的一个局部进行检索,并认为凡是满足这个词局部的所有字符的信息,都为命中的信息。截词符用“?”或“*”表示(不同系统、不同数据库,其代表的含义有所不同)。
(3)临近检索技术。临近检索又称位置检索,主要是通过检索式中的专门符号来规定检索词在结果中的相对位置。在某些情况下,若不限制检索词之间的位置关系则会造成误检,影响查准率。
(4)限定字段检索技术。限定字段检索即指定检索词在记录中出现的字段。检索时,计算机只对限定字段进行匹配运算,以提高检索效率和查准率。
(5)限制检索技术。限制检索是通过限制检索范围,达到优化检索的方法。限制检索的方式有很多种,例如进行字段检索,使用限制符,采用限制检索命令等。



