首页  ·  知识 ·  人力资源
数据仓库技术及在人力资源系统的设计
朱涛 杨森  万方数据    编辑:德仔   图片来源:网络
近年来,随着数据库技术的广泛应用和发展,用户发现单靠联机事务处理系统(OLTP)已很难达到要求。他们需要对业务的运作及相关行业的情况进行全面分析,从
近年来,随着数据库技术的广泛应用和发展,用户发现单靠联机事务处理系统(OLTP)已很难达到要求。他们需要对业务的运作及相关行业的情况进行全面分析,从而做出有利的决策。数据仓库使得人们只花很短的时闻就能从大量的历史数据中查询出所需的数据,而数据挖掘则可以从这些数据中发现和预测出有价值的信息,数据仓库技术使我们从全新的角度认识了数据的价值。

1.数据仓库概念及其体系结构

    数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。与其他数据库应用相比,数据仓库更像一种过程,即对分散的业务数据进行整合、加工和分析的过程,而不是一种可以购买的产品。

    数据仓库包括如下几个部分,如图1所示。


图1 数据仓库的体系结构


    (1)原数据部分,数据提取、清洗、转换和装载(ETL)部分,以及中心数据仓库部分。经过这些环节,可以完成将数据从源数据装载到数据仓库中的过程。

    (2)数据集市。根据部门的需要,可以从数据仓库中形成数据集市,以满足部门及数据分析的需要。

    (3)数据访问和分析部分。在数据访问和分析的过程中,可以采用OLAP分析及数据挖掘技术进行分析,得出有关的分析结果。

2.数据分析技术

    数据分析技术是建立在一定数据基础上,进行分析的方式和方法,通常包括:OLAP、数据挖掘、统计分析、联机挖掘等技术。需要说明的是,数据分析技术并不一定需要建立在数据仓库的基础上,但有了数据仓库之后,数据分析的效率和能力将大大提高。通过与数据分析技术的结合,才能发现许多前所未有的分析结果,并为管理者提供科学的决策依据。

    2.1 OLAP(联机分析处理)

    OLAP分析与数据仓库的关系非常紧密。数据仓库的建立,解决了依据主题进行数据存储的问题,提高了数据的存取速度,而OLAP分析构成了数据仓库的表现层,将数据仓库中的数据通过不同的维和指标灵活的展现出来,提高数据的展现能力,进而提高数据的分析能力。

    OLAP涉及以下术语:维度(Dimension)、量度(Measure)、级别(Level)、成员(Member)、多维数据集、立方体(Cube)、时间粒度(Time granularity)、星型结构/维度(Star sehenla)、雪花型结构、维度(Snowflake schema)。

    OLAP对不同维度进行肉眼观察,并非运用更科学的概率论或其它数学工具去测度;而肉跟观察带有主观的“有色眼镜”,故缺乏科学客观的评判手段和方法。其次,当遇到维度过多、数据量过大的实际情况时,OLAP工作效率急剧下降。再次,若自变奄和自变量之间存在的线性关系或交互作用,OLAP无法分辨“混杂因子”或找出主要影响因素。因此。OLAP无法完全满足在分析信息系统巾最基本、最重要和最关键的要求:面对主题(商务需求)进行分析;而在实际信息处理中,OLAP无法实现分析的主题或任务,则需要数据分析或数据挖掘更强大的分析工具、技术来实现。

    2.2 数据挖掘

    数据挖掘亦称为数据开采,它首先由W.J.Frawley、G.Piatesky-Shapiro等人提出。数据挖掘是一种数据分析工具,它从大量的、不完全的、有噪声的、模糊的、随机的数据中提取人们感兴趣的数据模式、数据的普遍关系及其隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识,提取的知识表示为概念(Concepts)、规则(Rul哟、规律(Regularities)、模式(Patterns)等形式,其目的足帮助管理者寻找数据间潜在的关联。发现被忽略的要素,而这些信息对预测趋势和决策行为将起到一定的支持作用。

    数据库中的数据挖掘是一个多步骤的处理过程,这屿步骤有:

    (1)数据定义阶段。主要了解相关领域的有关情况,熟悉背景知识,弄清楚用户决策分析对信息的要求。(2)数据提取阶段。根据要求从数据库巾提取相关的数据。(3)数据预处理阶段。主要对前一阶段产生的数据进行再加工,检查数据的完整性及数据的一致性,对其中的噪音数据进行处理.对缺损的数据进行填补。(4)数据挖掘阶段。主要是运用选定的知识发现算法,从数据中提取出用户所需要的知识,这些知识可以用一种特定的方式表示或使用一些常用的表示方式。(5)知识评估阶段。将发现的知识以用户能了解的方式呈现,根据需要对知识发现过程中的某些处理阶段进行优化,直到满足要求。

    2.3 数据仓库、0LAP和数据挖掘之间的关系

    在数据仓库化的决策支持系统中,应将数据仓库、OLAP、数据挖掘进行有机结合,其所担当的角色分别为:

    (1)数据仓库用于数据的存储和组织,它从事务处理系统中抽取数据,并对其进行综合、集成与转换,提供面向全局的数据视图;OLAP致力于数据的分析;数据挖掘则专注于知识的自动发现。(2)在数据仓库和OLAP、数据仓库和数据挖掘之间存在着单向支持的关系;在数据挖掘与OLAP之间,存在双向联系,即数据挖掘为OLAP提供分析的模式,0LAP对数据挖掘的结果进行验证,并给予适当的引导。三者关系如图2所示。
 


图2 数据仓库、OLAP、数据挖掘的关系3.数据仓库技术及在人力资源系统的设计

    人力资源系统的数据量大,但相对分散,统计功能不足,利用率低。为了更好的发挥其数据的功能,提出人力资源数据仓库系统的设计。该系统主要由ETL系统、OLAP系统、客户端组件系统三部分组成,其整体框架如图3所示。
 

 


图3 人力资源数据仓库系统框架图


    ETL系统负责定期的从OLTP系统中将业务数据库的数据导入数据仓库,在导入过程中会依据OLAP系统中模式设计的要求对数据进行清洗和转换,以符合数据仓库的结构要求。

    OLAP系统由三部分组成:OLAP引擎、OLAP数据展示模块和元数据管理模块。OLAP引擎负责读人数据仓库中的数据,并根据模式定义构建多维数据集,使数据以多维格式展示。OLAP数据展示模块负责将多维数据集展现为一个联机分析处理(OLAP)贞面,用户可以在页面上执行典型的联机分析处理导航操作,如上卷、下钻和旋转等。元数据管理模块负责对模式设计文件进行管理。

    客户端组件系统负责访问用户的登录验证,并根据访问用户的访问权限提供对应的数据展现。

4.结束语

    本文阐述了数据仓库、OLAP、数据挖掘的概念,并对OLAP和数据挖掘技术进行了探讨,并在此基础上,提出了人力资源数据仓库系统的设计方案。数据仓库已经成为现代信息领域的必不可少的基础设施之一,我们应该使用好数据仓库,使之成为迎接挑战的有力武器。
 

 

本文作者:朱涛 杨森 来源:万方数据
CIO之家 www.ciozj.com 微信公众号:imciow
    >>频道首页  >>网站首页   纠错  >>投诉
版权声明:CIO之家尊重行业规范,每篇文章都注明有明确的作者和来源;CIO之家的原创文章,请转载时务必注明文章作者和来源;
延伸阅读
也许感兴趣的
我们推荐的
主题最新
看看其它的