大型企业级非结构化数据的迁移与转储技术研究,大型企业级,非结构化数据,转储技术,CIO之家

大型企业级非结构化数据的迁移与转储技术研究

高强魏薇　　　　数据中心　　编辑:dezai 　　图片来源:网络

随着信息技术的高速发展。目前越来越多的企业最需一整套区别与电子公文系统的办公辅助系统，从来来实现企业办公的自动化，提高管理效率和工作效率。其中将员工考

随着信息技术的高速发展。目前越来越多的企业最需一整套区别与电子公文系统的办公辅助系统，从来来实现企业办公的自动化，提高管理效率和工作效率。其中将员工考勤、用章管理、会议室管理、车辆管理等一系列的工作都落实在个人办公上，管理者可以及时了解员工的日常工作的进展情况，并能根据工作进度，进行物资的调度和调配。可以使个人办公和部门办公、企业业务进行有机地结合。实现组织工作管理可以将各部门、个人的力量通过系统联合起来，最终达到预定管理目标。

1项目必要性及定位

整体上讲，目前数字信息化工作近年来已取得了长足的发展。但在管理标准、信息化管理模式及质量等方面仍然存在着一定的问题。归纳如下：

1．1数据管理面临的典型问题

1)信息资源中的非结构化数据管理建设缺少统一规划，大量应非结构化归档信息未能纳入归档范围；

2)非结构化数据的信息化标准体系建设差距很大；

3)缺乏统一完善的非结构化数据的管理规范和标准；

4)非结构化数据利用不够充分。

1．2目前主流的非结构化归档数据信息化方面存在的问题

1)与办公系统、专业系统缺乏成熟接121，非结构化数据存储方式多样，整合存在困难，使数据共享和共享平台建设留下了许多问题：

2)在利用和搜索方面，较好的情况是可以进行目录查询，极少数单位实现了全文查询，而且随着非结构化数据量的增大，很多现存系统的查询变得十分缓慢；

3)现有信息化系统有简单的权限控制，但是缺少深层数据库层面的整体可控性，比如多数系统无法控制被利用电子文件的安全性：

因此。研究并制定统一、专业的企业级非结构化数据迁转方案势在必行。形成的非结构化数据迁转方案应数据管理业务系统有效集成。实现非结构化数据档案的自动收集归档和科学保管，整体提升非结构化数据管理能力；通过电子文件集中存放和智能检索提供多种形式的电子文件利用方法，推动用户对数据的加工利用；促进非结构化数据信息资源共享平台，加快企业对相似问题的响应和解决速度。

基于此的项目定位是非结构化数据迁转研究秉承数据业务管理旨在“珍存记忆，提升价值，构建平台，实现共享”的思想，主要帮助数据管理系统项目完成非结构化数据的保管、整理和利用。

2项目实施的目标

非结构化数据面临的相关挑战反应了大型企业为数字内容建立解决方案所关注的一些常见情况，同时也树立了本次项目研究的目标：

1)管理多个不同的平台来处理关系数据和非关系数据，从而导致不必要的复杂性；

2)这些分散的数据存储使得对于开发人员来说增加了复杂度，并提高了经理的部署难度；

3)开发人员和数据库管理员缺乏在这屿不同的数据类型中可以使用的服务；

4)通过基于SQL Server 2008技术旨往解决这些问题，通过：

①降低管理这些不同的数据类型的成本；

②简化使用关系数据和非

关系数据的应用程序的开发工作；

③将现在只用于关系数据的功能扩展到非关系数据。

非结构化数据迁转技术的研究项目建设，从业务的角度看，实现由传统结构化数据管理利用向内容管理即非结构化数据管理利用的过渡；从管理的角度，逐步实现由数据管理向知识管理的转变，旨在建立电子文件凭证中心和知识中心。

3迁转平台的总体结构和功能框架

3．1总体结构

非结构化数据迁移涉及六个步骤，数据类型的定义，基于数据管理系统的标准规范的定义，1)首先在系统中定义了非结构化数据类型，用户需要对历史非结构化数据类型进行重新定义；2)对于用户的定义，用户需要对历史非结构化数据中的管理单位映射为新的组织单位；3)非结构化数据著录项的映射，各个单佗原有的历史非结构化数据巾的著录项名称的不统一，因此在导人数据前需要将历史数据的著录项映射为系统中定义的非结构化数据著录项；4)非结构化数据导入；5)非结构化数据著录项值转换，将不匹配的著录项值转换为系统中定义的著录项值；6)非结构化数据附件导入，在确定数据条目无误的情况下导人非结构化数据附件。

3．2数据库结构

图1为ERMS顶层数据流。

4 技术路线

非结构化数据数据迁转主要技术运用微软.NET技术，其中包含ASP．NET、ADO．NET、SQL Server 2008数据库技术、Windows Service技术等等。

5 数据迁移功能设计

5．1总体功能架构

非结构化数据迁移共包含八个子模块。各模块各自独立，但也具有一定的内在联系，是一个有机的整体。八个子模块的

1)非结构化数据类型配置。用户对原有历史档案类型的定义，将原有的历史非结构化数据类型定义为系统中的非结构化数据类型。

2)组织机构映射。实现将历史非结构化数据中的组织机构名称映射为现有ERMS系统中的组织机构名称。

3)著录项映射。实现将原有非结构化数据中的字段与现有系统的字段进行映射。

4)非结构化数据导人或加入队列。当历史非结构化数据条目大于1000条时可以添加入队列进行非结构化数据迁移。小于等于1000条时可以直接导入到系统。

5)历史非结构化数据著录项值转换。由于原有历史非结构化数据中的著录项的值与现有系统中的值不能一一匹配上，所以对于历史非结构化数据中的部分著录项(如：密级)的值需转换为系统中所对应的值。

6)非结构化数据附件的上传。根据用户的要求，非结构化数据条目先行的原则，所以在导入非结构化数据条目的时候没有同时处理非结构化数据的附件，非结构化数据的附件需要当条目进入系统并确认无误后才可导人非结构化数据的附件。导入附件的方式为利用Windows服务进行导入。

7)导入情况查看。用户可以同过该功能查看非结构化数据迁移的情况，如历史非结构化数据是否配置了数据类型等等。

8)非结构化数据源配置。由于非结构化数据迁移可能涉及多种非结构化数据源，一般情况下是使用Excel作为数据源。但部分单位原有的档案系统所用的数据源可能为SQL Server数据源，所以当用户需要将SQL Server作为数据源时需要ERMS系统的管理员为该单位配置SQL Server数据源的链接信息，该功能为用户提供数据源的配置任务。

5.2非结构化数据类型配置模块设计

非结构化数据类型功能部分主要实现以下目标：

1)批次的建立：

2)非结构化数据类型的配置。

由于在非结构化数据迁移时可能会涉及很多的数据表。当数据表很多时，用户可能不能分清楚数据表的内容，同时也不能一次就完成非结构化数据迁移的工作，所以在非结构化数据类型配置中引入了批次的概念。批次的定义方便用户管理数据迁移工作。主要实现代码：

MigrationBLL BLL=new MigrationBLL（）；

MigrateDataBatehInfo Info=new MigrateDataBatchlnf0()；

Info．BatchID=Guid．NewGuid（）；

Info．BatchTifle=this．txtP．Text；

Info．BatchDescription=this．txtD．Text；

Info．OUID=this．CurrentUser．OUID；

Info．UserID=this．CurrentUser．ID；

BLL．InsertMigrateDataBatchlnfo(Info)；

5．3组织机构映射模块设计

当用户进入组织机构影射模块，用户需要根据非结构化数据类型中配置的信息进行组织机构映射，包含批次，数据源类型，数据文件及数据表等信息。这样避免了组织机构重名的问题，在数据导人时可以准确的判断出该数据源中的组织机构信息。

当用户选择单位所在字段时。系统会动态加载数据源字段中的值，如果单位映射信息中包含某个单位，则需要映射的单位名称中不会再次出现。

主要实现代码：

try

{

if(this．DDLOriginalOUName．SelectedItem．Text!=“”）

{

if(this．OUTreeView．SelectedName!=“”）

{

MigrationBLL BLL=new MigrationBLL0；

string OriginalOUName=this．DDLOriginalOUName．Selectedhem．Text；

Guid OUID=new Guid(this．OUTreeView．SelectedValue)；

string OUName=this．OUTreeView．SelectedName；

//DataTable dt=BLL．GetMigrateOUMaplnfoBylnfo(OriginalOUName，OUID，OUName)；

Guid BatchID=neqa Guid(this．DLP．SelectedItem．Value)；

Guid DataSourceID=new Guid(this．DLDBFile．Selectedhem．Value)；

Guid DataTableID=new Guid(this．DLDBTable．Seleetedhem．Value)；

string SourceType=this．DLDBType．Selectedhem．Value；

string OriginalOUField=this．DDLField．Seleetedhem．Text；

BLL．InsertMigrateDataOUInfo(BatchID。SourceType，DataSourceID，DataTablelD，OriginalOUField,OriginalOUName，

OUID，OUName，this．CurrentUser．OUID，this．CurrentUser.ID)；

BindOUInfo()；

BindFieldValueResutl0；

//if(dt．Rows．Count<=0)

//{

//}

//else

//{

//this．MessageHandler．Show(new McsMessage(McsMessageType．Warning,”该单位已映射!”))；

//}

}

else

{

this．MessageHandler．Show(new McsMessage(McsMessageType．Warning，”没有选择映射到ERMS中的单位名称!”))；

}

else

{

this．Messagel4andler．Show(new MesMessage(McsMessageType．Warning，”投有选择需要映射的单位名称不能为空!”))；

}

catch

{

this．MessageHandler．Show(new McsMessage(McsMessageType．Warning,“没有选择需要映射的单位名称不能为空!”))；

}

5．4应用效果综合分析

借助非结构化数据转储的研究，进行的相关信息系统存储系统整合的根本目的是为了减少存储资源的数量，提高非结构化数据的管理和利用。随着非结构化数据的集中迁移和转储，文件服务系统的规模会随着新的企业应用的部署和新的扩展需求而不断增长，最终会形成一个拥有越来越多文件服务器的庞大的文件服务环境。

1)降低管理成本

系统整合所带来的一个好处就是能够减少企业的IT管理工作。随着需要管理的存储设备的减少，处理这些管理任务所需要用到的人力资源也可以相应地减少。而如果任随这些系统不断增长，随着时间的推移，最终将积累起大量的文件服务器资源，这些资源的维护对IT人员来说将是一个极大的负担。

2)经济利益

当非结构化数据存储完成集中管理和整合后，就会对企业的经济产生极大的正面促进作用。当企业将多个系统整合成一个之后，就能够节省下多余的软件许可费用和磁盘空间。得以节省大量的rr成本。更重要的是，IT管理员花费在管理这些系统进行软硬件更新和解决相关问题上的时间也能够得到极大的节省。

3)资产保护

当非结构化数据存储完成集中管理和整合后。可以更好地帮助集团公司进行企业资产的保护。备份机制是否为数据提供了足够的保护?有没有合适的安全控制?如果这些过程都能够从中央来统一进行和控制，那么以前所必须要进行的备份过程的次数以及系统的安全控制点都能够大大减少，企业就将有机会确保企业资产都得到了完善的保护。

同时，把企业现有的数据操作特征联系在一起，通过此项目的研究在新的平台上我们可以发掘出许多能够改善企业数据操作流程的功能。这些管理上的改善随着时间的推移在存储系统不断扩展的过程中将始终不断地展现出其价值。

本文作者:高强魏薇来源:网络
CIO之家 www.ciozj.com 微信公众号:imciow

大型企业级

非结构化数据

转储技术

免责声明:本站转载此文章旨在分享信息，不代表对其内容的完全认同。文章来源已尽可能注明，若涉及版权问题，请及时与我们联系，我们将积极配合处理。同时，我们无法对文章内容的真实性、准确性及完整性进行完全保证，对于因文章内容而产生的任何后果，本账号不承担法律责任。转载仅出于传播目的，读者应自行对内容进行核实与判断。请谨慎参考文章信息，一切责任由读者自行承担。