大数据平台技术综述,大数据,数据挖掘,BI,商务智能,数据分析,数据建模,Hadoop,云计算,可视化,CIO之家

大数据平台技术综述

宫夏屹李伯虎柴旭东谷牧　　北京仿真中心　　实践应用　　编辑:文华　　图片来源:网络

大数据平台技术已成为现代建模仿真领域的重要支撑技术之一。尤其是社会各行业当前对基于数据的应用愈加重视，大数据的兴起引发了各行业研究大数据、应用大数据的热潮

随着新一代信息技术的飞速发展，大数据平台技术已成为现代建模仿真领域的重要支撑技术之一。尤其是社会各行业当前对基于数据的应用愈加重视，大数据的兴起引发了各行业研究大数据、应用大数据的热潮。进入2012年，大数据（big data）一词越来越多地被提及，人们用它来描述和定义信息爆炸时代产生的海量数据，并命名与之相关的技术发展与创新。截止到2012年，数据量已经从TB（1024GB=1TB）级别跃升到PB（1024TB=1PB）、EB（1024PB=1EB）乃至ZB（1024EB=1ZB）级别。国际数据公司（IDC）的研究结果表明，2008年全球产生的数据量为0.49ZB，2009年的数据量为0.8ZB，2010年增长为1.2ZB，2011年的数量更是高达1.82ZB，相当于全球每人产生200GB以上的数据。而到2012年为止，人类生产的所有印刷材料的数据量是200PB，全人类历史上说过的所有话的数据量大约是5EB。IBM的研究称，整个人类文明所获得的全部数据中，有90%是过去两年内产生的。而到了2020年，全世界所产生的数据规模将达到今天的44倍。

近期，各行业对大数据定义众多。Informatica中国区首席产品顾问但彬认为：“大数据”包含了“海量数据”的含义，而且在内容上超越了海量数据，简而言之，“大数据”是“海量数据”+ 复杂类型的数据。大数据包括交易和交互数据集在内的所有数据集，其规模或复杂程度超出了常用技术按照合理的成本和时限捕捉、管理及处理这些数据集的能力。

此外，基于客户获取的工作负载的要求，NetApp定义的大数据包括A、B、C 三个要素：分析（Analytic）+带宽（Bandwidth）+内容（Content）。

分析已有的各种定义以及实际应用中对大数据技术的要求，本文认为大数据是无法在一定时间内用传统数据库软件工具对其进行快速获取、分析和处理的多类别体量数据集。业界将其归纳为4个“V”――Volume、Variety、Value、Velocity，即具有4个典型特征：第一，数据体量巨大，从TB级别跃升到PB级别；第二，数据类型繁多，涵盖工程数据、网络日志、视频、图片、位置信息等等；第三，数据蕴含的价值巨大，目前已经远远不局限于商业创新，实现精准营销价值；第四，速度快，俗称“秒级定律”，即速度要求很高，一般要在秒级时间给出分析结果，时间太长就失去价值。目前，大数据的研究和应用已成为各行业数据研究的重点。

科学研究领域新积累的大量计算结果及过程数据我们称之为工程应用数据，是一类典型的大数据。复杂系统研制中往往要进行大量的试验和仿真，从而能够积累大量的工程应用数据，这些海量研制数据以图表、数据、模型等多种形式进行存储，并需要进行快速处理以支持复杂系统研制的快速性要求，同时用于复杂系统研制全生命周期。具体而言，这些数据包括系统模型、知识（流程、设计和文本等）、算法和传统的结构化数据类数据（比如，仿真试验类数据，多学科优化类数据等）。工程应用数据如知识、海量结构化数据、算法、模型等具有典型的4V特点。

工程研制中，工程应用数据会随着试验、仿真、迭代设计的不断增加而迅速膨胀，这些数据的不断累积会达到PB级，具有大体量的特点；工程应用数据以图表、模型、word等多种形式进行存储，具有多样性的特点；一个模型代表了一种研究思路，一次试验代表了成功或者失败的经验，这些数据都对工程研制具有重要的价值和意义，具有价值大的特点，此外，面向工程应用数据的挖掘分析，其主要研究如何从大量设计、试验、制造数据以及综合保障数据中挖掘出能够支持产品全生命周期应用的各类有巨大意义的信息，更好支持产品价值的实现；当前的工程研制更加注重快速化、绿色化，如何快速的呈现试验结果，开展仿真分析，如何快速确定设计参数等等，这都需要对工程应用数据进行快速分析，同时，从大数据全生命周期应用而言，从数据采集、获取上速度要快，存储、管理上要实现快速化，分析、处理上更要迅速完成，具备速度快的特点。

大数据的发展已上升到国家战略发展层面，数据正在成为组织的财富和创新的基础。大数据的出现促使对数据的分析向机器学习方向发展，通过大量数据的激励，“机器”能够随着计算、运行次数的增多，通过学习逐步自我提高改善，使挖掘和预测的功能更为准确。这也标志着我们人类社会在从信息时代经由知识时代快速向智能时代迈进。

从2009年开始，“大数据”逐渐成为互联网信息技术行业的热门词汇。美国互联网数据中心指出，互联网上的数据每年将增长50%，每两年便将翻一番，而目前世界上90%以上的数据是最近几年才产生的。“大数据”作为一个较新的概念，目前尚未直接以专有名词被我国政府提出来给予政策支持。不过，在工信部发布的物联网“十二五”规划上，把信息处理技术作为4项关键技术创新工程之一被提出来，其中包括了海量数据存储、数据挖掘、图像视频智能分析，这都是大数据的重要组成部分。而另外3项关键技术创新工程，包括信息感知技术、信息传输技术、信息安全技术，也都与“大数据”密切相关。大数据技术的战略意义不在于掌握庞大的数据信息，而在于对这些含有意义的数据进行专业化处理。

通过对国内外在大数据方面的研究工作进行分析，可以发现目前大数据平台的研究还比较零散，在大数据平台架构上大多基于Hadoop技术，大量的研究集中在大数据的挖掘分析方法上，还没有形成支撑大数据平台开发的相关技术体系。而数据挖掘技术在大数据应用中的研究与应用尚处于发展阶段，许多公共安全、电子政务等业务信息系统还停留在初级处理水平，缺乏综合性的开发应用，智能化的分析研判，科学性的决策预警。

鉴于此，大数据的研究应用已逐步成为一项数据工程，急需一个新的平台来支撑全生命周期内跨领域、异构大数据的管理、分析和处理等需求。

1 大数据平台面临的挑战

面对领域大数据，在全生命周期的一体化协同环境下的大数据采集、存储、管理及分析处理都将面临着前所未有的挑战，具体而言，面临以下难题：

1）大数据采集问题。如何将大数据变小，在尽量不损失价值的情况下减少数据的规模，像数据的清洗、去除等等，即如何有效地处理大数据类似物理的作用，把大数据的规模变小但不损失价值；如何从一个平面的大数据提炼出高附加值的概念、知识和智慧。

2）大数据存储问题。对于结构化数据，海量数据的查询、统计、更新效率低；对于非结构化数据，如图片、视频等文件的存储、检索困难；对于半结构化数据，进行存储、分析需要转化为结构化数据，或者按照非结构化数据进行存储，难度较大。

3）大数据管理问题。如何对分布、多态、异构的大数据进行管理，当前还缺乏有效手段。

4）大数据分析处理问题。分布式计算、并行计算能够提供有效支持，而如何有效利用现有分布式、并行技术开展大数据的分析处理有待研究。

5）大数据领域应用问题。如何应用大数据辅助具体的领域应用，如：快速开展治安防控、警情研判及指挥决策。同时，如何发掘行业信息资源价值，提高领域大数据的利用率亟待研究。

2 大数据平台涉及的关键技术

构建一个能够有效支撑大数据应用的平台，需要着重考虑大数据平台体系架构、大数据建模与存储管理、大数据分析处理以及大数据应用等几项关键技术。

2.1 大数据平台体系架构

目前，大数据尚未具有一个全面的、整合的平台，通过对以上需求进行分析，针对领域应用中数据规模大、数据关联性强等特点，亟需面向大数据平台进行系统性研究，从而解决大数据的服务、共享、整合和分析的集成性问题。

大数据的作用日益凸显，越来越多的商业用户倾向于将大数据分析结果作为其商业决策的重要依据。面向复杂系统研制过程，必须找到一种集成的、全面的大数据解决方案，不仅要解决图形、模型等非结构化数据的处理问题，还要将功能扩展到海量研制数据（试验数据、仿真数据、故障诊断数据等）的存储、多专业大数据的分布式采集和交换、海量研制数据的实时快速访问、统计分析与挖掘和商务智能分析等，这就需要有新的架构，新的技术途径来给予支撑。

针对领域应用数据所具有的容量大、多样性、非结构化、冗余度大等特点，以及实际业务中快速开展大数据分析处理的应用需求，研究提出支持横向扩展，具有分布、并行、高效等特点，且面向服务的支持大数据工程全生命周期活动的平台体系架构。如图1所示。

大数据平台在逻辑上表现为一种层次架构，自上而下包括应用层、门户层、服务层、感知/接入层和资源层。而相关的标准、规范和安全机制贯穿所有层次。

应用层：面向工程、公共安全等领域大规模数据的业务应用，支撑智能监控、事态预测、统计分析、分析模拟、指挥决策等核心应用。

门户层：为应用层提供“云模式”和“云+端模式”两种使用方式。无论是行业应用人员还是行业平台管理人员，只需通过本地即可登录平台门户，访问平台层中各系统，有效检索管理平台中各系统的结构化以及非结构化数据，从而有效支撑完成各行业应用。

服务层包含业务服务层和支撑服务层。

业务服务层：面向大数据的采集、建模、管理、分析、挖掘和融合等全生命周期，为上层业务应用提供相关服务。

支撑服务层：涵盖物联化中间件、虚拟化中间件、服务化中间件、资源调度中间件以及分布式存储中间件（如Hadoop等），其中，资源调度中间件提供负载均衡、容错调度在等支撑服务，对底层资源全面整合和全生命周期集中管理，从而为各类行业应用提供资源支持。

感知/接入层：通过各类感知设备获取各类大数据信息，同时通过无线传感网络、4G-LTE等多种途径传递大数据信息，并对这些大数据进行初步融合。

资源层：为大数据平台的运行基础支撑提供包括存储服务器、计算服务器等高性能硬件资源，结构化和非结构化的数据资源，以及平台资源和模型/服务资源等软件资源。

大数据平台体系架构

图1 大数据平台体系架构

2.2 大数据建模与存储管理技术

多源、分布和异构数据的整合和统一管理问题目前主要有两方面：第一，通过大数据统一建模，支持异构多源数据的管理问题；第二，应用一种新的同构存储机制支持大数据的管理问题。

2.2.1 大数据建模技术

大数据是纷繁复杂的，要解决大数据的统一存储、管理及高效分析处理就需要进行大数据的统一的组织和一致性表达，解决多源、分布和异构数据整合和统一管理问题，这样，研究大数据的统一建模就十分必要。当前对数据建模的主要来源于计算机系统的观点，主要包括层次模型、关系模型、网状模型和面向对象模型等。而在这些方法中，利用基于本体的大数据描述方法进行数据建模，更适合用于解决当前大数据管理中的困境。

要进行大数据统一建模，就需要对纷繁的大数据化繁为简，从大数据特性出发，归纳总结其最小信息结构，进而从应用出发，着重抽取关联关系，进而将大数据进行抽象，实现对大数据的建模。依据对大数据的分析，提出基于大数据的统一描述框架的建模方法。

通过对大数据的分析，国内外研究表明，首先定义大数据的三类关键信息：大数据基本信息、功能信息，以及协同联动信息，以建立大数据体的元描述。而后在顶层大数据中定义结构化数据基体、非结构化数据基体和大数据体，其中依据大数据的不同特征进行聚合形成大数据基体，当前结构化数据和非结构化数据在存储、处理等方面存在较大差异，故而本文在研究过程中将大数据基体分为结构化数据基体和非结构化数据基体进行研究，对数据的研究一般会按照一定条件如时间、特征等对数据进行划分，而后进行分析应用。结构化数据基体和非结构化数据基体就是本文中设定的最小粒度的具有分析和应用价值的数据集合。大数据体由较小粒度的大数据体或大数据基体构成，其通过协同联动信息组织起来，这里的协同联动信息可认为是一类约束性信息。大数据体、结构化数据基体及非结构化数据基体的实例化就成为大数据实例，大数据实例由于粒度的大小又可成为功能模块大数据，专业领域大数据等。

而后，利用大数据统一描述框架，对每一类异构大数据利用统一描述框架进行抽取和处理就可以得到表达一致的大数据，进而有效支持大数的统一存储、并行挖掘等。

此外，例如面向多源整合的大数据可以应用索引和描述技术来解决大数据的描述管理问题。首先，需要建立多源数据的索引和描述，常规索引建立主要分为三个方面：大数据分类索引构建，空间数据R树索引构建，层次索引树建立。大数据具有多类别的特点，针对这一特征，建立以类别为内容的分类索引，通过分类索引的综合查询到所需的专题数据。具体而言，如图2，我们将采用存储索引模型—层次索引树访问数据、R树索引和分类索引共同构成一个统一的接口，即构造了一个统一的访问接口与用户交互，用户通过该接口对大数据进行访问，这样就能针对多源大数据建立管理和关联。

大数据索引描述示意图

图2 大数据索引描述示意图

2.2.2 大数据海量存储管理技术

“大数据”来袭时，传统的数据存储方式已不能满足要求，需要开展分布式存储的研究，大数据分布式存储主要考虑以下几个问题：

1）存储资源管理方法

为了解决集群存储环境下的存储资源管理问题，采用存储资源映射方法通过在物理存储资源和虚拟存储资源请求之间建立合理的映射关系，来进行有效的存储资源管理。国内外相关研究提出合理的集群存储资源映射方法，将虚拟存储资源请求均匀地分配到节点上，然后进行节点内部设备级别的资源映射。

2）支持多用户的资源使用和存储环境隔离机制

当用户数量增多，有限的存储资源已经不能满足用户对该类资源的需求时，用户与资源的矛盾就会突显出来。解决这种矛盾的最有效办法就是采取有效资源共享机制，将有限数量的资源按需动态共享给多个用户使用。此外，在存储资源共享的同时，从用户角度看每个应用系统是独立的，不依赖于其他应用系统运行而运行，也不受其他应用系统和资源的运行结果影响，因此需要存储环境隔离技术来屏蔽各个应用系统对存储资源运行的互相影响。

研究表明，利用存储虚拟化技术来整合不同厂商的存储系统。通过隔离主机层与物理存储资源，存储虚拟化技术可以将来自于不同存储设备（即使是不同厂商的设备）的存储容量汇集到一个共享的逻辑资源池中，这样存储的管理就更容易了。任何单体存储阵列所创建的物理卷的容量都是有限制的，而多个异构的存储系统联合在一起就可以创建出一个更大的逻辑卷。

3）基于Hadoop的大数据存储机制

大数据的各类描述方式的多样性，存在着结构化数据、半结构化数据和非结构化数据需要进行处理。对于结构化数据，虽然现在出现了各种各样的数据库类型，但通常的处理方式仍是采用关系型数据知识库进行处理；对于半结构化和非结构化的知识，Hadoop框架提供了很好的解决方案。

Hadoop分布式文件系统HDFS是建立在大型集群上可靠存储大数据的文件系统，是分布式计算的存储基石。基于HFDS的Hive和HBase能够很好地支持大数据的存储。具体来说，使用Hive可以通过类SQL语句快速实现MapReduce统计，十分适合数据仓库的统计分析。HBase是分布式的基于列存储的非关系型数据库，它的查询效率很高，主要用于查询和展示结果；Hive是分布式的关系型数据仓库，主要用来并行处理大量数据。将Hive与HBase进行整合，共同用于大数据的处理，可以减少开发过程，提高开发效率。使用HBase存储大数据，使用Hive提供的SQL查询语言，可以十分方便地实现大数据的存储和分析。其原理如图3所示。

2.3 大数据分析处理技术

大数据分析处理技术已在各行业数据分析处理方面得到成功应用，针对大数据的特征，需要对现有数据挖掘技术进一步改进和完善，国内外在大数据分析处理技术主要包含以下两方面技术研究。

1）大数据分布并行技术

目前，国内外在领域应用中基于分布并行的特征提取、视频摘要加速技术效率较低，非常耗费时间。例如，要进行特征提取、视频摘要的高效快速处理，采用并行处理进行加速可以提高效率。采用CUDA架构实现特征提取、视频摘要的高速处理。CUDA提供了一个非常强大方便的GPU处理平台，被广泛应用于科学计算、图形图像等众多领域，并且在很多应用中获得了最低几倍、最高上百倍的加速比。

2）云计算环境下的并行数据挖掘算法与策略

针对大规模海量数据，需研究采用云计算环境下的并行数据挖掘算法与策略。

算法和策略模型为并行数据挖掘的核心环节，将对现有应用较多的聚类算法、分类算法、关联规则算法等方法基于MapReduce计算模型进行改进，主要从数据集的扫描及分解和归约等方面开展并行性的改进研究，并结合具体应用比较不同方法的性能及适用的数据类型。

MapReduce可将并行编程中复杂的业务逻辑中进行抽象化，将简单的计算作为接口展现在前面，而对复杂的并行化处理、容错、数据分布和负载平衡均进行了隐藏。MapReduce主要是Map和Reduce两个操作上的概念。Map操作主要是对一组输入记录进行处理，处理的方式是根据典型的key/value键值的方式。Reduce操作是针对上述键值进行简单的汇总处理。通过这种简洁的方式，将现实生活中的很多任务都能够描述出来。用这种方式编写的程序能够自动分布到一个由普通机器组成的超大机群上并发执行。系统会解决输入数据的分布细节，跨越机器集群的程序执行调度，处理机器的失效，并且管理机器之间的通信请求。这样的模式允许程序员可以不需要有什么并发处理或者分布式系统的经验，就可以处理超大的分布式系统的资源。如图4，研究发现，例如，针对公安大数据的一个并发程序模型可以清晰地看到整个算法的执行流程：

基于Hadoop的大数据存储机制

图3 基于Hadoop的大数据存储机制
基于MapReduce的并行挖掘策略

图4 基于MapReduce的并行挖掘策略

2.4 大数据应用技术

为了更好地应用大数据平台来支撑基于大数据的领域应用，就需要解决好大数据平台应用模式的问题，以实现如何“用好”大数据，需要解决好大数据处理应用标准规范的问题，让大数据的应用有规可循，全面体现“数据即服务”。

2.4.1 大数据平台应用模式

大数据平台应用模式

图5 大数据平台应用模式

如何对领域大数据进行分析处理，就需要解决大数据平台的应用模式问题。

初步考虑将各种多源、分布和异构的数据资源接入大数据平台，通过分布式存储和并行数据挖掘，提供在线实时监控模式和离线统计分析模式两种应用模式，对各类领域大数据全方位地进行实时和离线分析处理。如图5所示。

2.4.2 大数据处理应用标准规范

“标准先行”已成为当前各行业数据应用的共识，有了标准数据才能共享，才能支撑大数据处理平台应用的开展。

本文从技术标准体系及应用标准体系两个方面研究大数据的相关标准规范，包含各类大数据资源的接入标准，大数据处理平台的各类接口标准，各类大数据处理服务的标准等，此外还包括大数据的应用标准，如对接相关行业标准，各类平台应用的安全标准等。大数据处理应用标准体系如图6所示。

大数据处理标准体系

图6 大数据处理标准体系

3 结论与展望

3.1 结论

1）大数据的研究应用已逐步成为一项数据工程，研究跨领域、跨平台的大数据的应用急需一个新的平台来支撑全生命周期内大数据采集、存储、管理和分析处理等活动。另外，需要在支撑大数据平台的分析工具和开发环境上进行创新，面向行业的大数据平台才具有生命力。

2）当前跨领域、跨行业的数据共享仍存在大量壁垒，是后续大数据平台的一个重要发展方向之一。

3）如何优化大数据平台的分析处理过程，更快、更绿色地实现大数据的分析应用，支持各种先进处理分析方法和理念的智能化和快速融入，是需要着重发展的方向之一。

4）大数据平台具有很强的开放性和包容性，支持“数据即服务”的应用模式。

3.2 应用展望

本文提出的大数据平台能够面向多领域应用，能够在电子商务、公共安全、电信、仿真等领域发挥巨大作用，具体而言，面向公安、智能交通领域构建领域大数据平台，将承载以下应用：

1）视频数据智能分析

以“大情报”应用为牵引，提出面向海量信息资源、空间信息、图像资源以及广泛采集的数据进行深度整合和应用的手段。围绕专项业务领域，构建有层次全方位的视频信息化应用平台，实现公安内部跨警种的匹配信息、检索信息、预测信息共享及协同应用。能够与PGIS结合，形成视频的VGIS，提供海量视频实时快速检索、视频智能关联检索、视频时空分析研判、目标运动轨迹的动态标绘和预测等功能。

初步实现基于公安大数据的事前防范、事后处理为一体的综合应用体系，结合智能视频分析处理功能提高公安机关的业务智能，包括：特征提取、人车分离、特征比对、内容检索等功能，提高业务人员的工作效率；为案件流程管理、物证分析等提供有效手段，从日常事件管理到立案、侦查取证、分析案件、确定侦查方向、制定侦查方案、认定犯罪嫌疑人、破案，对这一系列业务流程及业务中所产生的相关物证、信息进行管理。

2）智能交通应用

通过对智能交通系统中产生的海量视频数据、图像数据进行分析处理，监控分析重点车辆轨迹和现场态势，当出现异常活动时，能够及时做出异常行为判断，做到对重要厂所的重点监控。此外通过对视频、图像等大数据的深度挖掘分析，能够给智能交通诱导及智能交通控制提供更为精确的数据分析支持，从而有效减少路面拥堵，使人们的出行更加便利快捷。

3）公安大数据仿真应用

大数据的出现提供了更为高效的研究模式和手段，将革新现有仿真的思维方式和科研模式，要建立从公安大数据获取知识的理念；革新现有的建模方法学，从传统的建模方法拓展到基于公安大数据的建模方法；革新现有的公安仿真支撑技术系统、仿真系统和仿真应用工程技术等。此外，公安大数据的智能化应用是公安业务体系仿真的根本，包括大数据的采集、整理、分析、评估和应用。最后，推进仿真工程研究，应主要加强公安数据的存储和认知分析等技术的协同应用，重点加强公安业务数据挖掘和预测分析应用。

此外，为进一步拓展大数据平台应用宽度和广度，未来还将从以下方面拓展领域大数据处理平台应用：

1）加强大数据异构信息融合技术的研究，通过对平台管理的大数据信息资源进行补充、完善与整合，为领域业务应用提供更为全面的信息支撑。

2）随着web数据、PGIS等数据逐步纳入大数据处理中，将进一步扩展大数据平台的应用范围。

本文作者:宫夏屹李伯虎柴旭东谷牧来源:北京仿真中心
CIO之家 www.ciozj.com 微信公众号:imciow

　　　　>>频道首页　　 >>网站首页　　纠错　　 >>投诉

广告