为什么使用hadoop,hadoop,大数据技术,CIO之家

为什么使用hadoop

网友　　　　实践应用　　编辑:dezai 　　图片来源:网络

主要也是通过上图的布局。将数据分布到多个服务器上。当有任务了，比如查询，或者比较大小，先让每台服务器，都处理自己的存储中文件。然后再将所有服务器的处理结果进行第二次处理。最后将结果

大量：这个大家都知道，想百度，淘宝，腾讯，Facebook，Twitter等网站上的一些信息，这肯定算是大数据了，都要存储下来。

多样：数据的多样性，是说数据可能是结构型的数据，也可能是非结构行的文本，图片，视频，语音，日志，邮件等。

实时：大数据需要快速的，实时的进行处理。如果说对时间要求低，那弄几个机器，对小数据进行处理，等个十天半月的出来结果，这样也没有什么意义了。

不确定：数据是存在真伪的，各种各样的数据，有的有用，有的没用。很难辨析。

根据以上的特点，我们需要一个东西，来：

存储大量数据
快速的处理大量数据
从大量数据中进行分析
于是就有了这样一个模型hadoop。

hadoop的历史就不说了。先来看看模型。

这就相当于一个生态系统，或者可以看成一个操作系统XP，win7.

HDFS和MapReduce为操作系统的核心，Hive，Pig，Mathout，Zookeeper，Flume，Sqoop，HBase等，都是操作系统上的一些软件，或应用。

HDFS：（Hadoop Distributed File System)，Hadoop分布式文件系统。从名字上就看出了它的两点功能。

基本功能，存文件，是一个文件系统；另外这个文件系统是分布式的；

从图上来看，HDFS的简单原理。
Rack1，Rack2，Rack3是三个机架；
1,2,3,4,5,6,7,8,9,10,11,12 是机架上的十二台服务器。
Block A, Block B, Block C为三个信息块，也就是要存的数据。

从整体布局上来看，信息块被分配到机架上。看似很均匀。这样分配的目的，就是备份，防止某一个机器宕机后，单点故障的发生。

MapReduce，（Map + Reduce），就看成是计算的功能。可以对数据进行处理。

它加快了计算。主要也是通过上图的布局。将数据分布到多个服务器上。当有任务了，比如查询，或者比较大小，先让每台服务器，都处理自己的存储中文件。然后再将所有服务器的处理结果进行第二次处理。最后将结果返回。

其实，hadoop还有一点好处，就是省钱。框架开源的，免费的，服务器也不用特别牛X的。省钱才是硬道理。

另外，从别的资料看到一种解释mapreduce的方式，很简单
Goal: count the number of books in the library.
Map: You count up shelf #1, I count up shelf #2.
(The more people we get, the faster this part goes. )
Reduce: We all get together and add up our individual counts.

本文作者:网友来源:网络
CIO之家 www.ciozj.com 微信公众号:imciow

hadoop

大数据技术

免责声明:本站转载此文章旨在分享信息，不代表对其内容的完全认同。文章来源已尽可能注明，若涉及版权问题，请及时与我们联系，我们将积极配合处理。同时，我们无法对文章内容的真实性、准确性及完整性进行完全保证，对于因文章内容而产生的任何后果，本账号不承担法律责任。转载仅出于传播目的，读者应自行对内容进行核实与判断。请谨慎参考文章信息，一切责任由读者自行承担。

延伸阅读