什么是Apache Hadoop?
在Apache Hadoop的项目开发可靠,可扩展,分布式计算开源软件。
Apache Hadoop的软件库是一个框架,允许分布式处理大型数据集在集群计算机使用简单的编程模型。 它被设计为从单一服务器扩展到数千台机器,每个提供本地计算和存储。 而不是依赖于硬件,以提供高可用性,图书馆本身是设计在应用层的故障检测和处理,所以计算机集群上提供高度可用的服务,这可能是容易失败。
该项目包括以下模块:
-
Hadoop Common:常用的工具支持其他Hadoop模块。
-
Hadoop分布式文件系统(HDFS™):一个分布式文件系统,提供了高吞吐量的应用程序数据访问。
-
Hadoop YARN :作业调度和集群资源管理的框架。
-
HadoopMapReduce:大型数据集的并行处理系统:基于YARN 。
其他在Apache Hadoop的相关项目包括:
-
Ambari™:一个基于Web的工具,用于配置,管理和监控的Apache Hadoop集群,其中包括支持Hadoop的MapReduce的Hadoop的HDFS,蜂房,HCatalog,HBase的,ZooKeeper的,Oozie的,猪八戒和Sqoop。 安巴里还提供了仪表盘查看集群的健康,如热图,并能够查看的MapReduce,Pig和Hive应用在视觉上非常久远的功能,在一个用户友好的方式来诊断其性能特点。
-
Avro™:数据序列化系统。
-
Cassandra™:可扩展的多主数据库与无单点故障。
-
Chukwa™ :数据采集系统,用于管理大型分布式系统。
-
HBase™ :一个可扩展的分布式数据库,支持结构化数据存储大表。
-
Hive™:数据仓库基础设施,提供数据汇总以及特设的查询。
-
Mahout™:一种可扩展的机器学习和数据挖掘库。
-
Pig™:一个高层次的数据流并行计算语言和执行框架。
-
ZooKeeper™:一个高性能的分布式应用程序协调服务。
下载
-
1.2.X -目前的稳定版本,1.2版本
-
2.XX -当前beta版本
-
2.XX 0.23.X -类似,但缺少NN医管局。
-
0.22.X -不包括安全
-
0.20.203.X -遗留下来的稳定版本
-
0.20.X -旧旧版本
发布可以下载来自Apache的镜像。
现在下载一个发行!
所有最近的版本可供选择。
第三方分销产品,包括Apache Hadoop和派生作品,在Apache许可下。 其中一些上市分派维基页面 。
本文作者:记者 来源:CIOZJ
CIO之家 www.ciozj.com 微信公众号:imciow