HDFS的体系架构,HADOOP,CIO之家

HDFS的体系架构

AC_great　　中国大数据　　Hadoop　　编辑:泽文　　图片来源:网络

通过对Hadoop分布式计算平台最核心的分布式文件系统HDFS、MapReduce处理过程，以及数据仓库工具Hive和分布式数据库Hbase的介绍，基本涵盖了Hadoop分布式平台的所有技术核心。

　　HDFS的体系架构

　　整个Hadoop的体系结构主要是通过HDFS来实现对分布式存储的底层支持，并通过MR来实现对分布式并行任务处理的程序支持。

　　HDFS采用主从(Master/Slave)结构模型，一个HDFS集群是由一个多个Namenode和多个DataNode组成的(hadoop2.2以后支持多个Namenode)

　　NameNode作为主服务器，管理文件系统命名空间和客户端对文件的访问操作。DataNode管理存储的数据。HDFS支持文件形式的数据。

　　从内部来看，文件被分成若干个数据块，这若干个数据块存放在一组DataNode上。NameNode执行文件系统的命名空间，如打开、关闭、重命名文件或目录等，也负责数据块到具体DataNode的映射。DataNode负责处理文件系统客户端的文件读写，并在NameNode的统一调度下进行数据库的创建、删除和复制工作。NameNode是所有HDFS元数据的管理者，用户数据永远不会经过NameNode。

　　文件写入：

　　1) Client向NameNode发起文件写入的请求。

　　2) NameNode根据文件大小和文件块配置情况，返回给Client它管理的DataNode的信息。

　　3) Client将文件划分为多个block，根据DataNode的地址，按顺序将block写入DataNode块中。

　　文件读取：

　　1) Client向NameNode发起读取文件的请求。

　　2) NameNode返回文件存储的DataNode信息。

　　3) Client读取文件信息。

　　HDFS作为分布式文件系统在数据管理方面可借鉴点：

　　文件块的放置：一个Block会有三份备份，一份在NameNode指定的DateNode上，一份放在与指定的DataNode不在同一台机器的 DataNode上，一根在于指定的DataNode在同一Rack上的DataNode上。备份的目的是为了数据安全，采用这种方式是为了考虑到同一 Rack失败的情况，以及不同数据拷贝带来的性能的问题。

本文作者:AC_great 来源:中国大数据
CIO之家 www.ciozj.com 微信公众号:imciow

　　　　>>频道首页　　 >>网站首页　　纠错　　 >>投诉

版权声明:CIO之家尊重行业规范，每篇文章都注明有明确的作者和来源；CIO之家的原创文章，请转载时务必注明文章作者和来源；

延伸阅读

也许感兴趣的

.Hadoop数据仓库开发实战

.应对Hadoop集群数据疯长,这里祭出了4个治理对策！

.基于Hadoop的数据分析平台搭建

.基于Hadoop的大数据平台实施

.微博广告推荐中有关Hadoop的那些事

.Hadoop生态系统的详细介绍

.Hadoop完全分布式安装Kafka

我们推荐的

.最实用的机器学习算法优缺点分析

.阿里/网易/美团/58用户画像中的ID体系建设

.知识图谱的技术详解与应用

.用户画像技术及方法论

.菜鸟实时数仓技术架构演进

.如何从0到1设计搭建AI售前营销机器人？

.机器学习项目实操指南

.阿里的大数据建设方法论

主题最新

.ClickHouse开发与使用规范大全

.一文搞懂微服务架构演进

.一文详解微服务架构

.迄今为止最完整的DDD实践

.ClickHouse、Doris、 Impala等MPP架构详解

.全链路压测自动化实践

.多维度规划业务架构

.企业架构之业务架构

.基于CLICKHOUSE的数据仓库分层规范

看看其它的

.大数据技术核心之ETL

.Gartner：大数据投资增长,但计划投资的组织机构却在减少

.Spark Hadoop 环境搭建

.MYSQL企业常用架构与调优经验分享

.大道至简的数据分析方法论

.企业实施大数据的路径

.商务智能=数据+分析+决策+利益

.微店的大数据平台建设实践与探讨

上一篇

HBase 数据库检索性能优化策略

下一篇

HDFS的体系架构

作者其它的文章

.HDFS的体系架构

收藏至微信