ApacheHive中如何进行分区,,CIO之家

ApacheHive中如何进行分区

网友　　36大数据　　Hadoop　　编辑:Alexia 　　图片来源:网络

ive是用于大数据集查询的好工具——特别是当数据集需要全表扫描时。但用户经常需要对某个列的值进行过滤，这时候分区就非常有效。

Hive 是用于大数据集查询的好工具 —— 特别是当数据集需要全表扫描时。但用户经常需要对某个列的值进行过滤，这时候分区就非常有效。分区是一个包含数据块的目录。当我们做分区的时候，会为某个列的唯一值创建一个分区。

让我们来运行一个简单的示例来了解分区特性。创建分区表的语法是：

create table tablename(colname type) partitioned by(colname type);

如果 hive.exec.dynamic.partition.mode 设置为 strict，那么你至少需要一个静态分区。而 non-stric 模式下，所有的分区都是动态的。

大数据

这里我们创建了一个名为 emp_info 的表，包含两个字段 name 和 address。我们通过列 ID (类型 nt)对表进行分区，然后往表里插入数据。重点需要考虑的时候分区的列的基数(也就是该列包含唯一值的个数)。选择基数很高的列来做分区会导致数据严重的碎片化。不要对数据过分的分区。如果有太多的小分区，那么对这么多的分区目录进行扫描代价也是比较高的，甚至可能比全表扫描还高。

下面是插入 values 的语法：

insert into partition values();

首先我们插入一个 id=1 的记录，然后插入 id=2 的另外一条记录。

现在，进入 Hadoop 文件系统的 /user/hive/warehouse/default/empinfo 目录。

正如我们所看到的，这里有两个分区：一个名是 id=1 ，另外一个 id=2。当我们执行带 where 语句的查询时，就不会进行全表扫描，而只是扫描所需的分区。

大数据

如果你尝试对一个未分区的大数据集表，就会花很长时间，因为要进行全表的扫描。

希望这篇文章对你有用。祝编码快乐!

本文作者:网友来源:36大数据
CIO之家 www.ciozj.com 微信公众号:imciow

　　　　>>频道首页　　 >>网站首页　　纠错　　 >>投诉

版权声明:CIO之家尊重行业规范，每篇文章都注明有明确的作者和来源；CIO之家的原创文章，请转载时务必注明文章作者和来源；

延伸阅读

也许感兴趣的

.业财深度融合下的财务共享建设路径

.供应链管理的绩效考核指标

.看透SAAS企业好坏的16个关键指标

.SaaS产品的五类核心指标

.构建普适通用的企业网络安全体系框架

.大数据安全体系介绍之技术体系篇

.构建知识图谱：从技术到实战的完整指南

我们推荐的

.最实用的机器学习算法优缺点分析

.阿里/网易/美团/58用户画像中的ID体系建设

.知识图谱的技术详解与应用

.用户画像技术及方法论

.菜鸟实时数仓技术架构演进

.如何从0到1设计搭建AI售前营销机器人？

.机器学习项目实操指南

.阿里的大数据建设方法论

主题最新

.ClickHouse开发与使用规范大全

.一文搞懂微服务架构演进

.一文详解微服务架构

.迄今为止最完整的DDD实践

.ClickHouse、Doris、 Impala等MPP架构详解

.全链路压测自动化实践

.多维度规划业务架构

.企业架构之业务架构

.基于CLICKHOUSE的数据仓库分层规范

看看其它的

.App数据分析到底要分析什么

.深度解析京东个性化推荐系统演进史

.常见的七种Hadoop和Spark项目案例

.如何基于 Spark Streaming 构建实时计算平台

.六大主流大数据采集平台架构分析

.横向对比三大分布式机器学习平台：Spark、PMLS、TensorFlow

.IT公司如何构建数据科学部门

.Tensorflow实践：CNN实现MNIST手写识别模型

上一篇

解决Spark数据倾斜（Data Skew）的N种姿势

下一篇

Apache Hive中如何进行分区

作者其它的文章

.干了5年程序员，该如何转行

.如何做好用户留存

.一文带你掌握推荐系统

.微服务的数据库设计

.Kafka、RabbitMQ、RocketMQ等消息中间件介绍和对比

.产品经理可能用到的专业术语

收藏至微信