ApacheHive中如何进行分区,,CIO之家

ApacheHive中如何进行分区

网友　　36大数据　　实践应用　　编辑:Alexia 　　图片来源:网络

ive是用于大数据集查询的好工具——特别是当数据集需要全表扫描时。但用户经常需要对某个列的值进行过滤，这时候分区就非常有效。

Hive 是用于大数据集查询的好工具 —— 特别是当数据集需要全表扫描时。但用户经常需要对某个列的值进行过滤，这时候分区就非常有效。分区是一个包含数据块的目录。当我们做分区的时候，会为某个列的唯一值创建一个分区。

让我们来运行一个简单的示例来了解分区特性。创建分区表的语法是：

create table tablename(colname type) partitioned by(colname type);

如果 hive.exec.dynamic.partition.mode 设置为 strict，那么你至少需要一个静态分区。而 non-stric 模式下，所有的分区都是动态的。

大数据

这里我们创建了一个名为 emp_info 的表，包含两个字段 name 和 address。我们通过列 ID (类型 nt)对表进行分区，然后往表里插入数据。重点需要考虑的时候分区的列的基数(也就是该列包含唯一值的个数)。选择基数很高的列来做分区会导致数据严重的碎片化。不要对数据过分的分区。如果有太多的小分区，那么对这么多的分区目录进行扫描代价也是比较高的，甚至可能比全表扫描还高。

下面是插入 values 的语法：

insert into partition values();

首先我们插入一个 id=1 的记录，然后插入 id=2 的另外一条记录。

现在，进入 Hadoop 文件系统的 /user/hive/warehouse/default/empinfo 目录。

正如我们所看到的，这里有两个分区：一个名是 id=1 ，另外一个 id=2。当我们执行带 where 语句的查询时，就不会进行全表扫描，而只是扫描所需的分区。

大数据

如果你尝试对一个未分区的大数据集表，就会花很长时间，因为要进行全表的扫描。

希望这篇文章对你有用。祝编码快乐!

本文作者:网友来源:36大数据
CIO之家 www.ciozj.com 微信公众号:imciow

免责声明:本站转载此文章旨在分享信息，不代表对其内容的完全认同。文章来源已尽可能注明，若涉及版权问题，请及时与我们联系，我们将积极配合处理。同时，我们无法对文章内容的真实性、准确性及完整性进行完全保证，对于因文章内容而产生的任何后果，本账号不承担法律责任。转载仅出于传播目的，读者应自行对内容进行核实与判断。请谨慎参考文章信息，一切责任由读者自行承担。

延伸阅读