HiveQLSELECT语句查询

CIO之家的朋友　　简书　　Hadoop　　编辑:帅癌晚期　　图片来源:网络

HIVE总是按照从左到右的顺序执行的。嵌套SELECT语句会按照要求执行“下推”过程,在数据进行连接操作之前会先进行分区过滤。

HIVE总是按照从左到右的顺序执行的。
嵌套SELECT 语句会按照要求执行“下推”过程,在数据进行连接操作之前会先进行分区过滤。
SELECT 和WHERE 语句中不能引用到右边表中的字段。

1、select....from语句

select是SQL中的射影算子。From子句标识了从哪个表、视图、嵌套查询中选择记录。
SELECT:指定了要保存的列以及输出函数需要调用的一个或多个列。

2、使用正则表达式来指定列

比如例子一表stocks中选择symbol列和所有列名以price为前缀的列:
SELECT symbol,'price.*' FROM stocks;

3、使用列值进行计算

用户不但可以选择表中的列,还可以使用函数调用和算术表达式操作列值。

employees表查询:
SELECT upper(name),salary,deductions["Federal Taxes"],round(salary * (1- deductions["Federal Taxes"])) FROM employees;

4.聚合函数

可以通过设置属性hive.map.aggr值为true来提高聚合的性能。
SET hive.map.aggr=ture;
查询employees表有多少员工,以及他们的平均薪水:SELECT count(*),avg(salary) FROM employees;
SELECT count(DISTINCT symbol) FROM stocks;
SELECT count(DISTINCT ymd),count(DISTINCT volume) FROM stocks;

5.表生成函数

与聚合函数相反就是表生成函数,其可以将单列扩展成多列或者多行。

SELECT explode(subordinates) AS sub 
FROM employees;

6.LIMIT语句

典型的查询会返回多行数据,limit子句用于限制返回的函数。

SELECT upper(name),salary,deductions["Federal Taxes"],round(salary * (1- deductions["Federal Taxes"]))

FROM employees LIMIT 2;

7.列别名

列别名:返回一个由新列组成的新的关系。

SELECT upper(name),salary,deductions["Federal Taxes"] as fed_taxes,round(salary * (1- deductions["Federal Taxes"])) as salary_minus_fed_taxes

FROM employees;

8.嵌套SELECT 语句

SELECT e.name,e.salary_minus_fed_taxes

FROM (SELECT upper(name),salary,deductions["Federal Taxes"] as fed_taxes,round(salary * (1- deductions["Federal Taxes"])) as salary_minus_fed_taxes FROM employees) e

WHERE e.salary_minus_fed_taxes >70000;

#9.CASE.....WHEN....THEN句式

CASE...WHEN...THEN语句和fi条件语句类似,用于处理单个列的查询结果。

SELECT name,salary,

CASE

WHEN salary <50000.0 THEN 'low'

WHEN salary >= 50000.0 AND salary < 70000.0 THEN 'middle'

WHEN salary >= 70000.0 AND salary < 100000.0 THEN 'high'

ELSE 'very high'

END AS bracket FROM employees;

#10.什么情况下hive可以避免进行MapReduce

本地模式执行其他的操作:`set hive.exec.mode.local.auto=true;`

SELECT *

FROM employees

WHERE coutry ='US' AND state='CA' LIMIT 100;`

#11.WHERE 语句

SELECT 语句用于选取字段,WHERE语句用于过滤条件,两者结合使用可以查找到符合过滤条件的记录。

#12.LIKE和RLIKE

SELECT *

FROM employees

WHERE address.street LIKE '%Ave.';

从employees 表中查找所有地址的街道名称中含有单词Chicago或Ontario的信息

`SELECT * FROM employees WHERE address.street RLIKE '.*(Chicago| Ontario).*';`

等价于

`SELECT * FROM employees WHERE address.street LIKE '%Chicago%' OR address.street LIKE '%Ontario%';`

其中关键字RLIKE后面的字符串含义:字符串中的点号(.)表示和任意的字符匹配,星号(*)表示重复左边的字符串(为点号)零次到无数次。

#13.JOIN语句

Hive支持通常的SQL JOIN语句,但是只支持等值连接。

INNER JOIN:内连接,只有进行连接的两个表中都存在与连接标准相匹配的数据才会保留下来。

ON:ON子句指定了两个表间数据进行连接的条件。

WHERE子句:限制了左边表是AAPL的记录,右边表是IBM的记录。

SELECT a.ymd,a. ,b.price_close

FROM stocks a JOIN stocks b

ON a.ymd=b.ymd

WHERE a.symbol='AAPL' AND b.symbol='IBM';

#14.LEFT OUTER JOIN

LEFT OUTER JOIN左外连接通过关键字LEFT OUTER进行标识

在这种JOIN连接操作中,JOIN操作符左边表中符合WHERE子句的所有记录将会被返回。JOIN操作符右边表中如果没有符合ON后面连接条件的记录时,那么从右边表指定选择的列的值将会是NULL。

SELECT s.ymd,s.symbol,s.price_close,d.dividend

FROM stocks s LEFT OUTER JOIN dividends d ON s.ymd=d.ymd AND s.symbol=d.symbol

WHERE s.symbol = 'AAPL'

#15.RIGHT OUTER JOIN

右外连接会返回右边表所有符合WHERE语句的记录。左表中匹配不上的字段值用NULL代替。

SELECT s.ymd,s.symbol,s.price_close,d.dividend

FROM stocks s RIGHT OUTER JOIN dividends d ON s.ymd=d.ymd AND s.symbol=d.symbol

WHERE s.symbol = 'AAPL'

#16.FULL OUTER JOIN

全连接将会返回所有表中符合WHERE语句条件的所有记录。如果任一表的指定字段没有符合条件的值的话,那么就使用NULL值替代。

SELECT s.ymd,s.symbol,s.price_close,d.dividend

FROM stocks s FULL OUTER JOIN dividends d ON s.ymd=d.ymd AND s.symbol=d.symbol

WHERE s.symbol = 'AAPL'

#17.LEFT SEMI-JOIN(hive不支持右半开连接)

左半开连接(LEFT SEMI-JOIN)会返回左边表的记录,前提是其记录对于右边表满足ON语句中的判定条件。

MYSQL语句,Hive中不支持这个操作

SELECT s.ymd,s.symbol,s.price_close

FROM stocks s

WHERE s.ymd,s.symbol IN (SELECT d.ymd,d.symbol FROM dividends d);

HIVE中可以切换为

SELECT s.ymd,s.symbol,s.price_close

FROM stocks s LEFT SEMI JOIN dividends d

ON s.ymd=d.ymd AND s.symbol = d.symbol;

本文作者:CIO之家的朋友来源:简书
CIO之家 www.ciozj.com 微信公众号:imciow

　　　　>>频道首页　　 >>网站首页　　纠错　　 >>投诉

延伸阅读

也许感兴趣的

.Hadoop数据仓库开发实战

.应对Hadoop集群数据疯长,这里祭出了4个治理对策！

.基于Hadoop的数据分析平台搭建

.基于Hadoop的大数据平台实施

.微博广告推荐中有关Hadoop的那些事

.Hadoop生态系统的详细介绍

.Hadoop完全分布式安装Kafka

我们推荐的

.最实用的机器学习算法优缺点分析

.阿里/网易/美团/58用户画像中的ID体系建设

.知识图谱的技术详解与应用

.用户画像技术及方法论

.菜鸟实时数仓技术架构演进

.如何从0到1设计搭建AI售前营销机器人？

.机器学习项目实操指南

.阿里的大数据建设方法论

主题最新

.ClickHouse开发与使用规范大全

.一文搞懂微服务架构演进

.一文详解微服务架构

.迄今为止最完整的DDD实践

.ClickHouse、Doris、 Impala等MPP架构详解

.全链路压测自动化实践

.多维度规划业务架构

.企业架构之业务架构

.基于CLICKHOUSE的数据仓库分层规范

看看其它的

.企业架构之业务架构

.产品需求管理规范指导

.常见的人力资源管理模型

.为什么要给数据库分层

.如何进行业务分析

.精益生产的12条原则

.稻盛和夫给管理者的60个忠告

.项目建设方案的基本要素

Python结合RFM模型实现用户分层

HiveQL SELECT语句查询

作者其它的文章

.运维指标体系在银行业务的应用实践

.ClickHouse、Doris、 Impala等MPP架构详解

.数据架构建设方法及案例

.ERP 的管理思想

.数据治理在国有企业数字化转型中的核心地位

.业财一体化的关键：业务流程和财务流程的联通融合

收藏至微信

1、select....from语句

2、使用正则表达式来指定列

3、使用列值进行计算

4.聚合函数

5.表生成函数

广告