hive抽样统计,大数据,HADOOP,虚拟化,运维,云计算,大数据,安装,环境配置,HADOOP教程,,CIO之家

hive抽样统计

网友　　songpo-　　Hadoop　　编辑:首君　　图片来源:网络

算法中可能会需要做抽样。用hive实现了随机抽样中简单随机、系统和分层抽样的方式，记得抽样的概念还是初中数据接触的其实很多时候不需要理论，想也是可以想到的

算法中可能会需要做抽样。用hive实现了随机抽样中简单随机、系统和分层抽样的方式,记得抽样的概念还是初中数据接触的

其实很多时候不需要理论,想也是可以想到的,不过还是总结一下

0.测试表:

Sql代码

drop table songpo_test;

create table if not exists songpo_test

(

refund_id string,

user_id string,

cat_id string,

cat2_id string,

org_id string,

gmt_create string

)

partitioned by(pt string)

row format delimited

fields terminated by ','

lines terminated by '\n' STORED AS SEQUENCEFILE;

1. 简单随机抽样 (rand()) 从表中,随机打标,排序,随机抽取100个用户数据

步骤 1). 给每行记录一个相同的标记

2). 排序,取前100

Sql代码

sql:

select *

from(

select user_id,flag from (select user_id,'1' as flag from songpo_test) x

distribute by user_id sort by user_id,flag desc

where row_number(user_id)<=100;

2.系统抽样 mod,rand() 依照userrid取模,分5组,每组随机抽取100个用户,实现如:

1). 依据user_id,取模,获取 mod_numd

2). 在mod_num组内然后随机排序,

3). 从各组取出20条

Sql代码

sql:

select *

from(

select refund_id,user_id,mod_num,rank_num from (select refund_id,user_id,cast(10+rand()*100 as double) rank_num,user_id%5 as mod_num from songpo_test)

distribute by mod_num sort by mod_num,rank_num desc

where row_number(mod_num)<=20;

3.分层抽样按照每个组的记录数来分层抽样。假设需要抽取EXTRA_NUM条记录

1). 计算每个分区需要抽记录条数

2). 在mod_num组内然后随机排序,

3). 从各组取出cat_extra_num条

Sql代码

drop table test_data_extra_indexs;

create table test_data_extra_indexs as

select a.cat_id,cat_num,all_num,cat_num/all_num as extra_lv,(cat_num/all_num)*'EXTRA_NUM' as cat_extra_num,c.refund_id,c.user_id,c.org_id from

(select cat_id,count(1) as cat_num,'1' as key from songpo_test group by cat_id) a

join

(select '1' as key,count(1) as all_num from songpo_test) b

on a.key=b.key

join

(select * from songpo_test) c

on a.cat_id=c.cat_id;

select *

from(

select refund_id,user_id,cat_id,mod_num,rank_num from

select refund_id,user_id,cat_id,cast(10+rand()*100 as double) rank_num,user_id%5 as mod_num,cat_extra_num from(

(select refund_id,user_id,cat_id,cast(10+rand()*100 as double) rank_num,user_id%5 as mod_num from test_data_extra_indexs) x

)

distribute by mod_num sort by mod_num,rank_num desc

where row_number(mod_num)<=20;

本文作者:网友来源:songpo-
CIO之家 www.ciozj.com 微信公众号:imciow

　　　　>>频道首页　　 >>网站首页　　纠错　　 >>投诉

延伸阅读

也许感兴趣的

.大数据安全体系介绍之技术体系篇

.大数据开发流程及规范

.大数据技术名词解释

.大数据常见问题之数据倾斜

.详解大数据批流处理中的两大架构

.什么是大数据战略以及如何构建

.大数据的数据治理与应用场景

我们推荐的

.最实用的机器学习算法优缺点分析

.阿里/网易/美团/58用户画像中的ID体系建设

.知识图谱的技术详解与应用

.用户画像技术及方法论

.菜鸟实时数仓技术架构演进

.如何从0到1设计搭建AI售前营销机器人？

.机器学习项目实操指南

.阿里的大数据建设方法论

主题最新

.ClickHouse开发与使用规范大全

.一文搞懂微服务架构演进

.一文详解微服务架构

.迄今为止最完整的DDD实践

.ClickHouse、Doris、 Impala等MPP架构详解

.全链路压测自动化实践

.多维度规划业务架构

.企业架构之业务架构

.基于CLICKHOUSE的数据仓库分层规范

看看其它的

.hive 抽样统计

Hive统计新增,日活和留存率

hive 抽样统计

作者其它的文章

.干了5年程序员，该如何转行

.如何做好用户留存

.一文带你掌握推荐系统

.微服务的数据库设计

.Kafka、RabbitMQ、RocketMQ等消息中间件介绍和对比

.产品经理可能用到的专业术语

收藏至微信

广告