首页
知识
文库
登录
|
注册
首页
最近更新
所有主题
我的主题
我的收藏
分类首页
互联网
IT科技
新零售
人物
企业
首页
·
资讯
·
大数据
·
Hadoop
数仓中指标-标签,维度-度量,自然键-代理键等各名词深度解析
作为一个数据人,是不是经常被各种名词围绕,是不是对其中很多概念认知模糊。有些词虽然只有一字之差,但是它们意思完全不同......
HiveQL SELECT语句查询
HIVE总是按照从左到右的顺序执行的。嵌套SELECT语句会按照要求执行“下推”过程,在数据进行连接操作之前会先进行分区过滤。......
大厂都在用的Hive优化
使用Hive过程中,面对各种各样的查询需求,需要具有针对性的优化下面内容就给大家分别介绍下。......
数仓缓慢变化维深度讲解
为解决缓慢变化维问题的几种办法:保留原始值改写属性值增加维度新行增加维度新列添加历史表......
在Hive上构建数据仓库使用的数据模型
针对大数据Hadoop体系中,Hive作为数据仓库工具;但是对于大数据中数据仓库上构建数据模型的方法和传统的关系数据库的方法......
知乎的数据同步建设、工具选型及平台化实践
从数仓建设的角度思考,数据仓库需要依赖于稳定和规范的数据源,数据需要经过采集加工后才能真正被数仓所使用。推动数据同步服务的平台化,才有可能从源头规范数据的产出。数据同步服务不像数据......
应对Hadoop集群数据疯长,这里祭出了4个治理对策!
在目前规模比较大的互联网公司中,总数据量能达到10PB甚至几十PB数据量的公司,我认为中国已经有超过了20家了。而在这些公司中,也有很多家公司的日数据增长达到100TB+了。所以我们每天都要观察......
基于Hadoop的大数据平台实施
大数据平台架构设计沿袭了分层设计的思想,将平台所需提供的服务按照功能划分成不同的模块层次,每一模块层次只与上层或下层的模块层次进行交互(通过层次边界的接口),避免跨层的交互,这种设计......
Hive窗口函数之累积值、平均值、首尾值的计算学习
Hive窗口函数可以计算一定范围内、一定值域内、或者一段时间内的累积和以及移动平均值等;可以结合聚集函数SUM()、AVG()等使用;可以结合FIRST_VALUE()和LAST_VALUE(),返回窗口的第一个和最后......
微博广告推荐中有关Hadoop的那些事
微博,一个DAU上亿、每日发博量几千万的社交性产品,拥有庞大的数据集。如何高效得从如此规模的数据集中挖掘出有价值的信息,以增强用户粘性,提高信息传播速度,就成了重中之重。因此,我们引......
深入了解HBase架构
从物理结构上讲,HBase由三种类型的服务器构成主从式架构。RegionServers为数据的读取和写入提供服务。当访问数据时,客户端直接和RegionServers通信。Region的分配,DDL(create,deleteta......
Hive 元数据表结构详解
本文介绍Hive元数据库中一些重要的表结构及用途,方便Impala、SparkSQL、Hive等组件访问元数据库的理解。......
大家在关注
数仓中指标-标签,维度-度量,自然键-代理键等各名词深度解析
HiveQL SELECT语句查询
大厂都在用的Hive优化
数仓缓慢变化维深度讲解
在Hive上构建数据仓库使用的数据模型
知乎的数据同步建设、工具选型及平台化实践
应对Hadoop集群数据疯长,这里祭出了4个治理对策!
基于Hadoop的大数据平台实施
Hive窗口函数之累积值、平均值、首尾值的计算学习
微博广告推荐中有关Hadoop的那些事
我们的推荐
应对Hadoop集群数据疯长,这里祭出了4个治理对策!
Hive聚合函数及采样函数详解
java 调用hbase api创建hbase分区表
助力大数据的复杂统计分析-Hive窗口函数
使用 Hive 构建数据仓库
TDW开发之HIVE篇
如何将MapReduce转化为Spark
非关系性分布式数据库:HBase
hbase基本介绍
顺便看看