首页
文章
文库
登录
|
注册
最新
推荐
热门
主题
关注
收藏
反馈
关注公众号
更多关联主题
文章
文档
助力大数据的复杂统计分析-Hive窗口函数
Hive就是在Hadoop上架了一层SQL接口,可以将SQL翻译成MapReduce去Hadoop上执行,这样就使得数据开发和分析人员很方便地使用SQL来完成海量数据的统计和分析......
Hive 中的复合数据结构简介以及一些函数的用法说明
Hive中的复合数据结构简介以及一些函数的用法说明......
项目风险管理失效的三个主要原因
我们大家想其实我们这个世界基本上没有什么东西是确定的,其实可能对于我们大家来说最确定的事就是所有的事情都是不确定的,所以在这种情况下我们会发现其实找风险并不难......
基于Hadoop的数据仓库Hive 基础知识
Hive是基于Hadoop的数据仓库工具,可对存储在HDFS上的文件中的数据集进行数据整理、特殊查询和分析处理,提供了类似于SQL语言的查询语言–HiveQL......
Spark读取日志,统计每个service所用的平均时间
获取log日志,每个service以“#*#”开头。统计每个service所需的平均时间......
Spark之Job调度模式
用户通过不同的线程提交的Job可以并发运行,但是受到资源的限制。Job到调度池(pool)内申请资源,调度池会根据工程的配置,决定采用哪种调度模式。......
Spark之任务调度(DagScheduler & TaskScheduler
在作业调度系统中,调度的基础就在于判断多个作业任务的依赖关系,这些任务之间可能存在多重的依赖关系,也就是说有些任务必须先获得执行,然后另外的相关依赖任务才能执行......
工作日志: hive统计指标
hive生产环境初探查询某个分区的数据量,并测试hive的分区函数......
基于hive的日志数据统计实战
本文结合业务对hive的应用做了一些探索,并把这些经验做一个总结,所谓前车之鉴,希望读者能少走一些弯路。......
hive 抽样统计
算法中可能会需要做抽样。用hive实现了随机抽样中简单随机、系统和分层抽样的方式,记得抽样的概念还是初中数据接触的其实很多时候不需要理论,想也是可以想到的......
Hive统计新增,日活和留存率
用户行为触发的日志上报,已经存放在Hive的外部分区表中.......
使用 Hive 构建数据仓库
对于大数据,问题变得复杂得多,比如一个数据仓库是否够用?答案取决于具体企业。人们声称Hive是Hadoop的数据仓库。尽管从某个层面上讲这是真的,但这种说法也有几分虚假。......
大全集团的数字化转型之路
大全集团明确了提出“数字化企业”的战略,实现从产品设计到制造过程的高度数字化和互联互通,分别建设大全数字化管理、数字化设计、数字化制造平台,通过数字化转型,让大全的管理和运营更加高......
大数据框架对比:Hadoop、Storm、Samza、Spark和Flink
大数据是收集、整理、处理大容量数据集,并从中获得见解所需的非传统战略和技术的总称。......
数据中心运维工程师必备技能
数据中心里有很多设备,而作为一名运维工程师不可能,也没有必要全部掌握,要懂得应该掌握哪些技能,一些基本命令和重要设备的操作一定要掌握......
Spark架构在大数据环境的核心位置找到用武之地
Spark架构便成了一个有限的角色:有关数据索引的聚合细节有助于用户发现相关信息。现在,一切都已改变,而且该公司正在花大力气学习Spark并作为其大数据平台升级版本的一部分。......
企业层面的敏捷开发:可能危害成功的误解
敏捷开发过程保证了好处,但大型企业在他们自己的环境中很难找到适合自己的有效的敏捷方法。它从根本上不同于应用开发和交付的瀑布式方法。......
正常人为什么无法站在用户角度思考
我一直想回答这样一个问题:为什么强调了很多遍,但大部分人就是无法站在用户的角度考虑问题,即使所有人都知道,这是最最重要的一种营销思维?......
Zookeeper设置开启启动
在Centos中将zookeeper设置成开机启动部署了Zookeeper之后,当需要重启机器时,开机后往往需要花一点时间对zookeeper集群进行启动,......
十年美国,十年中国:融合中美技术文化的CTO
十年美国,十年中国。可以说,汤峥嵘的每一次改变和步伐,都会在中国的互联网圈子里有着不小的影响。这一次,他将互联网和创业精神带入到传统教育行业......
你不知道的数据中心数据保护方法
数据中心保护是一个成熟的学科,但仍是数据中心面临的最具挑战性的任务之一。他们经常面临压力,以提供更快的恢复能力。虽然市场是成熟的,但是供应商提供的新的硬件和软件选项可以帮助IT......
2016年数据中心热门技术盘点
2016年即将走完,回顾这近一年以来发生在数据中心圈里的大事小情,一切都还历历在目,但终将成为历史。数据中心的发展靠的是技术驱动,很多的信息技术都是为数据中心量身定做的。......
技术创新的领先公司 最终却走向失败的20个原因
失败是创新创业的默认值”。创新创业的成功不能复制,但失败可以避免。为此,我们可以借鉴一下这些失败项目的原因,总结并从中找出成功的关键。......
麦肯锡:企业把握五大创新趋势
在全球经济并未走出调整期、中国经济步入新常态之际,中国企业欲寻求全新增长动能,则要重新思考并设计企业未来的利润区,通过创新完成企业战略的自我升级......
怎么做商业化思考的产品经理?
随着互联网飞速发展,产品经理也划分好多细分。比如数据产品经理,前端产品经理,后台产品经理,商业产品经理……......
产品经理在团队中的7种角色
一个岗位的价值,从来不是拼头衔(头衔越长的往往越low)。归根到底,得看它扮演的角色。产品狗在团队中,一般有以下几种类型。......
架构大数据分析应用
数据管理比以往更加复杂,到处都是大数据,包括每个人的想法以及不同的形式:广告,社交图谱,信息流,推荐,市场,健康,安全,政府等等.过去的三年里,成千上万的技术必须处理......
运营与增长黑客只差数据驱动
从产品、运营、开发、市场等各个部门来说,其中运营是最讲究用户生命周期的。从用户获取、激活、留存、营收、传播这个经典的2A3R模型可以看到......
App留存进阶:4招提高用户体验,留住用户
留存,顾名思义,就是有多少用户留下来了。对于App运营来说,产品经历了拉新阶段后,该考虑的是怎么留住用户,即留存率的问题。......
kafka+storm+hbase架构设计
kafka作为分布式消息系统,实时消息系统,有生产者和消费者;storm作为大数据的实时处理系统;hbase是apachehadoop的数据库,其具有高效的读写性能......
腾讯运营方法论复盘:0到8亿流水,QQ炫舞在直播红海中的征途
关于0-8亿炫舞梦工厂直播浪潮中夹缝生存之道,本文作者将通过具体的案例以及自身经验来谈谈QQ炫舞在直播红海征途,并以此来复盘以下腾讯运营方法论。......
快速上手运营,你需要这个“五步法”
运营的本质其实很简单,它就是促使用户产生一系列我们想要的行为,比如下载、活跃、留存、付费。但具体实操起来,运营又很复杂。......
Hadoop YARN架构设计要点
YARN是开源项目Hadoop的一个资源管理系统,最初设计是为了解决Hadoop中MapReduce计算框架中的资源管理问题,但是现在它已经是一个更加通用的资源管理系统......
ZooKeeper典型应用场景一览
ZooKeeper中特有watcher注册与异步通知机制,能够很好的实现分布式环境下不同系统之间的通知与协调,实现对数据变更的实时处理。......
详解大数据数据仓库分层架构
大数据数据仓库是基于Hive构建的数据仓库,分布文件系统为HDFS,资源管理为Yarn,计算引擎主要包括MapReduce/Tez/Spark等......
选择可靠的数据中心供应商的七大关键成功因素
随着企业组织努力寻求降低成本,集中信息技术(IT)资源,扩展其服务覆盖面以满足全球市场的需求,他们迫切需要将其服务器存储在安全、放心和良好连接的环境中。......
数据中心网络维护三把斧
网络是数据中心里是最为重要的组成部分,也是技术最为复杂的部分,要对网络运行进行日常维护,故障处理需要掌握不少本领才行。......
大数据云计算最为核心的关键技术:32个算法
奥地利符号计算研究所的ChristophKoutschan博士在自己的页面提到他做了一个调查,参与者大多数是计算机科学家,他请这些科学家投票选出最重要的算法......
TDW开发之HIVE篇
HIVE的诞生将使用MapReduce门槛大大地降低了。Hive是建立在Hadoop上的数据仓库。它定义了简单的类SQL查询语言,称为HQL......
新品商业化的三条关键原则:定价比产品更重要
新产品的失败有很多原因。“但所有创新噩梦的根源是无法将客户的支付意愿置于新产品设计过程的核心地位。大多数公司延迟定价直至产品研发完成。......
Hive 设置map 和 reduce 的个数
通常情况下,作业会通过input的目录产生一个或者多个map任务。主要的决定因素有:input的文件总个数,input的文件大小,集群设置的文件块大小......
Hadoop架构和设计要点
移动计算的代价比之移动数据的代价低。一个应用请求的计算,离它操作的数据越近就越高效,这在数据达到海量级别的时候更是如此。......
hadoop 四种压缩格式
gzip压缩优点:压缩率比较高,而且压缩/解压速度也比较快;Hadoop本身支持,在应用中处理gzip格式的文件就和直接处理文本一样;......
互联网时代运维价值的重塑
运维作为业务发展的后腰团队,一直致力于如何更快更好更省地支撑线上业务,既然是做业务支撑,得随着业务的发展而发展,运维整体水平也往往与业务发展状况和体量正相关......
从天涯到腾讯:10年,不苟且的运维之路 不指定
工作中一次偶然的机会看到导师在黑压压的界面中敲入不同指令,第一感觉非常震撼,很COOL,联想到《黑客帝国》电影中的画面,与之前接触到的Windows系统完全不一样......
使用Sqoop实现HDFS与Mysql互转
Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如:MySQL,Oracle,Postgres等)中的数据导入到Hado......
zookeeper集群部署(分布式)
ZooKeeper可以用来保证数据在zookeeper集群之间的数据的事务一致性。......
sqoop简介与安装配置
SQOOP是用于对数据进行导入导出的。(1)把MySQL、Oracle等数据库中的数据导入到HDFS、Hive、Hbase中......
通过Sqoop实现Mysql / Oracle 与HDFS / Hbase互导
下文将重点说明通过Sqoop实现MySQL与HDFS互导数据,Mysql与Hbase,Oracle与Hbase的互导最后给出命令。......
sqoop实现Mysql、Oracle与hdfs之间数据的互导
通过Sqoop实现Mysql/Oracle与HDFS/Hbase互导数据SQOOP......
hbase优化相关参数说明
note1:值设得越大,意味着内存开销变大,hbase.client.write.buffer*hbase.regionserver.handler.count,hbase.c......
数据中心的三次进化
数据中心已经成为了信息技术高速发展的最佳实验田,几乎所有新的信息技术都最终要在数据中心落地,才算有意义,这间接地带动了数据中心的进步。......
如何避开火箭式创新
切美好的事物都是曲折地接近自己的目标,一切笔直都是骗人的,所有真理都是弯曲的,时间本身就是一个圆圈。精益创业也是如此。......
如何构建你的产品技能金字塔
从产品新人到一名合格的产品经理,其实中间差的就是一个完整的产品技能金字塔:当把所有工作中遇到的问题都自己去找到答案,像做填空题一样慢慢搭建自己的产品知识体系......
IT中的项目管理
项目管理一直是一个老生常谈的问题,我们身边项目时时刻刻发生,大到火箭上天,小到家庭装修。老K作为技术出身,大大小小也做了不下50个项目,这里老K从IT的角度,带领大家用理论的知识分......
Google和BAT是如何摆脱“创新者窘境”的?
科技爆炸的时代,任何已有的成就都会被未来的创新所颠覆。而伞形结构帮助企业在可控的代价下开拓新领域,延伸生态圈,不论是转型中传统企业,还是即将面临困境的互联网公司,都值得借鉴。......
人资管理项目经理如何进行绩效考核
项目经理没有对项目组成员的绩效考核权或者影响力太小,当然这是相对于职能经理的行政管理权力而言的。......
项目经理12条准则
富有效果地进行项目管理工作的一个重要准则就是尽可能在第一时间对各类事项做出正确的处理,这些事项包括进度安排、构建团队、明确项目内容和制定预算。......
ZooKeeper的基本原理
在分布式应用中,经常会出现部分失败的情况,即当节点间传递消息的时候由于网络或者接收者进程死掉等原因,发送者无法知道接收者是否收到消息。......
ZooKeeper的核心特性
文件系统也是一个树形的文件系统,但比Linux系统简单,不区分文件和文件夹,所有的文件统一称为znode......
首页
上一页
1
2
3
4
5
6
7
8
9
10
下一页
尾页
运维
主题文档
IT运维
信息安全与IT运维
自动化运维中的关系管理
自动化运维平台
阿里巴巴运维自动化的探索与规划
从运维系统开发谈安全架构设计
信息服务型网站的技术架构与运维方式
it运维项目方案
基于ITIL思想的IT运维经验分享
某IT运维管理项目建设规划