首页
文章
文库
登录
|
注册
最新
推荐
热门
主题
关注
收藏
反馈
关注公众号
更多关联主题
文章
文档
如何在万亿级别规模的数据量上使用Spark
本文主要是通过作者在搭建使用计算平台的过程中,写出对于Spark的理解,并且介绍了Spark在当前的DataMagic是如何使用的,当前平台已经用于架平离线分析,每天计算分析的数据量已经达到千亿~万亿......
10大机器学习算法
想成为数据科学家?你得是个博闻强识,又对新鲜事物保持好奇心的人。正因为如此,数据科学家会掌握几乎所有的常见算法,并精通其中一门,这样可以快速适应新领域的问题。......
数据中心网络技术面临的三大难题
网络本来是数据中心里最为稳定的一部分,技术几十年下来并未发生根本性的变化。然而,随着互联网的普及、云计算和大数据等新技术的兴起,网络成为了最大的一块阻碍数据中心发展的绊脚石......
内容算法时代,如何引爆用户流量?
对于算法分发很多人会有所误解,这或许源自远观而缺乏了解,才会觉得算法猛如虎。而当你走近了算法分发,有了一定的了解之后,可能会有重新的认知:算法如虎,细嗅蔷薇。......
美团点评广告实时索引的设计与实现
在线广告是互联网行业常见的商业变现方式。从工程角度看,广告索引的结构和实现方式直接决定了整个系统的服务性能。本文以美团点评的搜索广告系统为蓝本,与读者一起探讨广告系统的工程奥秘。......
Hive窗口函数之累积值、平均值、首尾值的计算学习
Hive窗口函数可以计算一定范围内、一定值域内、或者一段时间内的累积和以及移动平均值等;可以结合聚集函数SUM()、AVG()等使用;可以结合FIRST_VALUE()和LAST_VALUE(),返回窗口的第一个和最后......
四种数据处理方式比较:传统 ETL 工具、Mapreduce、Hive、Spar
无论何时数据处理在大数据的生态中始终处于不可缺少的地位,因为数据处理的时效性行,准确性直接影响数据的分析与挖掘,分析的最终结果影响业务的营销与收入。......
传统企业在大数据分析上所面临的关键问题
实现数据驱动有两个关键环节:一是数据采集,二是数据分析。对于传统企业来说,往往是这两点都不太具备条件。......
主流的三种kafka监控程序
主流的三种kafka监控程序分别为:KafkaWebConsloleKafkaManagerKafkaOffsetMonitor......
kafka界面管理安装
KafkaWebConsole是kafka的开源web监控程序.功能介绍如下:brokers列表连接kafka的zk集群列表所有topic列表,操作相应topic可以浏览查看相应message生产和消费流量图.......
容灾和数据备份的区别
随着大数据信息时代的到来,任何行业的数据都是以暴涨的形式增长,让企业管理者对于数据的安全问题甚为担忧。尽管我们一再小心谨慎还是不可避免的出现各种各样的灾难。而这里的灾难主要是指自然......
微博广告推荐中有关Hadoop的那些事
微博,一个DAU上亿、每日发博量几千万的社交性产品,拥有庞大的数据集。如何高效得从如此规模的数据集中挖掘出有价值的信息,以增强用户粘性,提高信息传播速度,就成了重中之重。因此,我们引......
深入了解HBase架构
从物理结构上讲,HBase由三种类型的服务器构成主从式架构。RegionServers为数据的读取和写入提供服务。当访问数据时,客户端直接和RegionServers通信。Region的分配,DDL(create,deleteta......
实施数据治理项目是数据中心建设的关键
企业数字化转型趋势是“数据”引领业务变革,数据集中管控成为大势所趋,如何做好数据共享和数据分析、如何发挥数据资产价值最大化是我们信息化工作首要目标......
您真的了解人工智能吗
人工智能技术已逐渐步入主流行业,企业寻求通过应用人工智能建立持续的竞争优势。但人工智能并非“即买即用”的产品,管理者们需要积极了解人工智能基础技术、应用模块和发展现状,才能更好地掌......
大数据架构系统部署应用介绍
这篇文章将给大家介绍下大数据项目中用到的各技术框架知识,并通过一个实际项目的分布式集群部署和实际业务应用来详细讲述大数据架构是如何构建的,供大家参考。......
从0到N建立高性价比的大数据平台
每一个大数据平台都不是凭空而起的,每个企业刚刚开始数据分析的时候,也不是上来就是一个大数据开源平台Hadoop、Spark这样一个存储的。本文中易观CTO郭炜将为大家分享人员和从0到N建立高性价比......
上线一个机器学习项目你需要哪些准备
Canvas是用于设计和记录机器学习系统的模板。它比简单的文本文档具有优势,因为Canvas用简单的部件通过部件之间的相关性来寻找机器学习系统的关键组件。这个工具已经很流行,因为它对复杂项目进......
20个顶级大数据软件应用程序
对于大数据软件而言,成功的关键是为企业提供基础应用程序和工具来构建自定义应用程序。以下是20家专门从事大数据构建或相关业务的企业所提供的应用程序。......
人工智能与大数据开发的个注意点
人工智能是近年来科技发展的重要方向,在大数据时代,对数据采集、挖掘、应用的技术越来越受到瞩目。在人工智能和大数据的开发过程中,有哪些特别需要注意的要点?......
Spark及Spark Streaming核心原理及实践
本文依次从spark生态,原理,基本概念,sparkstreaming原理及实践,还有spark调优以及环境搭建等方面进行介绍,希望对大家有所帮助。......
大数据研究常用软件工具与应用场景
本文针对研究人员(非技术人员)的实际情况,介绍当前大数据研究涉及的一些主要工具软件(因为相关软件众多,只介绍常用的),并进一步阐述其应用特点和适合的场景,以便于研究人员能有的放矢的学习......
大数据从何而来?
我们都知道一句话“巧妇难为无米之炊”,数据源就是让数据产生价值中的那些大米。那大数据时代企业需要哪些数据呢?......
大数据平台数据脱敏介绍
针对于大数据平台对于数据脱敏的需求,本文分析了数据泄露可能带来的风险,介绍了数据脱敏技术的理论基础与实现方式,同时简单分析了大数据平台的隐私数据脱敏技术方向。本文讨论的均是基于离线......
Hive 元数据表结构详解
本文介绍Hive元数据库中一些重要的表结构及用途,方便Impala、SparkSQL、Hive等组件访问元数据库的理解。......
Hive、HBase、Impala的简单对比
一句话描述Hive:hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。Hive支持HSQL,是一种......
YARN资源管理的最佳实践
ResourceManager(RM)和每个从属节点(NM)构成数据计算框架。ResourceManager拥有在系统中的所有应用程序之间仲裁资源的最终权力。NodeManager是每个机器的架构代理,负责监视容器的资源使用......
扎进机器学习前应该知道的那些事儿
本文简单总结了机器学习的几大任务及其对应的方法,方便初学者根据自己的任务选择合适的方法。当掌握机器学习基本知识以及清楚自己所要处理的任务后,应用机器学习就不会那么难了。......
制造业数字化转型的新运营架构
制造业数字化转型将一切围绕着企业更高的效益作为核心出发点,需要重新整合人、流程与技术,实现卓越运营的框架与机制,必须扫描工业物联网与大数据等相关领先技术,从而实现IT-OT的融合。......
美团酒旅实时数据规则引擎应用实践
美团点评酒旅运营需求在离线场景下,已经得到了较为系统化的支持,通过对离线数据收集、挖掘,可对目标用户进行T+1触达,通过向目标用户发送Push等多种方式,在一定程度上提高转化率。......
25个深度学习开源数据集
深度学习(或生活中的大部分领域)的关键是演练。演练各种问题-从图像处理到语音识别。每个问题都有其独特的细微差别和方法。但是,哪里可以获得这些数据?......
深度学习模型近年来重要进展
1943年出现雏形,1958年研究认知的心理学家Frank发明了感知机,当时掀起一股热潮。后来MarvinMinsky(人工智能大师)和SeymourPapert发现感知机的缺陷:不能处理异或回路、计算能力不足以处理大......
大数据面试题
在单机模式(standalone)中不会存在守护进程,所有东西都运行在一个JVM上。这里同样没有DFS,使用的是本地文件系统。单机模式适用于开发过程中运行MapReduce程序,这也是最少使用的一个模式。3......
这六种消费心理你不懂 就不要满嘴乱跑管理热词了
增长黑客、精准营销、大数据决策、人工智能……越来越多的高精尖技术,簇拥成一波又一波的商业热潮,被企业疯狂追捧,他们希望以此来洞察看似难以取悦的消费者。......
大数据怎么总喜欢“杀熟”?
算法能让预测更准确,但也会带来风险,尤其是在我们不理解这些算法的情况下。一个例子是社交媒体。很多社交网站通过算法决定推送哪些广告和链接,如果设计算法时过于侧重点击量,“骗点击”的内......
想要成为数据科学家?知道这11种机器学习算法吗?
机器学习从业者都有不同的个性,虽然其中一些人会说“我是X方面的专家,X可以训练任何类型的数据”,其中X是某种算法。......
大数据环境下互联网行业数据仓库
在互联网行业,除了数据量大之外,越来越多的业务要求时效性,甚至很多是要求实时的,另外,互联网行业的业务变化非常快,不可能像传统行业一样,可以使用自顶向下的方法建立数据仓库......
数据中的商机
这十几年的经历,有很多值得讨论的话题,今天我和大家聊一下数据商业化的实践和心得,我会分享四部分:对数据生意本质的认知数据行业产品化商业化的核心思考......
信息化IT与数字化DT的区别在哪里?
在大数据的推动下,“数字化”理念已经渗透到各个领域,大家不再谈“信息化”,开始谈“数字化”,软件企业更是最积极的吹鼓手。......
怎么实现每天数百亿用户行为数据,怎么实现秒级fen'xi
用户行为分析是数据分析中非常重要的一项内容,在统计活跃用户,分析留存和转化率,改进产品体验、推动用户增长等领域有重要作用。美团点评每天收集的用户行为日志达到数百亿条,如何在海量数据......
关于大数据你应该了解的五件事儿
随着科技的发展,目前已经步入了大数据的时代,很多社交媒体和互联网公司也非常关注大数据这一行业。那么对于大数据而言,这里有五件事情是你应该了解的。......
终于有人把云计算、大数据和人工智能讲明白了!
一般谈云计算的时候会提到大数据、谈人工智能的时候会提大数据、谈人工智能的时候会提云计算……感觉三者之间相辅相成又不可分割。......
2018 排名前 10 的 AI 开源项目
大部分信息收集可能围绕着开源解决方案。许多领先的人工智能工具都可以通过开源许可证获得,许多尖端的研究和开发工作都在这些开源项目上进行。......
人工智能将为传统制造业带来什么?
由人工智能、大数据、云计算、5G通信、物联网等为代表的一系列技术簇将使未来的制造业从价值链、生产模式、商业模式、产品设计等多方面发生本质上的变化。......
机器学习必备的数学基础有哪些?
线性代数,概率统计,还有最优化,那么任何复杂的算法实际上都是由这三者的结合叠加所构造出来的,那么这三者在机器学习当中他们起到的作用分别是什么呢?我们可以具体地来看一看。......
人工智能、机器学习和深度学习的区别
人工智能并不是一个新的术语,它已经有几十年的历史了,大约从80年代初开始,计算机科学家们开始设计可以学习和模仿人类行为的算法。......
海量小文件的开源存储方案选型建议
HDFS缺乏多租户、纠删码(据称2017年底特性提供,但稳定性待验证)、配额管理、数据快照、跨数据中心容灾等重要的存储特性,无法作为一个普适性的企业存储使用,仅适合专用于大数据分析存储。......
大数据入门的四个必备常识
大数据分析的使用者有大数据分析专家,同时还有普通用户,但是他们二者对于大数据分析最基本的要求就是可视化分析,因为可视化分析能够直观的呈现大数据特点,同时能够非常容易被读者所接受,就如同......
如何正确构建数据平台
选择数据平台时该考虑什么?对于在组织的整个数据架构中构建更高效的数据平台来说,选择正确的数据存储类型至关重要。......
大数据流处理平台的技术选型参考
技术没有最好,只有最适用。在做技术选型时,需要选择适合需求、适合项目类型、适合团队的技术。这是实用主义的判断,而非理想主义的追捧。若是在实用的技术选型中,再能点燃一些些技术上的情怀......
苏宁基于Spark Streaming的实时日志分析系统实践
目前业界基于Hadoop技术栈的底层计算平台越发稳定成熟,计算能力不再成为主要瓶颈。多样化的数据、复杂的业务分析需求、系统稳定性、数据可靠性,这些软性要求,逐渐成为日志分析系统面对的主要......
新一代企业数字化整体架构下的工业互联网
工业互联网虽然最早来自从事工业装备制造的通用电气公司,但它所采用的标志性技术,除了智能设备技术之外,物联网技术、大数据技术和分析技术都是典型的IT技术。......
深度学习在IoT大数据和流分析中的应用
深度学习和IoT近年来受到研究人员和商业领域的广泛关注,这两项技术对我们的生活、城市和世界都产生了积极的影响。IoT和深度学习构成了一个数据生产者-消费者链,其中IoT生成由深度学习模型分析......
大数据治理关键技术解析
在企业数据建设过程中,大数据治理受到越来越多的重视。从企业数据资产管理和提升数据质量,到自服务和智能化的数据应用,大数据治理的内容在不断地发展和完善,其落地实施的过程中会遇到各种各......
谈大数据时代的数据治理
数据资产管理是业务部门和IT部门的共同职责,需要由业务部门和IT部门分别或共同制定相关决策,如业务运营模型、数据治理模型、企业信息模型、业务规范、信息规范、数据库架构、数据仓库/商务智......
十种机器学习算法
在神经网络的成功的带动下,越来越多的研究人员和开发人员都开始重新审视机器学习,开始尝试用某些机器学习方法自动解决可以轻松采集数据的问题。然而,在众多的机器学习算法中,哪些是又上手快......
中国物流之变:渠道下沉、去中心和巨头暗战
随着社会整体物流数量的提升,物流行业的边际成本将不断下降,这意味着消费者将会在中国日益庞大的物流网络中直接受益。除此之外,人工智能、大数据、物联网等技术的推进普及,也在改变整个物流......
大数据和BI商业智能有何区别?有何相关?
并不是每个企业都需要打造自己的大数据平台,需要考虑到企业的信息化水平和各项成本,量力而行吧,可以自行研发,比如BAT;也可以选型采购......
金融科技ABCD:人工智能、区块链、云计算、大数据
人类社会正在从信息化走向数字化和智能化。随着云计算、大数据、人工智能和区块链等新兴技术在金融行业的深入应用,科技对于金融的作用被不断强化,创新性的金融解决方案层出不穷,金融科技发展......
Hadoop生态系统的详细介绍
Hadoop是一个能够对大量数据进行分布式处理的软件框架。具有可靠、高效、可伸缩的特点。Hadoop的核心是HDFS和MapReduce,hadoop2.0还包括YARN。......
首页
上一页
1
2
3
4
5
6
7
8
9
10
...
下一页
尾页
大数据
主题文档
Facebook大数据实时分析案例分享
营销数据分析
文科教授眼中的大数据-祝建华
阿里研究中心:大数据时代
大数据,你准备好了么?
大数据产业生态战略研究
大数据时代的企业Hadoop解决方案
大数据挖掘
大数据--下一个创新、竞争和生产力的前沿
大数据相关介绍