• 详解阿里云数据中台
    数据中台的概念是最早由阿里巴巴首次提出,是为了应对内部众多业务部门千变万化的数据需求和高速时效性的要求而成长起来的,它既要满足业务部门日常性的多个业务前台的数据需求,又要满足像双十......
    详解阿里云数据中台
  • Flink 在有赞实时计算的实践
    这篇主要由五个部分来组成:首先是有赞的实时平台架构。其次是在调研阶段我们为什么选择了Flink。在这个部分,主要是Flink与Spark的structuredstreaming的一些对比和选择Flink的原因。......
    Flink 在有赞实时计算的实践
  • 有赞埋点实践
    大数据应用一般会有采集、加工、存储、计算及可视化这几个环节。其中采集作为源头,在确保全面、准确、及时的前提下,最终加工出来的指标结果才是有价值的。......
    有赞埋点实践
  • 大数据和人工智能如何协同工作
    智能企业应用程序将要求将单个人工智能/机器学习系统连接到其他系统,以便它们可以相互通信并相互学习。企业最终将从存储的所有数据中获得可观的投资回报。......
    大数据和人工智能如何协同工作
  • HBase 数据迁移到 Kafka 实战
    正常情况下,一般都是源数据到Kafka,再有消费者处理数据,将数据写入HBase。但是,如果逆向处理,如何将HBase的数据迁移到Kafka呢?......
    HBase 数据迁移到 Kafka 实战
  • 数据统计埋点工作框架及细节规范
    数据统计埋点工作的基础还是在于对业务的深度理解。我们要做的不仅是完成一个数据指标的上报,更重要的是通过不同纬度的数据指标,更加全面具体的去分析业务情况。......
    数据统计埋点工作框架及细节规范
  • 一文带你掌握推荐系统
    本文的主要内容是推荐系统相关的东西,会涵盖推荐系统相关的大部分知识点,对于非技术人员应该是能基本了解推荐系统了。......
    一文带你掌握推荐系统
  • 小公司也需要大数据
    “知彼知己,百战不殆;不知彼而知己,一胜一负;不知彼不知己,每战必殆。”要了解你的客户,分析客户的消费行为,深究客户的消费心理。......
    小公司也需要大数据
  • 企业信息化建设中的几个常见问题和策略
    未来企业IT的发展方向主要有两个:即以物联网技术为抓手走向实时互联,以及以大数据和人工智能技术为抓手走向全域智能。......
    企业信息化建设中的几个常见问题和策略
  • 机器学习评估指标AUC综述
    在互联网的排序业务中,比如搜索、推荐、广告等,AUC(AreaundertheCurveofROC)是一个非常常见的评估指标。......
    机器学习评估指标AUC综述
  • 马蜂窝数据仓库的架构、模型与应用实践
    数据中台的概念非常接近传统数据仓库+大数据平台的结合体。它是在企业的数据建设经历了数据中心、数据仓库等积累之后,借助平台化的思路,将数据更好地进行整合与统一,以组件化的方式实现灵活......
    马蜂窝数据仓库的架构、模型与应用实践
  • BI、数据仓库、数据湖和数据中台内涵与差异
    随着大数据技术的不断更新和迭代,数据管理工具得到了飞速的发展,相关概念如雨后春笋一般应运而生,如从最初决策支持系统(DSS)到商业智能(BI)、数据仓库、数据湖、数据中台等,这些概念特别容......
    BI、数据仓库、数据湖和数据中台内涵与差异
  • 大数据时代如何有效管理冷数据
    大数据时代,人们的生活、工作都在数据化,时时刻刻都有新的数据产生,数据正在呈几何倍数爆炸式增长。如何存储、管理和使用这些数据,是现代企业面临的难题。......
    大数据时代如何有效管理冷数据
  • Kafka、RabbitMQ、RocketMQ等消息中间件介绍和对比
    在分布式系统中,我们广泛运用消息中间件进行系统间的数据交换,便于异步解耦。现在开源的消息中间件有很多,前段时间产品RocketMQ(MetaQ的内核)也顺利开源,得到大家的关注。......
    Kafka、RabbitMQ、RocketMQ等消息中间件介绍和对比
  • 人工智能如何赋能新零售
    新零售是以数据为驱动的,对人、货、场等角色及相互关系的重构。互联网时代,碎片化的消费行为令传统的零售方式难以为继。而基于数据分析,综合使用各个维度来源的数据:历史交易数据、社交网络......
    人工智能如何赋能新零售
  • Hadoop数据仓库开发实战
    哪些维度进行汇总等,需要根据业务需求及明细层实际汇总频率来确定,原则上,业务使用频繁的的维度需要对这些维度建立汇总层,汇总的指标可以和业务需求共同设计完成。......
    Hadoop数据仓库开发实战
  • 100个数据分析常用指标和术语
    一般从事数据分析行业的朋友对这类词并不陌生,但是像市场运营人员就会把这类些名词概念搞混,导致结果不准确。数据分析相关概念多且杂,容易搞混。......
    100个数据分析常用指标和术语
  • 大数据发展的 8 个要点
    当一项新技术刚出来的时候人们会非常乐观,常常以为这项技术会给人类带来巨大的变革,对此持有过高的期望,所以这项技术一开始会以非常快的速度受到大家追捧,然后到达一个顶峰,之后人们开始认......
    大数据发展的 8 个要点
  • 区块链如何保护大数据和物联网设备
    做区块链技术的公司,不是因为区块链技术而被抓,而是因数据非法使用而被抓,其中的逻辑不由得引起我们深思:商业数据如何保护?商业数据如何使用?这便是本文的主旨所在——“探讨如何用区块链......
    区块链如何保护大数据和物联网设备
  • 中文知识图谱构建技术以及应用的综述
    知识图谱一直是研究的热点,东南大学漆桂林老师等发表了一篇关于中文知识图谱构建的综述论文,详细讲述了当前中文知识图谱的研究进展,是非常好的学习资料......
    中文知识图谱构建技术以及应用的综述
  • 大数据资产管理在腾讯游戏的实践
    据是资产的概念已经成为行业共识。然而现实中,对数据资产的管理和应用尚处于摸索阶段,企业数据资产管理面临价值评估难、数据标准混乱、数据质量不高、数据安全威胁等诸多挑战。互娱从2013年开......
    大数据资产管理在腾讯游戏的实践
  • 一篇文章读懂大数据中台架构
    近来数据中台概念大火,大家对它的定义也五花八门,不一而足。但无论怎么定义,一个完善的数据技术架构必不可少。了解这些架构里每个部分的位置,功能和含义,不仅能让我们更好了解数据产品的范......
    一篇文章读懂大数据中台架构
  • 京东到家大数据平台演进实战
    达达-京东到家大数据平台是根据公司业务持续快速成长,而规划建设的一个可持续发展的平台。在建设过程中我们借鉴了很多公司实施大数据平台的经验,并因地制宜构建了我们自己的实施策略,确保在......
    京东到家大数据平台演进实战
  • 企业可以不要大数据但必须要有“数据中台”
    数据中台绝对不等于数据平台,差别之一就在于是否具有业务属性,这也是数据中台出现的一个非常重要的原因,它可以支撑多个前台业务,使得数据不再是各前端业务独立管理,真正实现不同业务之间的......
    企业可以不要大数据但必须要有“数据中台”
  • 标签体系应用及设计思路
    标签和画像是类似中间层的系统模块,具体来说,数据资产本质上是一些采集、采购所获得的数据源,但企业希望在数据源的基础上,实现资产变现,而且不断扩大资产价值。......
    标签体系应用及设计思路
  • 民生银行数据中台体系的构建与实践
    在大数据、人工智能、区块链等新兴技术的驱动下,各家银行纷纷利用新技术制定数字转型改革战略,寻找差异化经营的可行模式。如何真正将“数据驱动”的这个轮子落地,扎扎实实地支撑民生银行数字......
    民生银行数据中台体系的构建与实践
  • 如何构建金融行业大数据用户画像?
    金融消费者逐渐年轻化,80、90后成为客户主力,他们的消费意识和金融意识正在增强。金融服务正在从以产品为中心,转向以消费者为中心。所有金融行业面对的最大挑战是消费者的消费行为和消费需求......
    如何构建金融行业大数据用户画像?
  • 网易严选数据中台的经验和方法论
    大量的互联网、非互联网公司都开始建设数据中台。为什么很多公司开始建设数据中台?尽管数据中台的文章很多,但是一千人眼里有一千个数据中台,到底什么是数据中台?数据中台包含什么?......
    网易严选数据中台的经验和方法论
  • 苏宁数据中台基于Spring Cloud微服务架构实践
    从单体程序到微服务,再到当下流行的服务网格概念,Spring连接起了这两个时代,他曾是单体程序的代名词,但是在微服务时代他浴火重生,给我们带来了SpringCloud。苏宁大数据中心,借助于SpringC......
    苏宁数据中台基于Spring Cloud微服务架构实践
  • 万物有灵:人机对话系统解析
    说到人工智能,我经常会思考以下四个问题:人工智能是什么?通俗意义上来讲,如果一个机器具有人工智慧,我们称之为人工智能。在学术上,一个机器如果可以通过图灵测试,那么就称之为人工智能。......
    万物有灵:人机对话系统解析
  • 如何炼就数据分析的思维
    面对数据异常,我们经常会出现“好像是A原因引起的?”“貌似和B原因也相关?”“有可能是C操作不当”的主观臆测。或者,拿到一个分析议题,分析“11月销售数据下降的原因”,是先从产品层面,......
    如何炼就数据分析的思维
  • 数据科学家:需要哪些素质、类型与工作流程
    数据科学家要有基于数据指导业务和分析预测的能力。具体来说,需要具备的素质有:大数据平台实战经验、理解企业业务、懂数学软件和编程、掌握分析的理念、熟悉算法跟编程。所以数据科学是对业务......
    数据科学家:需要哪些素质、类型与工作流程
  • "数字孪生"是什么?
    现阶段的数字孪生,距离想象中的沙盒系统模拟推演、人工智能决策等功能仍有很大差距。......
  • 企业最需要什么样的数据科学家?
    不同时期企业对数据科学家的要求,与数据产品通才不同,采用一刀切的方法招聘数据科学家是行不通的。......
    企业最需要什么样的数据科学家?
  • 打造基于机器学习的推荐系统
    推荐系统在本质上是一个信息检索的系统。它和搜索最大的区别是,搜索是主动式的,根据关键词和引擎参数、搜索引擎召回、机器学习排序,决定给你看到的是哪些内容。而我们看到的推荐系统,在大多......
    打造基于机器学习的推荐系统
  • 数据管理的演进:从响应业务到创造业务
    数据中台本身还是围绕数据服务来进行的,未来的操作系统,一定会越来越个性化,甚至系统可以根据对应的终端用户自行呈现符合该用户习惯的系统界面——AI中台的概念应运而生。......
    数据管理的演进:从响应业务到创造业务
  • 数据中台到底是什么
    “很多人会把数据比作“石油”,马老师(马云)也说过,阿里巴巴要成为全球电子商务的“水电煤”。我们现在搭建的数据中台,就是希望扮演“发电厂”的角色。”......
    数据中台到底是什么
  • Kafka 应用实践与生态集成
    ApacheKafka发展至今,已经是一个很成熟的消息队列组件了,也是大数据生态圈中不可或缺的一员。ApacheKafka社区非常的活跃,通过社区成员不断的贡献代码和迭代项目,使得ApacheKafka功能越发丰......
    Kafka 应用实践与生态集成
  • 为什么85%的大数据项目总是失败?
    企业在推行大数据项目时往往把项目规模和范围做得很大,但是事实却是,很多大数据项目通常都会失败。2016年,Gartner估算约60%的大数据项目都会失败。......
    为什么85%的大数据项目总是失败?
  • 手把手教你做用户画像
    创建用户画像的方法源于20世纪90年代后期IT系统开发,研究人员在思考如何能够更好的交流他们对于用户的理解。曾经出现过很多种概念,包括用户生命周期,用户模型,生活方式快照,模型用户。......
    手把手教你做用户画像
  • 内容推荐系统机制与实战
    推荐架构大同小异,主要包含召回、排序、策略三部分。召回:通过各种业务抓手粗选出用户可能感兴趣的东西。排序:结合用户已有信息、场景信息、推荐内容信息,使用模型算法排序,满足核心业务目......
    内容推荐系统机制与实战
  • 音频内容理解的关键技术
    对于音频与视频这种内容,即使在加速的情况下也需要一定的时间来听完、看完音频和视频内容才能够进一步理解它。如果采取人力处理这些问题会遇到困难,我们就可以借助于机器辅助人来进行处理。......
    音频内容理解的关键技术
  • 内容中台的内容理解与应用
    从纸媒、电视传媒开始,内容产业搭载着互联网的发展快车,跨过了网络门户、论坛等形式,在移动互联网的普及下,终于迎来爆发式的发展。而随着内容产业的飞速发展,我们对内容的加工处理方式也逐......
    内容中台的内容理解与应用
  • 基于Flink SQL构建实数据仓库
    OPPO作为手机厂商,基于Android定制了自己的ColorOS系统,当前日活跃用户超过2亿。围绕ColorOS,OPPO构建了很多互联网应用,比如应用商店、浏览器、信息流等。在运营这些互联网应用的过程中,OP......
    基于Flink SQL构建实数据仓库
  • Hive小文件合并
    Hive的后端存储是HDFS,它对大文件的处理是非常高效的,如果合理配置文件系统的块大小,NameNode可以支持很大的数据量。但是在数据仓库中,越是上层的表其汇总程度就越高,数据量也就越小。而且......
    Hive小文件合并
  • 从主数据到大数据 企业数字化转型的必由之路
    近年来,在很多行业和企业中,在讨论或谋求数字化转型升级,但是显得有些浮躁,潮流的概念也层出不穷,德国工业4.0、中国制造2025、数字化转型、两化融合等热词和口号喊的很多,但距离实际发展......
    从主数据到大数据 企业数字化转型的必由之路
  • 知识图谱技术应用落地指南
    在面向对象的时代里,我们常说万物皆对象,之前我们只是来分析对象的个体,随着互联网和社交网络的发展,对象与对象之间的联系变得越来越紧密,我们把一个对象称之为一个实体。......
    知识图谱技术应用落地指南
  • 大数据安全浅析
    “数据”是网络的“血液”,是企业得以发展的核心。云计算和物联网技术的快速发展,引发了数据规模的爆炸式增长和数据模式的高度复杂化,如何对这些大量又复杂的数据进行有效管理和合理分析成为......
    大数据安全浅析
  • 数据智能的前世今生:技术融合与模式跃迁
    数据智能是大数据的新篇章,意味着企业从业务数据化走向业务智能化。数据智能和数据中台是什么关系?进入到数据智能阶段,商业模式上会有哪些创新?相比技术赋能,合作分成有哪些价值?......
    数据智能的前世今生:技术融合与模式跃迁
  • 基于大数据的用户标签体系建设思路和应用
    在大数据时代,数据在呈现出海量化、多样化和价值化变化的同时,也改变了传统IT行业的市场竞争环境、营销策略和服务模式。如何在ZB级的海量数据中获取并筛选有价值的信息,是对IT企业的一大挑战......
    基于大数据的用户标签体系建设思路和应用
  • 读懂工业大数据 这篇文章不得不看
    对于企业而言,了解工业大数据产生的背景,归纳工业企业大数据的分类和特点,从数据流推动工业价值创造的视角看待、重造工业价值流程,将具有很强的现实意义。......
    读懂工业大数据 这篇文章不得不看
  • 机器学习入门四------降低损失
    为了训练模型,我们需要一种可降低模型损失的好方法。迭代方法是一种广泛用于降低损失的方法,而且使用起来简单有效。迭代学习可能会让您想到“HotandCold”这种寻找隐藏物品(如顶针)的儿童游......
    机器学习入门四------降低损失
  • 机器学习入门三------线性回归
    线性回归是一种找到最适合一组点的直线或超平面的方法。本模块会先直观介绍线性回归,为介绍线性回归的机器学习方法奠定基础。......
    机器学习入门三------线性回归
  • 什么是机器学习,机器学习的在实际中的用处
    什么是(监督式)机器学习?简单来说,它的定义如下:机器学习系统通过学习如何组合输入信息来对从未见过的数据做出有用的预测。下面我们来了解一下机器学习的基本术语。......
    什么是机器学习,机器学习的在实际中的用处
  • 机器学习术语表
    本术语表中列出了一般的机器学习术语和TensorFlow专用术语的定义。......
    机器学习术语表
  • 数据问题的全面解决之道数据治理
    当今的大型企业,内部分工日趋细化,采购、服务、市场、销售、开发、支持、物流、财务、人力等各个环节,无不每时每刻产生着大量的数据。数据的格式也越来越多样化,包括IT系统里存储的结构化、......
    数据问题的全面解决之道数据治理
  • 知识图谱构建技术综述
    知识图谱是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系。其基本组成单位是“实体-关系-实体”三元组。通过知识图谱,可以实现Web从网页链接向概念链接的转变。......
    知识图谱构建技术综述
  • 数据工程师 vs 数据科学家
    了解数据工程师和数据科学家之间的差异非常重要。误解或不了解其差异,会导致团队在处理大数据时失败或者表现不及预期。一个核心的误解是每个职位各自的优点和弱点。我认为,其中一些误解来源于......
    数据工程师 vs 数据科学家
  • 推荐系统的重构技术解析
    在链接人与知识的路径中,知乎存在着大量的推荐场景。粗略统计,目前除了首页推荐之外,我们已存在着20多种推荐场景;并且在业务快速发展中,不断有新的推荐业务需求加入。......
    推荐系统的重构技术解析
  • 怎么撰写一份产品数据报告
    产品数据报告是产品和运营人必不可少的工作,无论是周报、月报,还是新版本表现的分析报告,都需要在围绕报告目标的基础上,对数据进行整理、分析并提炼要点,最后形成一份有指导意义、易读且美......
    怎么撰写一份产品数据报告