首页  ·  知识 ·  大数据
数据中台到底是什么
傅一平  简书  实践应用  编辑:redorange   图片来源:网络
“很多人会把数据比作“石油”,马老师(马云)也说过,阿里巴巴要成为全球电子商务的“水电煤”。我们现在搭建的数据中台,就是希望扮演“发电厂”的角色。”

阿里提出了“大中台,小前台”,其中台事业部包括搜索事业部、共享业务平台、数据技术及产品部,数据技术及产品部应是数据中台建设的核心部门。

那么,数据中台到底是什么?具体包含哪些内容?跟大数据平台是什么关系?在架构层面是怎么体现的?数据中台跟产品又有什么关系?

阿里数据技术及产品部的掌门提倒了数据中台的具体含义,这里引用他说的话:

“很多人会把数据比作“石油”,马老师(马云)也说过,阿里巴巴要成为全球电子商务的“水电煤”。我们现在搭建的数据中台,就是希望扮演“发电厂”的角色。”

“我们知道,电力的发展可以分为几个阶段,最开始是一些有能力的企业自己发电,后来出现新的工业产能,有的企业电用不掉,有的却不够用,这时候国家机构就出来了,会去搭建国家级的电网,不管是核能发电,还是风力发电、水力发电,最大程度地保障不同群体的用电需求。”

“我们数据中台也是这样一个运转思路,我们落到实处是一个倒三角形,从下往上分为四个部分——”

“第一是数据技术。没有数据中台的时候,不管是阿里内部还是各商家,大家都有自己的数据中心、机房、小数据库。但当数据积累到一定体量后,这方面的成本会非常高,而且数据之间的质量和标准不一样,会导致效率不高等问题。因此,我们需要通过数据技术,对海量数据进行采集、计算、存储、加工,同时统一标准和口径。”

“第二是数据资产。数据中台把阿里系的数据统一之后,会形成标准数据,再进行存储,形成大数据资产层,进而保证为集团各业务和商家提供高效服务。”

“第三和第四都是数据服务,包括服务商家和服务小二。例如生意参谋和阿里指数,就是数据中台中面向商家端提供的数据服务。”

“数据中台服务阿里,说白了更多是在为各位商家服务。平台会确保大家在使用数据的过程中,口径、标准、时效性、效率都有保障,能有更高的可靠性和稳定性。”

以上说得好像都对,但逻辑上有些是无法自洽的,比如这里的数据技术跟阿里云的数据技术是什么关系?数据中台要不要承担hadoop/ETL这类平台和工具的研发?生意参谋是个端到端的产品,似乎不能划为数据中台?

当然,从职能看,作为中台部门的确需要基于产品直接服务一线客户,而不是往后退,这也是以前笔者对于数据中台最大的困惑,一直在想这个数据中台的部门绩效该如何定呢?没有业务的滋养中台如何迭代优化呢,阿里算是解惑了。

但如果把直接的产品当成中台显然是不合理的,阿里提了数据中台,忙坏的倒可能是那些做数据架构和数据管理的,因为架构讲究逻辑严密,本质和边界必须定义清楚,没有歧义,否则做事就会很茫然,不知道该怎么入手。

比如哪天领导问你,我们企业的数据中台有没有,要向阿里学习啊,有了清晰的概念你就可以做映射了,否则就会显得手足无措,这种事情其实很多。

笔者的企业最近在做IT规划,很多人就对数据中台要带一些产品职能有异议,记得以前笔者还把营销平台当成中台,号称也是赋能所有营销人员的,这就是概念不清造成的问题。

说来也奇怪,网上很难找到数据中台的更科学解释,能找到的大多也不够清晰,与大数据平台有千丝万缕的关系,笔者最近正好在思考这个问题,特此分享于你,当然仁者见仁,智者见智了。

所谓数据中台,即实现数据的分层与水平解耦,沉淀公共的数据能力,笔者认为可分为三层,数据模型、数据服务与数据开发,通过数据建模实现跨域数据整合和知识沉淀,通过数据服务实现对于数据的封装和开放,快速、灵活满足上层应用的要求,通过数据开发工具满足个性化数据和应用的需要,见下图(以某运营商为例):

image.png

1、数据模型

数据模型是分层次的,以前叫作数据仓库模型,笔者这里概括为三层,基础模型一般是关系建模,主要实现数据的标准化,我们叫作“书同文、车同轨”,融合模型一般是维度建模,主要实现跨越数据的整合,整合的形式可以是汇总、关联,也包括解析,挖掘模型其实是偏应用的,但如果用的人多了,你也可以把挖掘模型作为企业的知识沉淀到中台,比如离网挽留的模型具有很大的共性,就应该有人把它规整到中台模型,以便开放给其它人使用,中台的中是相对的,没有绝对的标准。

2、数据服务

将数据模型按照应用要求做了服务封装,就构成了数据服务,这个跟业务中台中的服务概念是完全相同的,只是数据封装比一般的功能封装要难一点,毕竟OLTP功能的变化有限,而数据分析受市场因素的影响很大,变化更快,导致服务封装的难度变大。

随着企业大数据运营的深入,各类大数据应用层出不穷,对于数据服务的需求非常迫切,大数据如果不服务化,就无法规模化,比如浙江移动封装了客户洞察、位置洞察、营销管理、终端洞察、金融征信等各种服务共计几百个,每月调用量超过亿次,灵活的满足了内外大数据服务的要求。

3、数据开发

但有数据模型和数据服务还是远远不够的,因为再好的现成数据和服务也往往无法满足前端个性化的要求,这时候就得授人以鱼不如授人以渔了,数据中台的最后一层就是数据开发,其按照开发难度也分为三个层次,最简单的是提供标签库(DMP),用户可以基于标签的组装快速形成营销客户群,一般面向业务人员,其次是提供数据开发平台,用户可以基于该平台访问到所有的数据并进行可视化开发,一般面向SQL开发人员,最后就是提供应用环境和组件,让技术人员可以自主打造个性化数据产品,以上层层递进,满足不同层次人员的要求。

对于标签库(DMP)到底是属于SaaS还是PaaS是有争议的,但标签库这类平台显然较生意参谋类产品更中台一点,因为其通用性更强,专有业务的特性不是非常明显,笔者还是认为可以归为中台。

应该来讲,数据开发中的组件,比如页面组件、可视化组件什么的,归属到业务中台似乎更合理,但其实也要看企业的实际情况,哪里用的多就可以归属到哪里,没有绝对的标准了。

以上划分方式在逻辑上还是说得通的,但还有很多没有考虑进来,比如算法服务、机器学习引擎、hadoop、MPP等等,笔者觉得算法服务应该属于数据服务的一种类型,但h a d o o p、MPP、机器学习引擎更底层一点,应属于私有云或公有云的范畴了,比如笔者看到阿里云就提供了MaxCompute这类机器学习服务。

关于数据中台的分层看似简单,但笔者却纠结了好久,很多边界是模糊的,最近看的一本书提到,新的概念如果跟既有知识体系不相符,一定要努力搞清楚,不能人云亦云,只要能表达出自己的观点,即使还是错了,也有了被人家纠正的机会,对于事物理解的不深入,大多是不求甚解导致的概念不清的结果。



本文作者:傅一平 来源:简书
CIO之家 www.ciozj.com 微信公众号:imciow
    >>频道首页  >>网站首页   纠错  >>投诉
版权声明:CIO之家尊重行业规范,每篇文章都注明有明确的作者和来源;CIO之家的原创文章,请转载时务必注明文章作者和来源;
延伸阅读
也许感兴趣的
我们推荐的
主题最新
看看其它的