破茧成蝶：商务智能的前世今生,,CIO之家

破茧成蝶：商务智能的前世今生

涂子沛　　 http://portal.vsharing.com/k/BI/2010-3/630710.html　　实践应用　　编辑:德仔　　图片来源:网络

缘起：决策支持系统 1946年，人类历史上第一台

缘起：决策支持系统

1946年，人类历史上第一台冯•诺伊曼式电子计算机问世。仅一年之后，卡内基梅隆大学的赫伯特•西蒙(Herbert Simon)教授出版了《行政组织的决策过程》一书。在这本被后世喻为经典的著作里，他提出，如果能利用存贮在计算机里的信息来辅助决策，人类理性的范围将会大大扩大。后来，这位天才科学家又提出，在后工业时代，人类社会的中心问题将从如何提高生产率转变为如何利用信息辅助决策。

赫伯特•西蒙将毕生的精力都倾注在对信息和决策的研究上。他是芝加哥大学毕业的政治学博士，更是地道的“卡内基梅隆”人，不仅因为他在这所大学工作了50多年，更因为在他的整个学术生涯里都浸润着卡内基梅隆学派倡导的“交叉性”研究方法。他将不同学科之间的“交叉性”应用得炉火纯青，也硕果累累。1973年，因为对人工智能辅助决策的贡献，他获得了计算机学界的最高奖项，图灵奖；1978年，他又因为对“商务决策过程”的出色研究戴上了诺贝尔经济学奖的桂冠。

追本溯源，学界已公认，赫伯特•西蒙对决策支持系统的研究，是现代商务智能概念最早的源头和起点。但西蒙教授可能没有想到，他播下的种子，半个世纪以后，结出了“商务智能”的果实，并成为知识经济时代的一道奇葩。

从决策支持系统到商务智能，名字变了，但新瓶装的还是旧酒。现代商务智能技术回答的还是决策支持系统面对的老问题：如何将数据转化为知识、辅助决策？

从数据到知识，这个跨越，人类用了半个多世纪。

在半个多世纪的漫长过程中，决策支持系统曾经一度因为缺乏有效的数据组织方式而徘徊不前。直到上世纪90年代，由于若干新技术的出现，打破了瓶颈，“商务智能”才浮出水面。随后，其发展取得了前所未有的加速度，并在本世纪第一个十年蓬勃成长。今天，回头考察这些新技术的一一出现，我们可以清楚的看到商务智能的产业链条不断向前延伸的轨迹。

1970年，IBM的研究员埃德加•科德（Edgar Codd）发明了关系型数据库。关系型数据库具有结构化高、冗余度低、独立性强等优点，解决了此前网络型数据库结构复杂多变、不易开发的困难，埃德加•科德也因此获得图灵奖。关系型数据库使软件开发人员取得了前所未有的自由度，此后，大型信息系统的应用一日千里、遍地开花。

这些信息系统的建立和运行，使人类从繁杂的重复性劳动当中解放出来，大大的提高了商业效率。但这些信息系统，都是针对特定的业务过程、处理离散事务的“运营式”信息系统。数据在其中的作用，是连接贯穿一个个商务流程的记录，数据不断累积的结果，仅仅限于查询，而不是分析。面对各行各业数据纪录的激增，管理大师彼得•德鲁克(Peter Drucker)曾发出概叹：迄今为止，我们的信息技术产生还仅仅是数据，而不是信息、更不是知识！

怎样从商务流程的数据纪录中提取对决策过程有参考价值的信息，从而实现从数据到信息、从信息到知识、从知识到利润的转化？这个要求，在西方发达国家先后进入了后工业社会之后，变得更加迫切。企业的规模越来越庞大、组织越来越复杂，市场更加多变、竞争更加激烈，如何做出正确、明智、及时的大小决策，对组织的兴衰存亡影响越来越大，一步走错，可能满盘皆输。

因为实业界的这些迫切需要，决策支持系统的旧问题又重新占据了顶尖科学家的大脑。

商务智能的“幽灵”开始徘徊……结蛹：千呼万唤始出来之数据仓库

决策支持系统面临的“瓶颈式”难题，是如何有机的聚集整合多个不同运营信息系统产生的数据。对这个问题的关注起源于美国计算机科学研究的另一所重镇：麻省理工学院。和卡内基梅隆大学一起，这两所大学先后为现代商务智能的发展奠定了基石。20世纪70年代，麻省理工学院的研究人员第一次提出，决策支持系统和运营系统截然不同，必须分开，这意味着决策支持系统要采用单独的数据存储结构和设计方法。但受限于当时的数据存储能力，该研究在确立了这一论点后便停滞不前。

麻省理工学院的这个研究如灯塔般为实业界指明了方向。1979年，一家以决策支持系统为已任、致力于构建单独的数据存储结构的公司Teradata诞生了。Tera，是万亿的意思，Teradata的命名表明了公司处理海量运营数据的决心。1983年，该公司利用并行处理技术为美国富国银行（Wells Fargo Bank）建立了第一个决策支持系统。这种先发优势令Teradata至今一直雄居数据行业的龙头榜首。

另一家信息技术的巨头，国际商业机器公司（IBM）也在为集成企业不同的运营系统大伤脑筋。越来越多的IBM客户要面对多个分立系统的数据整合问题，这些处理不同事务的系统，由于不同的编码方式和数据结构，如信息孤岛，处于老死不相往来的状态。1988年，为解决企业集成问题，IBM公司的研究员Barry Devlin和Paul Murphy创造性的提出了一个新的术语：数据仓库（Data Warehouse）。

一声惊雷，似乎宣告了数据仓库的诞生。可惜的是IBM在首创这个概念之后，也停步不前，只把它当作一个花哨的新概念用于市场宣传，而没有趁胜追击、进一步提出实际的架构和设计。IBM很快在这个领域丧失其领先地位，2008年，IBM甚至通过兼并Cognos才使自己在商务智能的市场上重占一席之地，这是后话。

但这之后，更多的IT厂商垂涎于数据仓库的“第一桶金”，纷纷开始尝试搭建实验性的数据仓库。

又是几年过去。1992年，尘埃终于落定。比尔·恩门（Bill Inmon）出版了《如何构建数据仓库》一书，第一次给出了数据仓库的清晰定义和操作性极强的指导意见，真正拉开了数据仓库得以大规模应用的序幕。比尔·恩门不仅是长期活跃在这个领域的领军人物，还是一名企业家。此后，他的江湖地位也得以确定，被誉为“数据仓库”之父。

比尔·恩门所提出的定义至今仍被广泛接受：数据仓库是一个面向主题的（Subject Oriented）、集成的（Integrated）、相对稳定的（Non-Volatile）、反映历史变化（Time Variant）的数据集合，用于支持管理中的决策制定。

但江山代有才人出。比尔·恩门一统江湖没多久，风头又被拉尔夫·金博尔（Ralph Kimball）抢了去。1993年，这位毕业于斯坦福计算机系的博士，也出版了一本书：《数据仓库的工具》（The Data Warehouse Toolkit），拉尔夫·金博尔在书里认同了比尔·恩门对于数据仓库的定义，但却在具体的构建方法上和他分庭抗礼。

比尔·恩门主张的是由顶至底的构建方法，强调数据的一致性，一上来，就要先创建企业级的数据仓库。拉尔夫·金博尔却说：不！务实的数据仓库应该由下往上，从部门到企业，并把部门级的数据仓库叫做“数据集市”(Data Mart)。两人针锋相对，各自的追随者也唇舌相向，很快形成了明显对立的两派。

两派的异同，就好比华山剑法的气宗和剑宗。主张练“气”的着眼全面和长远，耗资大，见效慢；主张练“剑”的强调短、平、快，效果立竿见影。

两人华山论剑的结果不难猜测，拉尔夫·金博尔“从易到难”的架构迎合了人类的普遍心理，大受欢迎，商务界随即掀起了一阵创建数据集市的狂潮。“吃螃蟹”的结果，有大面积的企业碰壁撞墙、也有不少企业尝到了甜头，攒了个钵满。潮起潮落中，两派又有新的融合和纷争，油灯越拨越亮，道理越辩越明，数据仓库的技术，也不断地得以丰富，到2000年，已经全面成熟。

如蚕之蛹，数据仓库是商务智能的依托，是对海量数据进行分析的核心物理构架。它可以形象的理解为一种语义格式一致的多源数据存储中心，数据源可以是来自多种不同平台的系统，如企业内部的客户关系管理系统、供应链管理系统、企业资源规划系统，也可以是企业外部的系统和零散数据。这些不同形式、分布在不同地方的数据，将以统一定义的格式从各个系统提取出来，再通过清洗、转换、集成，最后百流如海，加载进入数据仓库。这个提取、转换、装载的主要过程，可以通过专门的ETL(Extraction, Transformation, Load)工具来实现，这种工具，如今已是数据仓库领域的主打产品。

ETL工具和数据仓库理论的成熟，突破了决策支持系统的瓶颈，从此，商务智能的发展走上了顺风顺水的“快车道”，接下来，好戏连台上演。

蚕动：联机分析之惊艳

数据仓库出现以后，活跃在前沿的科学家一下子找到了自己的专属“阵地”，商务智能的下一个产业链：联机分析，如水到渠成般迅速形成。数据仓库开始散发真正的魅力。

联机分析(Online Analytical Processing), 也称多维分析，本意是把分立的数据库“相联”，进行多维度的分析。

“维”是联机分析的核心概念，指的是人们观察数据的特定角度, 举个例子，跨国零售商沃尔马如果要分析自己的销售量，它可以按地区国别分析、时间序列分析、商品门类分析；也可以按供货渠道分析、客户群类分析，这些不同的分析角度，就叫“维度”。

其实，早在60年代，决策支持系统的先行者就开始探索多维分析的方法。1970年，第一个多维分析的产品就已经问世。它通过建立一个复杂的、中介性的“数据综合引擎”，把分布在不同系统的数据库联结起来，实现了多维分析，因而得名“联机分析”。1994 年，发明关系数据库的埃德加•科德再立新功，他立足数据仓库的新基础，详尽的阐述了构建联机分析的十二条原则，同时，因为有了数据仓库，多维分析的实现已经不再需要不同数据库之间的人为“联机”，因此，他将该项技术更形象的命名为“多维分析”。但“联机分析”已经深入人心，也就一直延用。

多维分析技术的惊艳之美在于用户可以根据自己的需要创建“万维”动态报表。报表，一直是将数据转化为信息和知识最主要的手段之一。在多维分析技术出现之前，报表是由软件开发人员事先定制的，基于一、两个维度的分析，是简单报表；交叉的维度越多，报表就越复杂，而且不同维度的组合将产生不同的报表，IT部门无法全部定制。因此，当时的报表是静态的、固定的，残缺的，怎么也满足不了决策分析的全部需要。

多维分析技术预先为用户创建多维的数据立方体（Cube），一旦多维立方体建模完成，用户可以快速地从各个分析维度获取数据，也可以动态的在各个维度之间来回切换或者进行多维度的综合分析。通过从不同的维度、不同的粒度、立体地对数据进行分析，从而获得有严密推证关系的信息。在多维立方体的构建和运算方面，曾在IBM工作过的吉姆•格雷（Jim Gary）多有贡献，他也于1998年获得了图灵奖。

因为数据仓库，多维分析找到了真正的用武之地，如有源之水，活力四射。任何复杂的报表都可以通过鼠标的点击拖拉在瞬间之内从用户的指尖弹出，如玲珑剔透的水晶体，数据尽在手中，任意横切竖割，流畅的美感令人叹为观止。 破茧：数据挖掘--智能生命的真正产生

随着数据仓库、联机分析技术的发展和成熟，商务智能的框架基本形成，但真正给商务智能赋予 “智能”生命的是它的下一个产业链：数据挖掘。

数据挖掘是指通过分析大量的数据来揭示数据之间隐藏的关系、模式和趋势，从而为决策者提供新的知识。之所以称之为“挖掘”，是比喻在海量数据中寻找知识，就象从沙里淘金一样困难。

数据挖掘是数据量快速增长的直接产物。80年代，它曾一度被专业人士称之为“基于数据库的知识发现”（KDD，Knowledge discovery in database)。数据仓库产生以后，如“巧妇”走进了“米仓”，数据挖掘如虎添翼，在实业界不断产生化腐朽为神奇的故事，其中，最为脍炙人口的当属啤酒和尿布。

话说沃尔玛拥有世界上最大的数据仓库，在一次购物篮分析之后，研究人员发现跟尿布一起搭配购买最多的商品竟是风马牛不相及的啤酒！这是对历史数据进行“挖掘”和深层次分析的结果，反映的数据层面的规律。但这是一个有用的知识吗？沃尔玛的分析人员也不敢妄下结论。经过大量的跟踪调查，终于发现事出有因：在美国，一些年轻的父亲经常要被妻子“派”到超市去购买婴儿尿布，有30％到40％的新生爸爸会顺便买点啤酒犒劳自己。沃尔玛随后对啤酒和尿布进行了捆绑销售，不出意料之外，销售量双双增加。

这种点“数”成金的能力，是商务智能真正的“灵魂”和魅力所在。

1989年，可谓数据挖掘技术兴起的元年。这一年，图灵奖的主办单位计算机协会（ACM, Association of Computing Machinery）下属的知识发现和数据挖掘小组（SIGKDD）举办了第一届学术年会、出版了专门期刊。此后，数据挖掘被一直追捧，成为炙手可热的话题，并如火如荼的发展，甚至成为一门独立的学科走进了大学课堂，不少大学，还先后设立了专门的数据挖掘硕士学位。

也正是1989年，著名的高德纳IT咨询公司（Gartner Group）为业界提出了商务智能的概念和定义，商务智能，指的是一系列以数据为支持、辅助商业决策的技术和方法。商务智能在这个时候完全破茧而出，不是历史的巧合，因为正是数据挖掘这种新技术的出现，商务智能才真正有了“智能”内涵，这也标志着其完整产业链的形成。

如果说联机分析是对数据的一种透视性的探测，数据挖掘则是利用计算机算法对数据进行挖山凿矿式的开采。它的主要目的，一是要发现潜藏在数据表面以下的知识，二是对未来进行预测，前者称为描述性分析，后者称为预测性分析。沃尔玛发现的啤酒和尿布的销售关联性就是一种典型的描述性分析；考察所有历史数据，以特定的算法对下个月啤酒的销售量进行估计以确定进货量，则是一种预测性分析。

化蝶：可视化信息的华丽上演

随着数据仓库、联机分析和数据挖掘技术的不断完善，业界都认为，商业智能系统已经功德圆满，很好的完成了智能分析的使命，因此早期商务智能的产业链条只含有这三块。

但技术无止境。

进入21世纪以来，风生水起，新的技术浪潮又使商务智能的产业链条向前延伸了一大步：信息可视化。

所谓信息可视化（Information Visualization）是指以图形、图像、动画等更为生动、易为理解的方式来展现和诠释数据之间的复杂关系和发展趋势，以便更好地利用数据分析结果。

传统意义上的报表，格式单一，枯燥乏味，令人没有阅读的欲望。信息可视化主张，人的创造力不仅取决于逻辑思维，而且还取决于形象思维。数据如果能变成图像，就能在逻辑思维的基础上进一步激发人的形象思维，帮助用户理解数据之间隐藏的规律，为决策提供最优的支持。

信息可视化的专家因此宣布，他们要让数据 “动”起来、“舞”起来！让数据变得“性感”！

从最早的点线图、直方图、饼图、网状图等简单图表，发展到以监控商务绩效为主的仪表盘、记分板，到今天的三维地图、交互式图像、动态模拟、动画技术等等更加直觉化、趣味化的表现方法，短短的十年间，信息可视化已经发展成了一个独立的产业，其产品数不胜数，可谓绚丽多彩。

信息可视化把美学创造的艺术原素带进了商务智能，给它锦上添花。一幅好的数据图像不仅能有效地传达数据背后的知识和思想，而且华美精致，如一只只振动翅膀的彩蝶，栩栩如生，刺激视觉神经、调动美学意识，令人过目不忘。

今年2月初，《华盛顿邮报》对奥巴马政府新鲜出炉的2010年度预算进行了分析报道，它正是利用信息可视化的技术，抓住了读者的眼球。图形以各项收支的粗细不同表明了金额大小，形象贴切，左边是收，右边是支，中间的红色部分是赤字缺口，奥巴马收了多少钱，要办哪些事，各项支出的轻重缓急，一目了然。

图2. 奥巴马政府2010年度预算开支的可视化展示

作为一个新兴产业，信息可视化的发展潜力不容小觑。最近，谷歌的首席经济学家哈尔·瓦里安教授（Hal Varian）就一直在多种场合强调，下一个十年，最诱人的工作将是数据工程师，其中一种，正是数据可视化工程师。 结语：磨砺中的竞争利器

可视化技术的出现，使商务智能的产业链形成了一个从数据整合、经数据分析、数据挖掘、到最后数据展示的完整闭环。商务智能的这四个产业链，独立性都很强，具体到特定的商务智能产品，也不是每一环节都缺一不可的。但随着数据量的增大，每一环节都可能变得相当的复杂。

本文作者:涂子沛来源: http://portal.vsharing.com/k/BI/2010-3/630710.html
CIO之家 www.ciozj.com 微信公众号:imciow

　　　　>>频道首页　　 >>网站首页　　纠错　　 >>投诉

广告