首页  ·  知识 ·  大数据
企业报表终极瓶颈之浅谈——如何寻找数据价值
amteam.org  http://www.amteam.org/  实践应用  编辑:dezai  图片来源:网络
近十年来,随着大中型企业对业务应用系统的普及,在经过一段时间的运作后,他们的业务会越来越成熟,也越来越稳定,所拥有的数据也会越来越多,人员使用水平

近十年来,随着大中型企业对业务应用系统的普及,在经过一段时间的运作后,他们的业务会越来越成熟,也越来越稳定,所拥有的数据也会越来越多,人员使用水平也越来越高,表面看似都做得很不错,也很风光,但在他们的系统里,面对日积月累存储的庞大数据,这些数据到底能提供什么样的价值?如何在这些数据里找到它的再生价值、规律与关系?以用于指导原有业务,开拓新业务,甚至提供决策分析呢?这个问题已成为影响企业发展的重要瓶颈之一。

要找出数据的价值、关系和规律就必须引进商业智能(BI),不管您是购买商业智能或是自行开发的商业智能系统。

无论您用还是不用商业智能,在这个大问题里(企业有可能会遇到以下两个瓶颈:1、尽管企业有大量的数据,但有很多数据不准确导致商业智能应用受阻;2、业务模型建不起来,影响商业智能的应用。此两个瓶颈不在讨论之列,就当企业不存在这两个问题),您都要解决现有业务系统下会遇到的五大瓶颈问题:

瓶颈一:性能低劣

性能的好坏直接影响系统的运行速度,尤其是针对拥有TB级数据量的客户。但性能的好坏主要是看基什么样的标准,因为客户进行大量的查询,报表,分析,OLAP……对得到的结果,会有以下反应:

  1. 不觉得很慢,因为没有和其他的对比,觉得就是这样的速度;
  2. 目前的状况尚可以接受这样的结果,不需要做改变;
  3. 实实在在速度很高,没有可比性(此为少数,不在讨论之列)。

故此,客户对性能好坏没有太大的感觉,但是当系统中的数据过于庞大,达到TB级(海量数据)时,就不得不考虑性能问题了,试想,如果运算了三十分钟结果还是出不来,最终死机了,您能忍受吗?但如果仅需要十秒八秒就完成三十分钟的事情,您觉得如何?要达到这样的效果,必须解决性能低劣问题,要拥有以下四方面创新技术:

1、 超高速ETL引擎技术

要解决海量数据性能问题,必不可少方法之一就是建数据仓库,要建好数据仓库就必须要有好的ETL,没有好的ETL工具,数据仓库肯定差,当数据量越大时,您的运行速度必定很慢。例如出入境报表性能处理案例,出入境系统主要是统计全国出入境人口情况,所以数据量相当庞大(千万记录级),在软硬件条件都已非常好的情况下(Oracle 10g / 10多台刀片式服务器集群服务),按传统的做法,从数据库查询一条简单SQL语句,Oracle需要30分钟后才有回应。为了提高性能,我们使用数据仓库技术解决此问题,利用数据仓库技术,针对业务关系数据库的大数据量表,划分为多个大数据量主题,建立相应的多维数据集。根据对出境申请和签注办理这两个多维数据集的测试结果,性能可提高几十倍甚至过百倍。一般条件下,不超过10秒可出结果。不管多复杂的条件组合,一般也不超过一分钟可出结果。目前出入境如涉及到数据量比较大的表时,都采用了此数据仓库方式实现。使用了数据仓库后,报表统计速度由原来的56分钟,降到现在只需10多秒就统计完毕. 性能比以前提高几十倍甚至过百倍。

2、 “去掉”表关联技术
在您构造各种组合查询、报表时会涉及表与表之间的关系,即是通过表的关键标识将表关联起来,如果您涉及查询表关联越多,速度将会越慢,尤其是数据量大时,更有可能死机。故此必须要有“去掉”表关联技术,通过一种计算方式,在众多的路径中找到最短的路径,通过简单的拖放连线,熟悉库结构的IT人员或开发商就可以预先把表关系建好在语义层中,支持多字段关联、内外连接。这样,最终用户在做查询或报表时,就不必理会表关联了,需要查什么直接拖放即可。

3、 代码表快速转换技术

在利用计算机进行查找时,我们都知道英文比中文快,数字比中文快。如果数据库很多字段里的内容是中文,那么对中文进行查找会相当慢,若查找的量很大,则有可能出现“老牛拉破车”一样令人无法忍受。这时候必须要有一项技术进行代码表转换,这项技术可以把任何东西变成数字或字符处理,计算机频繁处理时是数据,出来的结果是中文,由数字和中文一一对应,使查找起来非常快速。

4、 海量数据处理技术

当查询统计分析的数据量非常大(达到TB级)时,数据的缓存空间就成为处理海量数据最大的难题,以内存提供缓存空间的做法将极大程度上影响到其他的后台运作,当内存无法负荷时就会导致速度缓慢,任务排队,甚至是系统死机,BQ的“资源人工智能分配技术”通过对CPU,内存和硬盘的智能分配,实现海量数据的高效查询。

上述这四个方面在性能上是至关重要的,也是技术上最大的难点!

瓶颈二:过往成果不能重用

当千辛万苦制作好大量报表、查询、分析,因为业务的需求变化,也许里面的某一条公式发了变化,例如:业务公式为“f(a)”,变更为“f(b)”,您能在每一个报表、查询、分析众多元素内找到这条公式吗?您还能记住在哪个地方吗?或许做这些报表的人已更换,新接手的人就更可想而知了,即便是您自己经手的,尽管您对每个报表、查询、分析关系相当的清楚,相信您也不大好找,这样费事费劲的工作可能还会分分钟钟因为手工修改而出现遗漏的地方,难道放弃重做?那要花多少资源?多少成本?这意味着企业辛苦做出的成果得不到重用,这种浪费是非常可悲的……。

如果有一项“全对象重用技术”,就轻而易举的解决以上问题,这项技术把所有需要操作的元素(数据源、表、字段、条件、查询、报表等)构建成对象直接引用到报表,查询、分析中,当修改一个对象,凡是引用该对象的地方都会自动修改。

 瓶颈三:数据无法多元化展示

随着业务应用深入,对数据呈现的方法必须是多种多样的,各种各样的报表、查询、分析是否都能做?因为属于商业智能业务应用的范围非常广,如果无法一一满足需求的话,这势必会成为企业的瓶颈,企业不得不面临两种选择:要不就只能再购买其他的产品来弥补,但又要考虑到如何整合的问题;要不就只能自行开发,但花费的人力、投入的资源都必须面对,并且开发出来是否适用还是个问题……最后,甚至会出现用不下去只能放弃的局面。

瓶颈四:无法将结果集合在同一视图

各种查询,报表,分析彼此之间都是有关联的集合,如何把这些做好的结果集合在一个视图里浏览?如果没有这样的一项技术,只能一一打开这些查询、报表、分析来看,这样看不是不可以,但是看起来相当的费劲,也只会让您看了前面的忘了后面的,看了后面的由忘了前面的,并且难以记住关联的关系,当不同参数选择不同的内容,关联还会发生变化,如果不在同一个视图根本就不可能直观的看到这种变化。

要解决这个问题必须要有EIS,将彼此关联的查询、报表放在同一个视图,并辅以直观的图象,如此一来就能一目了然,非常全面的看到各项关系的变化。

瓶颈五:无法动态展示文字报表

报表、查询、分析相对是独立的,即使解决了上面瓶颈四的问题,但决大部分展示出来的主体是数字和表,还无法真正体现文字报告,文字报告指的是能将文字、数字、图表三者有机结合,以大量文字为主体,穿插很多数字或与数字有关的图表。传统的文字报告由人工编辑完成,一旦数字变了,文字要相应的做改变,与之相关的图表也要随之修改,如果这样的报告很多,那么工作量就会大大增加,出错的机率也增大。

目前有一种WordReport报表,在WORD里动态生成文字、数字、图表三者的关系,能将数字和文字对应起来,动态变化展示,无须手工改动,更可靠、准确,大大提高了工作效率。

不管是引进的商业智能或者是自行开发的系统,如果不能解决以上五大瓶颈问题,企业无法在原来的基础上有质的飞跃

本文作者:amteam.org 来源:http://www.amteam.org/
CIO之家 www.ciozj.com 微信公众号:imciow
    >>频道首页  >>网站首页   纠错  >>投诉
版权声明:CIO之家尊重行业规范,每篇文章都注明有明确的作者和来源;CIO之家的原创文章,请转载时务必注明文章作者和来源;
延伸阅读
也许感兴趣的
我们推荐的
主题最新
看看其它的