首页  ·  知识 ·  大数据
数据是企业BI和DW应用的核心
佚名  http://www.amteam.org/k/BI/2007-11/602971.html  实践应用  编辑:dezai  图片来源:网络
企业BI/DW软件的核心是数据,这些数据被提供给正在寻求使用这一信息进行更好决策的企业用户。妥善地管理这一信息是企业BI团队最关键的活动,这也是充满最大

企业BI/DW软件的核心是数据,这些数据被提供给正在寻求使用这一信息进行更好决策的企业用户。妥善地管理这一信息是企业BI团队最关键的活动,这也是充满最大挑战的领域。
  如果你已经透彻地了解了用户在其BI应用程序中所需的报告和分析视角以及他们在这些视角中需要的度量和维度――你已经迈出了正确的第一步。这将帮助你确定你需要的数据以及获取这一数据的优先级。

  获取数据源

  一旦你知道了所需的数据类型,你就需要确定从哪里获得这些数据。

  如果数据存在于某个源系统中,你需要分析相关数据以确定其是否能够真正支持报告需求。这通常是通过数据抽样以及对数据运行查询以确定其内容来完成的。Data profiling工具可以帮助加快这一过程并帮助你更好地判断数据内容的好坏。

  如果数据存在于多个源系统中,数据分析任务会更困难――因为你将需要确定哪个数据源是权威数据源或来自哪个数据源的哪个数据元素是权威数据元素。最终对“权威性”的判定将需要考虑业务数据所有者和IT源系统所有者的意见。

  如果数据不存在于任何源系统中,你可能需要实施一个新的数据采集应用程序以搜集所需信息。另外,部分数据需求通常通过组合关于市场或客户或供应商及其活动的外部数据来满足。

  在获取数据来源时的另一个考虑就是从每个系统获取多少数据。这里的最佳方法是我称之为“touch it/take it”的方法。在你从一个源获取数据时,查看一下那里还有什么其他数据与未来的报告需求有关是很有意义的――将这一数据包括在BI数据库和提取、转换和加载(ETL)程序中。这有助于消除部分不可避免的对BI数据库和ETL程序的改变请求的慢慢积累,这种改变请求会随着时间流逝因为需要额外的数据元素而产生。这种方法并不意味着你需要从源系统的所有表中获取所有数据元素――而只是鼓励你留意那些业务用户可能不会马上要求的未来数据使用。

  集成

  在慎重地解决企业范围内的数据集成时,最佳方法就是在数据架构中创建一个企业数据仓库(EDW)层。EDW被用作来自多个源系统和主题领域的数据的集成点。来自多个系统的数据被带入EDW仓库形成一个通用的企业数据模型,源数据值被映射到企业标准中。

  在EDW中,通常存有你需要不断跟踪的数据元素的历史版本。例如,分析上的需要可能要求你知道过去某个州的客户被认为是属于某个地理区域,而现在该州归入了另一个区域。你将发现许多这样的例子并将需要设计数据模型和ETL程序以便能够存储随时间不断变化的数据元素的多个版本。

  在开发EDW时,经验是将数据存储在你预期用户所需的报告/分析粒度的最底层。如果你只将数据存储在EDW的细节聚集层中,当你聚集的层次随时间改变时,你将永远无法比较同类数据。但如果你将数据存储在粒度的最底层,你就极有可能在正确的层次上重现数据以满足变化的报告需求。以这种方式设计时,你可以确保EDW将更具弹性并能支持随时间流逝而需要的不同层次的报告细节。

  同样重要的是,你应该将其设计到粒度的最底层,这就允许将来自一个源的数据与来自另一个源的数据进行正确的集成。例如,在集成来自两个在雇员层级进行跟踪的系统的数据时,你将需要将数据存储在EDW的雇员层级,这样你就能正确地在两个系统间合并数据并开发出更有趣更有意义的度量。

本文作者:佚名 来源:http://www.amteam.org/k/BI/2007-11/602971.html
CIO之家 www.ciozj.com 微信公众号:imciow
    >>频道首页  >>网站首页   纠错  >>投诉
版权声明:CIO之家尊重行业规范,每篇文章都注明有明确的作者和来源;CIO之家的原创文章,请转载时务必注明文章作者和来源;
延伸阅读