在实施数据仓库的过程中,还面临着很多影响数据仓库项目成败的关键因素,而这些因素实际上并不完全是技术层面的。这也是为什么数据仓库项目失败比例很高的主要原因。
采用何种实施方法
在实施数据仓库的过程中,还面临着很多影响数据仓库项目成败的关键因素,而这些因素实际上并不完全是技术层面的。这也是为什么数据仓库项目失败比例很高的主要原因。只有在项目中很好的解决这些问题,才能保证数据仓库项目的最终成功。下面分别介绍这些需要关注的问题:
企业级数据仓库的实现通常有两种途径:一种是从建造某个部门特定的数据集市开始,逐步扩充数据仓库所包含的主题和范围,最后形成一个能够完全反应企业全貌的企业级数据仓库;另外一种则是从一开始就从企业的整体来考虑数据仓库的主题和实施。前一种方法是各个击破,投资少、周期短且易于见到成果,但由于该设计开始时是以特定的部门级主题为框架的,向其他的主题和部门扩充往往非常困难。而后一种方法恰恰相反:投资大、周期长,但是易于扩展。
以哪种方法进行实施,主要取决于各个行业和客户的实际情况。如电信和银行业,采用第二种方法比较可行,这是因为这两个行业业务发展变化快,为了能够适应将来的变化,整个数据仓库架构必须是可扩展的和易于维护的。如果只是基于部门级的需求去设计,将来肯定无法适应变化。如果重新设计,势必造成前期投入的浪费。对其他一些行业,如制造业和零售业,本着“急用先行”的原则,可以先从某一局部入手,慢慢扩展为数据仓库。
从技术上讲,以部门需求作为主要考虑因素建立的系统,它的数据量不会太大,会影响对将来数据膨胀风险的正确估计,当数据集市扩展到企业范围的时候,由于原有技术无法支撑新的数据规模,会造成数据装载和数据分析速度的降低,甚至达到不可用的地步。另外,企业级的数据仓库会涉及更多的额业务系统,只有充分研究各业务系统,才能了解如何对不同格式、不同标准、不同接口的数据进行集成。如果没有这方面的准备,当扩展到企业层面时,会面临很多技术问题,难以解决,而不得不对原有系统进行修改或重建。
当然,对于第二种方法,也不是说把摊子铺的越大越好。合理的做法是“统筹规划,分步实施”。根据业务需求,把业务的主要方面都涵盖进去,确定彼此之间的联系;对于次要的需求,可以预留一些接口,以备将来细化。否则,如果整个调研周期拖得太长,等进入实施阶段,业务又发生变化,不得不重新修改设计,同样会造成浪费。所以,先搭建好一个易于扩展且稳定的架构,在此基础上逐步实施,是一个兼顾长远发展与合理投入的最佳方式。
此外,分步实施还可以减少风险:前一阶段的经验教训可以为下一阶段提供有益的借鉴,从而使得数据仓库的建设不断完善,不断发展。
从业务需求出发,结合先进的实现技术
和其他的应用系统相比,数据仓库对于需求分析和系统设计等前期工作要求更高,其重要性也更加突出。可以说,分析和设计阶段决定了数据仓库最终的失败。因为需求不明确、设计不合理造成的根本性缺陷是以后实施阶段所无法弥补的。因此在分析和设计阶段,对相关的业务部门和技术部门要进行详细的调研,在用户和开发人员之间的迭代和反馈是必须和重要的,它决定了数据仓库最终的成功与否。
由于数据仓库是面向业务分析的,所以最主要的需求应该从业务部门获取和收集,因为数据仓库最终是要服务于业务部门的。需求抓的不准,导致将来将无法解决业务部门的问题,这个数据仓库项目就是失败的,技术再先进也没有用。这是衡量数据仓库成败与否的唯一尺度。
实施的过程中,最好能够把行业专家的经验,与企业现有的需求进行整合,以期得到一个更加全面的需求范围,有利于适应将来业务的变化和扩展。
从技术的角度来讲,必须建立一个可伸缩、可扩展、高性能的数据仓库平台,才能为将来不断的完善、不断发展打下一个良好的基础;同时,由于数据仓库项目要涉及多个业务系统,数据量非常庞大,所以本身的投入也是很大的,在保证系统高效稳定的前提下,尽量降低成本是非常重要的。
网友评论