企业很多有价值的信息往往就在封存已久的历史数据中,但大多数企业并不善于发掘其中的价值,也就丧失了很多商业机会。
企业很多有价值的信息往往就在封存已久的历史数据中,但大多数企业并不善于发掘其中的价值,也就丧失了很多商业机会。
因此,对于还没有建立数据仓库的企业CIO们而言,需要尽快建立一套适合自己企业的数据仓库,找出那些能够带来新的商业机会和商业价值的数据,将企业中有价值的数据集中到一个统一的环境中,以为企业领导分析、决策提供支持。
并非数据库
企业CIO们需要建立的是具有历史可溯性、面向主题、相互集成、非及时性的数据仓库,而非经常使用的数据库或数据库查询系统。现在部分企业CIO还往往将数据仓库和数据库混为一谈,但它们之间有着本质的区别。
就数据仓库和数据库本身而言,区别主要在4方面:首先,面向主题不同:数据库的数据组织面向事务处理任务,各个业务系统之间各自分离。而数据仓库中的数据是按照一定的主题进行组织。这里的主题是一个相对抽象的概念,是指用户使用数据仓库进行决策时所关心的重点。
其次,集成度不同:数据库通常与某些特定的应用相关,数据库之间相互独立,并且往往是异构的。而数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,因此,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。
第三,稳定性差异大:数据库中的数据通常实时更新,数据根据需要及时发生变化。而数据仓库中的数据主要供企业分析、决策之用,所涉及的数据操作主要是数据查询。一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期加载和刷新。
第四,反映历史变化阶段不同:数据库主要关心的是当前某一个时间段内的数据。而数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时间点到目前各个阶段的信息。通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。
据了解,3M公司就是一个优秀的应用企业级数据仓库的例证。该公司调整了业务处理过程,把战略数据分析转变成可行的决策。3M把60个数据集市整合为一个集中的数据仓库,员工可以根据需求从自己的电脑上查询客户、产品、销售和财务数据。技术和员工的结合把信息变成了战略优势。3M曾发表的一篇文章中指出,数据仓库技术的应用已经帮助其提高了10%的销售量。而且,由于减少了维修成本,以及销售报告的准确及时,公司节省了1000万美元的年度开支。
数据仓库之父Bill Inmon指出,企业数据仓库的建设是以现有企业业务系统和大量业务数据的积累为基础的。数据仓库不是静态的过程,只有把信息及时交给需要这些信息的使用者,供他们做出改善其业务经营的决策,信息才能发挥作用。而把信息加以整理归纳和重组,并及时提供给相应的管理决策人员是数据仓库的根本任务。
NCR公司前任董事长倪百礼则表示,数据仓库不是静态的过程,决策也不是一个静态的过程。企业数据仓库作为综合的决策结构是唯一能够处理所有当前和未来业务的变量的基础。当你做商业决策时,需要从多个数据集市(数据集市用于单一、局部智能分析)或资源系统提取信息,但是由于数据集市各自独立,每个都由一个应用软件支持,因此信息调用极为不方便。为了以较低的成本做出一个更好、更快的决策,你需要全面的业务信息和全局的视点。这就是说,你要掌握所有操作系统和客户接触点上的可用数据,有时一个企业数据仓库中有将近100个资源系统。综合决策不仅是一种决策方法,长远地看也是最节省成本的方法。许多公司认识到多个独立的数据集市不仅限制了分析能力,而且成本也相当高。
术业有专攻
对于目前主流的数据仓库厂商而言,各有自己的特点。比如,Sybase IQ是Sybase公司高度可扩展的分析型数据库引擎,其摆脱了以往传统关系型数据所采用的行存储,而是采用基于列的存储方法,这是区别于其他竞争对手的显著特征。Sybase IQ不仅支持几乎无限的并发查询,还拥有多线程与24 X 7的高可用性。该系统内部核心采用按列存储技术,获得专利的Bit-Wise索引技术,独特的数据压缩技术等,这些技术使查询分析的速度提高10到1000倍,并且存储空间可以做到比原始数据还要小,避免数据仓库中数据的膨胀速度过快的弊端。
因此,用户在运行OLAP分析、数据挖掘时就不会再受存储能力和处理速度的限制。如果再配上Replication Server,实现DODS解决方案,还可以做到实时地从生产系统中抓取数据,从而确保分析数据的准确性。和Sybase的其他产品一样,IQ的开放性也十分优异,它既可以很好地支持PowerCenter 等ETL工具获取合格的原始数据,也可以满足BO、Cognos、SPSS、SAS等做信息分析的需要。
IBM DB2数据仓库管理器则能简化并加快数据仓库的原型设计、开发和应用;使数据中心能够管理查询、分析成本、管理资源和跟踪使用情况;帮助用户寻找、了解和访问信息;满足任意规模企业的通用报告需求;提供大量的数据仓库工具和技术。通过数据仓库中心,企业可以访问DB2, Oracle, Sybase, Informix, Microsoft ,普通文件,ODBC和OLE DB数据源。它使用简单移动技术可以帮助企业迅速起步,并能够为更多的数据移动提供更先进的功能。另外,DB2数据仓库管理器扩展了可访问数据源的种类,使用户可以利用IBM Classic Connect来访问IMS和VSAM数据源。
另一重要产品,Teradata数据仓库则结合了Teradata高性能的数据库技术,具备强大的高性能数据库技术、全套数据查询及管理工具、强大的数据挖掘功能,可提供整合的、最优化的和高可扩展的企业级数据仓库技术和服务。Teradata企业级数据仓库是一个单一的、整合了企业当前和历史数据的知识库,它支持各种应用,企业可以通过它分析业务需求,从而优化和加速决策。另外,Teradata独有的并行架构具有高扩展性和高可用性,可在大多数行业环境中灵活应用,为企业用户创造价值。
市场上的主流数据仓库产品还有几个,比如Oracle和微软都有相关的数据仓库产品,虽然这些产品不是Oracle和微软市场推广的重点,但是产品功能也很多特色。对于想要部署数据仓库系统的企业CIO来说,需要根据自己的实际需要,进行合理甄选,选择一款适合自己企业的数据仓库系统。
未来的数据仓库
对于数据仓库未来的应用状况, NCR Teradata数据仓库事业部大中华区总裁吴辅世认为,证券、保险、零售和制造业将成为数据仓库的重要市场,特别是制造业,未来将会有突飞猛进的发展。
吴辅世说,“从目前国内的情况来看,数据仓库主要应用在市场竞争比较激烈、数据量比较大、有着较为迫切分析与决策支持需求的行业,如电信和银行,但是在证券、保险、零售和制造业方面我们也看到了很多机会。特别是制造业务,我认为在未来应该会有突飞猛进的发展。”影响制造业最大的因素是分销渠道。国内的制造业都是现金投资,不管是在珠三角,还是在长三角,一些高科技的制造企业,包括很多台资企业,都引入了ERP系统,ERP系统在提高工作效率、降低库存、节省原料,缩短生产周期,应用分析、生产数据,提高生产能力等方面都能发挥巨大作用,但是其市场预测和市场分析、决策能力并不强。因为对企业、市场、客户未来变化的分析、判断还有赖于CRM、SCM、分析决策系统等系统中的数据。因此,有必要建立一个统一的数据仓库平台,为市场分析、决策提供支持。
Sybase相关负责人则表示,未来金融、电信、能源、交通、政府行业仍将是数据仓库销售市场的主力对象。为此,Sybase亚太区将延续2004年的产品市场策略,即更加深入了解金融、电信、能源、交通、政府5大行业的需求,提供符合其发展和需求的解决方案,并通过推广代理商及合作伙伴对Sybase产品的了解及应用,带动中小企业目标市场的增长。但Sybase表示,在扩大、巩固这5大行业市场的同时,也会加大制造业和中小企业市场的拓展力度。
对于未来的数据仓库到底能够实现怎样的功能和带来哪些切实的变化,业内人士指出,新的数据仓库技术将能够实时从企业内部和外部数据源中采集数据,现场决策者可以每天争分夺秒地制定战术、决策。它将拥有回复速度以毫秒计量的极佳性能,永不停机的极高可用度,实时掌握交易事件的数据新鲜度,能发掘数据中所有的商业关系的高整合度,以及良好的可扩展性。
在获取、访问方式和数据源方面,未来的数据仓库技术也将发生很大变化:在数据获取和访问方式方面,传统信息管理的特点是,大部分的数据从内部数据源采集,供“象牙塔”中的决策者使用,主要是用来制定长期决策,聚焦于战略性。而新一代的信息管理的特点将是实时从内部和外部数据源中采集数据;使用范围扩展至 “前线”决策者;每天争分夺秒地进行决策。
另外,在数据访问方式方面:纵向整合机构将被“虚拟”机构所取代;整个价值链将共享数据;将客户整合到价值链中,此外访问数据的用户数量高速增长:机构的虚拟化意味着数据仓库用户数量的高速增长;将转向基于事件的分析,加之无人为决策参与,使得数据模式趋向由事件驱动和软件代理程序处理。
网友评论