Google已悄然部署世界上最大数据仓库

互联网 | 编辑: 江海明 2006-12-14 01:00:00转载

Google的触角似乎无处不在,现在它又和BI联系在一起。从对非结构化信息的处理、Web分析到数据分析以及与专业BI厂商的合作,Google推出的一系列产品和服务将会给BI带来什么影响?BI厂商又能从Google的举动中学到什么呢?

Google和BI有什么关系?这个站在风口浪尖上的公司,用一个“火”字来形容似乎并不为过。将BI跟它扯上关系,似乎有些攀高亲的意思。不过,现在BI确实已经和搜索技术联系起来,而后者正是Google的特长。对于BI厂商,在产品中融入搜索的功能似乎也是一个潮流,例如BO在前几个月发布的某产品版本中就着重强调了它的模糊搜索功能。

交融

搜索、文本挖掘,这些技术是相似的,特别是后者中出现了“挖掘”的字样,很明显和数据挖掘这个术语关联到一块。以前曾经听一个公司介绍他们的文本挖掘产品,主要特点就是订阅关键字,然后从各新闻网站中采集到相关的内容。此处的“相关”,按照这个产品的说法,并非简单的文字匹配,还考虑到语义。例如搜索BI,也能够将相近的,诸如“商业智能”、“商务智能”都纳入搜索范围。并且还具备一些关联性分析之类的东东,例如关键词主要出现的位置,和哪些词一起出现的频率。这种技术应用在竞争情报分析上面还是挺有趣的。现在,搜索引擎大多也在提供类似的功能,比如Google有alert,也是通过订阅关键字,返回相关的网页链接;百度也有这样的东东。但显然,他们的特点在于搜索,也就是信息采集阶段,分析的功能还是不够强。

如果将对这种非结构化的信息处理和传统数据仓库中ETL相比,搜索就相当于“E”的位置,它负责抽取。而网络上的各种新闻、文档,也就成了数据源。如果要对非结构化信息进行分析,还是得转换成结构化的,也就是说必须要经过转换,甚至装载的步骤。

这种需求似乎也正在出现,最近一段时间,就听到客户需要这么一个东东——能够搜索本地文档的工具。这些文档包括mail、pdf、word文档等等。一听到这样的需求,马上联想到不就是Google desktop提供的功能吗?正好自己机器上装了,便演示一把,果然不错。但还需要改进的是,能够有权限控制,让不同的用户能够搜索到不同级别的文档。另外,当然就看能不能将这个界面整合到自己的portal当中去了。

除了搜索技术,去年年底的时候,Google曾经买下一家做Web分析的公司(Urchin),并且将它作为一种免费的服务放在网上。一开始,只要有Google账号的都可以自动申请服务,后来改成审批申请了。这项服务可以为网站监控流量,从哪里来,往哪里去,以及访问次数等等,提供一些可视化报表来展现。分析部分是非常简单的,只是普通的报表展现。后台则是要求你在网页上嵌入一段代码,可以采集到网站的访问信息。当这项免费服务推出的时候,那些原来在这个领域中(现在成为Google的竞争对手)的公司,想必非常恼火吧。

再看看数据分析一块,最常用的数据分析工具是什么?Excel算是吧,或者称之为一种spreadsheet产品。现在google也有类似的玩意儿。比如,Google电子表格的速度就很值得注意。据说,在输入数据到工作表的时候,几乎不会遇到任何的耽搁。即便是重新计算负载公式工作表,也只会遇到轻微的停滞。所以,如果只是为了简单数学或管理小型列表,那么Google电子表格产品的确很容易被看作是一个完美易用的工具。不过,其功能还是比较简单,顶多是些公式计算的功能,远没有达到微软Excel那样复杂的程度,譬如作图就不行。但也有其本身的特点,因为是在网络上面的,因此Google似乎就更强调可以共享spreadsheet。

我们可以看到,Google这些产品和服务,多半还是围绕搜索这项核心技术,说得虚一些,都可以叫做信息采集。配一些简单的分析功能,倒能形成比较完整的服务,但如果要说专业,还算不上。因此,Google也选择了和专业BI厂商合作,譬如它的企业级搜索产品Onebox,就已经和Cognos、SAS展开合作。

BI的内容不少。这些大家伙们其实也都是比较专注的,其中单独的模块都能形成独特的产品,譬如元数据、数据质量,更别提这一块信息采集了。只是国内的这种市场并没有细分,“专注”对于公司来说确实是一个不小的考验。

 搜索带给BI什么

几个月前,国内某论坛上曾有人辩论,数据仓库和搜索技术哪个更牛一些。有位朋友说,国内某个公司用搜索就解决了数据仓库要解决的事情。这样的争论,当然不需要去参加,除非想去抬杠。

这两个领域的确有些地方交叉,但我还是认为,搜索可以为数据仓库提供非结构化数据的抽取和管理功能,但对于后续的分析,那还是BI的事情。当然,现在搜索也讲究自然语言的搜索(据说这也是Google将李开复挖过去的原因)。

老实说,我看不到搜索能够给BI带来什么明显的好处。因为它的强项——对非结构化数据的处理,似乎并没有那么迫切的需求(当然也不能否认那些大厂商创造需求的能力)。

如果说用搜索技术可以让企业领导、分析人员根据记忆中模糊的印象去查找一个指标值、一份报告,确实有用。但在大多情况下,领导更习惯于下达一个命令让手下人去告诉它那个搜索结果。而对于分析人员来说,如果他不知道那些指标的位置,那几乎就意味着不能胜任他的本职工作了。

当然,如果那些指标、报告的数量多到需要用搜索技术才能找得出来,那这个数据仓库已经发展到什么阶段就不知道了。但显然,目前从国内来看,几乎没有什么企业能够有这样的数据仓库。那么难道不能早作打算,先将搜索引擎做好吗?我想这是浪费时间,毕竟搜索不是一种基础设施。你想,当初Web发展起来的时候,哪里有搜索引擎这个概念呢?只有当信息量太大、太复杂了,才有它的诞生。

相关阅读

每日精选

点击查看更多

首页 手机 数码相机 笔记本 游戏 DIY硬件 硬件外设 办公中心 数字家电 平板电脑