企业真心没必要匆匆上马大数据项目。您企业的档案往往是最大的数据存储库,且其中包含了诸多最有价值的信息。
在发掘大数据重要价值的过程中,生产应用程序和探索性数据科学沙箱往往得到最多的关注。这就是为什么如果您不是一个大数据专家,您可能已经忽略了大数据存储的地方——着落区(landing area)在您企业的数据管理分析基础设施中所能够发挥的关键作用了。
大数据着落区的角色定位是故意模糊的。其显然不是您运行您的快速查询、进行交互式探索、以及建立预测模型的生产前端接入口和沙箱层。也显然不是您存储企业核心系统参考数据、管理元数据,并实施数据治理标准的生产枢纽层。
但在许多方面,大数据的着陆区可谓是这些生产和开发系统的基石。
您企业的大数据的着陆区提供了几个关键角色作用。其可能是您获得和收集来自操作系统的数据来源,并预先将这些数据源传递到下游的其他业务系统。其也可能是您汇集、匹配、合并、清理、转换、提升数据采集来源,预先将其交付到集线器或前端的地方。又或者,其可能是任何业务系统数据的起源,包括交易、分析、或内容管理业务。其剩下的时间都将作为一份历史存档。
让我们把关注的焦点放在档案方面,这是当大数据不再需要支持企业核心生产应用程序,但仍然对企业遵守合规性、电子证据、安全、诊断和支持其他应用具有价值时所存放的地方。
存档的传统定义是一个业务应用程序不再需要的历史数据仓库。很明显,通过这个定义我们可以看出,许多档案已然演变成企业最大的大数据平台。
实际上,档案可能是您企业实现大数据状态,并逐步收集多种来源的数据,增长到PB级存储异构信息的第一个数据库。事实上,归档的目的就是要坚持历史数据能够按需进行检索和分析的手段,这意味着其需要进行优化,以便能够快速的查询,搜索和报告。
事实上,可查询归档已然成为杀手级大数据应用程序好一段时间了。电信运营商一直在大规模可扩展的档案平台上完成呼叫详细记录分析。安全事件和事件监控,以及反欺诈应用程序通常需要巨大的数据库,坚持从系统级安全、身份验证和其他系统获取相关的事件数据。许多IT日志分析应用程序,如排除故障、诊断和优化应用程序在数据库上运行,规模从很低的百万兆字节,到PB级不等。综合时间序列分析客户、库存、物流和其他趋势都必须基于业务系统提供的大量最新数据归档。
显然, 可查询档案的角色定位是类似于Hadoop这样的静态数据(data-at-rest)平台。但是,各种NoSQL平台也同样可以做到,只要他们被设计为按照一定的规模和速度针对特定类型的数据归档。同样地,不要指望您企业可查询的关系数据库管理系统(RDBMS) 归档是结构化数据。
根据您企业的要求,您可以针对不同的大数据集部署一个或多个档案,并优化每个不同的底层平台。无论您决定做什么,关键的标准是您且有的大数据平台是否是归档部署的,是否支持所有预期类型的查询,这种查询可能是针对所有的数据进行存储和管理快速的执行。
文章转自:机房360
网友评论