下一代数据仓库平台的物理架构将会面对的主要挑战包括数据加载、可用性、数据容量、存储性能和运营成本等。本文将逐一介绍这些挑战。
分析
设计下一代数据仓库平台,需要确定整个数据元素集的分析处理需求并对其划分类别。因为我们可以在数据发现层次上创建分析,虽然这个层次主要受到业务消费者的关注和驱动,与企业应用的实际情况不符合,但是我们一样可以在从数据仓库获得数据之后再创建分析。
数据集成层是关键架构集成层,是我语义、报表和分析技术的组合,它基于语义知识框架,是下一代分析和商业智能的基础。
数据架构的最终确定是最耗费时间的任务,但是一旦完成,它就可以为物理部署提供坚实的基础。物理部署将使用到前面介绍的技术,其中包括大数据和RDBMS系统。
物理组件的集成与架构
下一代数据仓库将部署在异质基础架构和能够把传统的结构化数据和大数据一起整合到一个可扩展运行环境的架构上。有几种方法可以部署物理架构,但是每一种方法都有各自的优点和不足。
下一代数据仓库平台的物理架构将会面对的主要挑战包括数据加载、可用性、数据容量、存储性能、可扩展性、数据的多样变化查询要求、运营成本和环境维护。下面将逐一介绍这些挑战。
数据加载
由于没有明确的格式、元数据或模式,大数据的加载过程只是直接查询数据并将它存储为文件。如果要处理系统的数据源,同时又要处理超大数据或微批处理数据,那么这个任务可能会非常复杂。在这种情况中,可以用一个经过配置和优化的设备来处理这些极端情况,而不要用某一个专业部署。这种方法的缺点是需要定制架构配置,但是它仍然是可管理的。
平台数据的持续处理可能会在一段时间里产生资源争夺问题。这种情况常见于大文档、视频或图像。如果这个需求对架构来说很重要,那么就适合使用一个软设备,这样在配置和安装过程就可以避免这个问题。
大型环境的MapReduce配置和优化可能很有难度,但是设备架构会提供一些参考架构安装步骤,帮助我们简化这个过程。
数据可用性
数据可用性一直是所有涉及处理和转换最终用户数据的系统的难题,大数据也不例外。Hadoop或NoSQL的优点是能够降低这个风险,同时使数据在获取之后马上就可用于分析。不足是需要快速加载数据,因为没有任何预转换步骤。
数据可用性取决于SerDe或Avro层次的元数据特殊性。如果在获取数据时对它们执行了足够详细的分类,那么它们就可以马上用于分析。
由于大数据层次的数据不存在更新,所以处理包含更新的新数据将产生重复数据,我们必须处理这些重复数据,才能减小它们对于可用性的影响。
数据容量
数据的内在特性决定了大数据容量很容易失去控制。在每个数据获取周期中都一定要特别注意数据的增长。
数据停留需求各不相同,它主要取决于数据的性质、新近程度及其与业务的关系:
合规性需求:Safe Harbor、SOX、HIPAA、GLBA和PCI法规可能会影响数据安全性和存储。如果计划要使用这些数据类型,那么一定正确规划。
法律授权:有一些事务数据集不能在线存储,法院要求使用这些数据来发现集体诉讼的意图。大数据基础架构可以作为这种数据类型的存储引擎,但是数据授权一定要符合一些需求和额外的安全要求。这种数据容量可能会影响整体性能,而且如果在大数据平台上处理这些数据集,那么设备配置可以给管理员提供一些工具和方法,帮助他们将基础架构划分到不同的区域,为数据标记不同的区域标签,从而减小对于风险和性能的影响。
数据探索和挖掘是一个非常普通的活动,它是在各个组织中实现大数据抓取的一个动因,它也会在数据处理之后产生大规模数据集。这些数据集需要保存在大数据系统,然后定期清理和删除中间数据集。这是各种组织经常忽略的一个领域,而且可能在一段时间之后对性能产生严重影响。
存储性能
在创建大数据系统时,磁盘性能是一个重要考虑因素,设备模型可以更多地关注存储类型和分层架构。对于存储基础架构的长期规划和增长管理而言,它可以作为一个起步工具。
如果在大数据处理中计划组合使用内存、SSD和传统存储架构,那么不同层次数据的维持和交换都会花费大量的处理时间和处理周期。我们需要特别注意这个领域,设备架构专门为这种复杂存储需求提供了一种参考。
运营成本
计算一个数据仓库及其大数据平台的运营开支是一项复杂的任务,运营成本包含基础架构的初始采购费用、实现架构的劳力成本及持续维护所需要的基础架构和劳力成本,包括获取外部咨询和聘请专家的费用。
网友评论