运用大数据技术集成数据仓库架构

互联网 | 编辑: 何毅 2014-01-07 09:27:00转载

下一代数据仓库平台的物理架构将会面对的主要挑战包括数据加载、可用性、数据容量、存储性能和运营成本等。本文将逐一介绍这些挑战。

分析

设计下一代数据仓库平台，需要确定整个数据元素集的分析处理需求并对其划分类别。因为我们可以在数据发现层次上创建分析，虽然这个层次主要受到业务消费者的关注和驱动，与企业应用的实际情况不符合，但是我们一样可以在从数据仓库获得数据之后再创建分析。

数据集成层是关键架构集成层，是我语义、报表和分析技术的组合，它基于语义知识框架，是下一代分析和商业智能的基础。

数据架构的最终确定是最耗费时间的任务，但是一旦完成，它就可以为物理部署提供坚实的基础。物理部署将使用到前面介绍的技术，其中包括大数据和RDBMS系统。

物理组件的集成与架构

下一代数据仓库将部署在异质基础架构和能够把传统的结构化数据和大数据一起整合到一个可扩展运行环境的架构上。有几种方法可以部署物理架构，但是每一种方法都有各自的优点和不足。

下一代数据仓库平台的物理架构将会面对的主要挑战包括数据加载、可用性、数据容量、存储性能、可扩展性、数据的多样变化查询要求、运营成本和环境维护。下面将逐一介绍这些挑战。

数据加载

由于没有明确的格式、元数据或模式，大数据的加载过程只是直接查询数据并将它存储为文件。如果要处理系统的数据源，同时又要处理超大数据或微批处理数据，那么这个任务可能会非常复杂。在这种情况中，可以用一个经过配置和优化的设备来处理这些极端情况，而不要用某一个专业部署。这种方法的缺点是需要定制架构配置，但是它仍然是可管理的。

平台数据的持续处理可能会在一段时间里产生资源争夺问题。这种情况常见于大文档、视频或图像。如果这个需求对架构来说很重要，那么就适合使用一个软设备，这样在配置和安装过程就可以避免这个问题。

大型环境的MapReduce配置和优化可能很有难度，但是设备架构会提供一些参考架构安装步骤，帮助我们简化这个过程。

数据可用性

数据可用性一直是所有涉及处理和转换最终用户数据的系统的难题，大数据也不例外。Hadoop或NoSQL的优点是能够降低这个风险，同时使数据在获取之后马上就可用于分析。不足是需要快速加载数据，因为没有任何预转换步骤。

数据可用性取决于SerDe或Avro层次的元数据特殊性。如果在获取数据时对它们执行了足够详细的分类，那么它们就可以马上用于分析。

由于大数据层次的数据不存在更新，所以处理包含更新的新数据将产生重复数据，我们必须处理这些重复数据，才能减小它们对于可用性的影响。

数据容量

数据的内在特性决定了大数据容量很容易失去控制。在每个数据获取周期中都一定要特别注意数据的增长。

数据停留需求各不相同，它主要取决于数据的性质、新近程度及其与业务的关系：

合规性需求：Safe Harbor、SOX、HIPAA、GLBA和PCI法规可能会影响数据安全性和存储。如果计划要使用这些数据类型，那么一定正确规划。

法律授权：有一些事务数据集不能在线存储，法院要求使用这些数据来发现集体诉讼的意图。大数据基础架构可以作为这种数据类型的存储引擎，但是数据授权一定要符合一些需求和额外的安全要求。这种数据容量可能会影响整体性能，而且如果在大数据平台上处理这些数据集，那么设备配置可以给管理员提供一些工具和方法，帮助他们将基础架构划分到不同的区域，为数据标记不同的区域标签，从而减小对于风险和性能的影响。

数据探索和挖掘是一个非常普通的活动，它是在各个组织中实现大数据抓取的一个动因，它也会在数据处理之后产生大规模数据集。这些数据集需要保存在大数据系统，然后定期清理和删除中间数据集。这是各种组织经常忽略的一个领域，而且可能在一段时间之后对性能产生严重影响。

存储性能

在创建大数据系统时，磁盘性能是一个重要考虑因素，设备模型可以更多地关注存储类型和分层架构。对于存储基础架构的长期规划和增长管理而言，它可以作为一个起步工具。

如果在大数据处理中计划组合使用内存、SSD和传统存储架构，那么不同层次数据的维持和交换都会花费大量的处理时间和处理周期。我们需要特别注意这个领域，设备架构专门为这种复杂存储需求提供了一种参考。

运营成本

计算一个数据仓库及其大数据平台的运营开支是一项复杂的任务，运营成本包含基础架构的初始采购费用、实现架构的劳力成本及持续维护所需要的基础架构和劳力成本，包括获取外部咨询和聘请专家的费用。

每日精选

手机价格或迎来拐点：小米上调出货 OV拒涨报价

存储芯片持续涨价成为压在手机行业身上的重担，市面上所有机型售价一路走高。随着小米上调出货，OV拒绝了涨价报价，似乎手机价格要迎来拐点了。

标签：存储| 涨价| 降价| 2026-07-25
白色装机党的新答案：技嘉B850 雕妹颜值性能一次拉满

纯白ICE设计、二次元雕妹元素、16+2+2相数字供电、PCIe 5.0、Wi-Fi 7、DDR5高频支持以及完善的DIY易用性，技嘉B850 AORUS ELITE-P ICE雕妹兼顾颜值、性能与扩展能力，为AMD AM5平台白色装机玩家提供了一套均衡且具备长期升级潜力的解决方案。

标签：技嘉| B850雕妹| 主板| 导购| 2026-07-25
618拉动家用路由器销量回暖，均价回落头部格局稳固

6月中国家用路由器线上主流市场（含京东、天猫等电商平台）的销量为103.6万台，同比下降7.9%，环比增长18.8%；销额为2.6亿元，同比下降9.5%，环比增长17.3%。

标签：路由器| 618| 2026-07-25
全新米家无线洗地机5C预约中三重防缠，售价999元

小米推出了全新洗地机——米家无线洗地机5C，采用三重防缠绕技术，拥有45分钟超长续航，支持60℃热流净味透烘。

标签：小米| 米家| 洗地机| 2026-07-26
高通全系芯片涨价下半年旗舰手机涨价已成定局

据美国媒体报道，高通于当地时间7月24日向全部合作客户下发官方调价通知，宣布上调全系列芯片供货价格，整体涨幅达两位数。

标签：高通| 涨价| 2026-07-25
用户零责任！铂智7电池事故起火厂家全担责

广汽丰田推出行业首个“电池事故起火厂家全担责”政策，覆盖非品质问题，并提供三电终身质保。此举结合OTA升级与王心凌代言，彰显其扎根中国、用户为本的转型决心。

标签：铂智7| 2026-07-25
游戏手机必备骁龙8E6 Pro独占1440P超分超帧

骁龙8E6 Pro支持LPDDR6内存，独占1440P超分、AI插帧两大游戏专属功能，游戏综合体验大幅升级。

标签：骁龙| 骁龙8E6Pro| 1440P超分| 2026-07-27
2026上半年智能投影销量大跌市场连续九季度下滑

上半年，中国智能投影市场（不含激光电视）全渠道的销量为205.6万台，同比下降26.0%；销额为33.4亿元，同比下滑27.0%。自2024年第二季度起，市场已连续九个季度发生了规模的同比下滑。

标签：智能投影| 投影| 极米| 坚果| Vidda| 2026-07-27
苹果积极游说使用中国存储芯片美光强烈反对

苹果正游说美国政府，希望获准在海外销售的苹果设备中搭载中国供应链的存储产品，以此缓解全球存储供货紧张局面，还能从源头控制硬件成本，进而降低终端产品售价。

标签：苹果| 长鑫存储| 长江存储| 美光| 2026-07-27
首款机器人手机荣耀Robot Phone定档8月12日

荣耀手机正式官宣，荣耀Robot Phone将于8月12日发布，这款新品由荣耀与专业影视器材品牌阿莱（ARRI）联合研发。

标签：荣耀| 荣耀RobotPhone| 2026-07-27