亚马逊云科技“智能湖仓”架构在打通数据湖和数据仓库的基础上,进一步将各种数据服务无缝集成,确保数据在不同服务之间顺畅流动,致力于帮助客户尽可能最大程度地提高其数据价值,加速创新,并成为数据驱动型组织。
2017年,《经济学人》曾发文表示,“世界上最有价值的不再是石油而是数据”,这样的论断在今天已经成为现实。
世界已经步入数字化发展的快车道,如今每个小时产生的数据已经比20年前每年产生的数据的量还要多。大数据对于现代商业的影响不言而喻,用户期盼从数据中获得洞察,但同时也面临数据存储、处理和分析等方面的诸多挑战。
海量数据的存储、分析与挖掘背后通常离不开数据库。但伴随着企业业务的发展,以往传统的数据库结构并不能很好的适应现代企业的发展要求,继而诞生了数据仓库、数据湖的概念,尤其是数据湖、湖仓一体等新名词更是近年来的业内热门话题。
数据湖不只是个囤积数据的“大水坑”,还包含了一系列的数据入湖、数据出湖、数据管理以及数据应用工具集。简而言之,数据湖可以看作是由数据存储的基本架构加上数据处理的工具组成的解决方案,并不能算作是某个单一的产品。
作为全球领先的云服务商,6月24日亚马逊云科技针对数据及数据分析等服务持续发力,推出引领大数据未来的“智能湖仓”架构,并2021年初至今在由光环新网和西云数据运营的中国区域总共上线了近40项相关服务和特性。
那么,什么是“智能湖仓”架构呢?
简单来说,亚马逊云科技“智能湖仓”涵盖包括数据源、数据摄取层、存储层、目录层、数据处理层和消费层在内的六层架构,是以Amazon Simple Storage Service(Amazon S3)为基础构建数据湖,作为中央存储库,围绕数据湖集成专门的“数据服务环”,包括数据仓库、机器学习、大数据处理、日志分析等数据服务,然后再利用Amazon Lake Formation、Amazon Glue、Amazon Athena、Amazon Redshift Spectrum等工具,实现数据湖的构建、数据的移动和管理等。
亚马逊云科技“智能湖仓”也不是一个单一的产品,它是灵活的、具有弹性的架构,架构中的解决方案可以逐步增加、扩展,意味着它不仅可以应付现在的客户需求,甚至可以应对未来的数据挑战。
在我们与亚马逊云科技大中华区云服务产品部总经理顾凡先生进行的交流中,他表示,“亚马逊云科技‘智能湖仓’架构在打通数据湖和数据仓库的基础上,进一步将各种数据服务无缝集成,确保数据在不同服务之间顺畅流动,致力于帮助客户尽可能最大程度地提高其数据价值,加速创新,并成为数据驱动型组织。”
“数据湖和数据仓各有特点,各有利弊,当他们共同存在的时候,对于客户来说最大的挑战就是如何兼得二者的优势。与一般的湖仓一体化架构或者产品相比,亚马逊的‘智能湖仓’架构出发点是为了解决客户的需求。
首先,亚马逊云科技要做的是把数据湖和数据仓打通,中间的通道建立起来之后,客户才有可能同时享受两个产品的优势,既有很好的查询性能,还可以方便的扩展数据容量。
其次,数据的融合和移动不仅仅是要在数据湖和数据仓之间实现,更要在数据湖、数据仓和各种数据分析引擎这三个单元之间实现移动和融合。
最后就是智能。现在机器学习正在不断扩圈,数据开发人员、工程师、分析师等需要更易用、更智能的机器学习工具,例如Amazon SageMaker,从对数据的洞察中让数据产生价值。企业通过机器学习可以实现更准确的预测和推理,继而在企业进行业务创新的时候驱动决策,这点非常重要。所谓“智能湖仓”的智能就要很好的体现出来。”顾凡说到。
概括来讲,亚马逊云科技“智能湖仓”架构具有以下五个特点:
·灵活扩展,安全可靠。亚马逊云科技“智能湖仓”架构用Amazon S3作为数据湖的存储基础,客户可根据不断变化的需求,灵活扩展或缩减存储资源。Amazon S3可达到 99.999999999%(11 个 9)的数据持久性,且具有强大的安全性、合规性和审计功能。
·专门构建,极致性能。为了满足客户不同的数据分析需求,亚马逊云科技提供全面而深入的、专门构建的数据分析服务,包括交互式查询服务Amazon Athena、云上大数据平台Amazon EMR、日志分析服务Amazon Elasticsearch Service、Amazon Kinesis、云数据仓库Amazon Redshift等。其中Amazon Redshift的性价比是其他企业云数据仓库的三倍,AQUA(分布式硬件加速缓存)使 Redshift 查询的运行速度比其他其他云数据仓库最高快 10 倍;Amazon EMR运行大数据处理及分析服务的成本不到传统本地解决方案的一半,但其速度比标准 Apache Spark 快 3 倍以上。
·数据融合,统一治理。亚马逊云科技“智能湖仓”架构不止是打通了数据湖、数据仓库,还进一步将数据湖、数据仓库以及所有其它数据服务组成统一且连续的整体。这就降低了数据融合与数据共享时统一安全管控和数据治理的难度。其中,Amazon Glue提供数据无缝流动能力,Amazon Lake Formation提供了快速构建湖仓、简化安全与管控的全面数据管理能力。
·敏捷分析,深度智能。亚马逊云科技将数据、数据分析服务与机器学习服务无缝集成,为客户提供更智能的服务。例如Amazon Aurora ML、Amazon Redshift ML、Neptune ML等,数据库开发者只需使用熟悉的 SQL 语句,就能进行机器学习操作;Amazon Glue、Amazon Athena ML、Amazon QuickSight Q等,可以帮助用户使用熟悉的技术,甚至自然语言来使用机器学习,帮助企业利用数据做出更好的决策。用户还可以通过机器学习服务Amazon SageMaker、个性化推荐服务Amazon Personalize等挖掘数据智能。
·拥抱开源,开放共赢。亚马逊云科技“智能湖仓”架构中的关键组件如Amazon EMR、Amazon Elasticserach Service、Amazon MSK的核心都基于开源代码,接口与开源完全兼容,无需改变任何代码就可以实现迁移,也兼容主流的管理工具。OpenSearch 基于开放的Apache2.0 授权,其代码完全开放,用户可以免费下载使用并获得企业级的功能。这些服务允许用户在转型过程中,以非常低的改造成本向云端迁移。
对于客户来说,亚马逊云科技“智能湖仓”架构将亚马逊云科技全面而深入的数据服务无缝集成,打通了数据湖和数据仓库之间数据移动和访问,并且进一步实现了数据在数据湖、数据仓库,以及在数据查询、数据分析、机器学习等各类专门构建的服务之间按需移动,从而形成统一且连续的整体,满足客户各种实际业务场景下的不同需求。
目前,全球已有数以十万计的客户选择了亚马逊云科技进行数据管理及分析。在中国,TCL、丰田互联、欣和、德比软件、安克创新、启元世界等各行业客户,正在采用亚马逊云科技数据相关服务,开展数据治理及数据价值挖掘。
亚马逊云科技半年内在中国区域新增的近40项数据及数据分析相关的服务及特性,进一步强化了亚马逊云科技数据以及数据分析相关服务组合。其中,Amazon Glue 2.0版本将作业启动时间缩短了10倍,并且可提供1分钟最短计费持续时间,Amazon Athena 2.0包括多项性能改进和新功能,Amazon Lake Formation在宁夏区域推出(去年底在北京区域推出),Amazon Redshift、Amazon EMR、Amazon Elasticsearch Service、Amazon SageMaker等均发布了诸多新特性。
亚马逊云科技的数据及数据分析服务也获得了不少第三方机构的认可。此前,全球知名的企业增长咨询公司沙利文中国联合头豹研究院发布了《2020年中国数据管理解决方案市场报告》,其中亚马逊云科技凭借创新的技术、灵活的数据管理、云上安全、全球商业实践,被评为中国数据管理解决方案领导者。该报告针对成长指数(功能成长)、创新指数(能力创新)、基本指数(基本数据分析能力)三大维度,对竞争主体旗下数据管理解决方案竞争力进行了评估。亚马逊云科技不仅综合实力排名第一,且三项指数均名列第一。
网友评论