数据湖教程(数据湖是什么它的快速搭建方法介绍)

(文章来源:ITPUB)

的概念莱克是2011年首次提出的,到现在大概9年了,是一个比较新的概念。虽然各方有一些认识上的差异,有一些争议,但是概念并不重要。关键是能否真正帮助企业解决业务快速发展过程中不断遇到的新问题。对于希望从数据资产中获得更多经济价值的企业来说,数据湖可能是一个可行的选择。但是对于国内很多企业来说,数据湖显然还是一个未知领域。

数据显示,2019年全球数据湖市场规模为37.4亿美元,预计到2025年将达到176亿美元,2020-2025年期间预计年复合增长率为29.9%。在国外,尤其是北美,数据湖的应用已经比较成熟,而在国内,还处于起步阶段。那么,你第一次构建数据湖是从哪里开始的呢?如何成功构建数据湖?有些企业可能很难知道,从时间和投入上来说,试错的成本是非常高的。那么,企业应该怎么做才能把风险降到最低,保证收益呢?这就是本文将要讨论的内容。

什么是数据湖?简单来说,数据湖更像是数据仓库的演变,覆盖范围比传统的数据仓库更广。但这并不是说数据湖可以直接取代数据仓库,两者可以相辅相成。大量案例表明,数据仓库是作为一种数据应用一起工作。

众所周知,传统的数据仓库都是由数据库发展而来的,所以无论是传统的还是新型的数据仓库(分布式的和云原生的数据仓库)都主要是针对结构化的数据。数据湖是多结构化数据的储存库,无论是结构化、非结构化还是半结构化数据,都可以以其原始格式存储,无需初始转换过程。所以更灵活,存储和计算分开。存储在廉价对象存储中的数据,如Hadoop或亚马逊S3,可以更好地优化成本,各种工具和服务(如Apache Presto、Elasticsearch和亚马逊Athena)可以用来查询这些数据。

数据的出现来自于大数据时代企业面临的一系列挑战,比如数据孤岛、各种数据集分析困难、数据管理、数据安全等等。云计算和人工智能是推动数据湖发展的重要因素。云计算提供了快速查询和海量存储的能力,而机器学习需要原始数据进行分析,使用的数据不仅仅是结构化数据,用户评论、图片等非结构化数据都可以应用到机器学习中。目前数据湖最知名的应用是亚马逊Galaxy(内部代号),现在已经成为亚马逊的核心竞争力之一。

银河数据湖建于2019年。其构建的原因是亚马逊运营团队需要做大量的数据分析,而传统的数据仓库可以不能满足扩展的需要,维护复杂,成本高。亚马逊银河基于其强大的技术能力,实施了基于亚马逊S3的数据湖方案,使用亚马逊红移、红移光谱和亚马逊EMR运行分析操作。下图是Galaxy使用的一些AWS服务:Galaxy的部署将数据存储容量从50PB提升到100PB,降低了成本,加快了从数据中挖掘有用信息的速度。

目前每天在银河上执行的分析任务多达60万个,涉及各个方面,如推荐用户、运营信息、库存信息、购买信息、价格信息等。让看一个国内的应用,Club Factory,一个出海的电商新秀。Club Factory由嘉运数据于2016年在杭州成立,定位为创新出口电商和轻自营跨境电商平台。可能国内很多人没听说过这家公司,但是这家公司很厉害,全球用户超过1亿。它的应用程序在10多个国家的应用程序购物清单中排名前5,在14个国家中排名前10。

在数据湖的构建上,俱乐部工厂采用了基于AWS数据湖的解决方案,实现了基于所有用户的实时自动推荐平台上的行为、BI报告(内部运营和分析)和供应链管理创新。公开资料显示,其数据湖平台日均处理15亿条行为数据分析,支持80多位数据工程师的分析和算法需求,支持180项主动数据分析和调度任务,每天同步4000多条业务数据到数据仓库。支持的数据总量达到600TB左右。

如何快速构建数据湖?构建数据湖只有两种选择,一种是基于开源解决方案,另一种是基于商业解决方案。开源解决方案的优势是没有授权成本,但是有一个前提,你的公司必须有一个团队,能够控制开源技术,能够自己解决问题。因为开源解决方案通常是零散的、不系统的。对于第一次搭建数据湖的企业来说,复杂度很高,很难成功搭建。相反,基于商业的解决方案是较小或刚起步的公司的可行选择,可以通过基于公共云的数据湖解决方案实现数据湖的快速构建。

不仅降低了建设、管理和维护的复杂性,而且可以监控成本。其次,基于云的数据湖解决方案技术成熟度更高。可以得到更成熟的技术环境的支持,包括工具的多样性。最后,扩展性和安全性也是重要原因。目前,数据湖已经在公有云中得到了完美的实现和应用。例如,基于亚马逊S3、AWS Glue和其他基础云服务,可以快速构建一套数据湖服务。近日,AWS宣布,由西云数据运营的AWS中国(宁夏)区正式上线AWS Glue和亚马逊Athena。

AWS Glue是一个完全托管的数据提取、转换和加载(ETL)服务和元数据目录。它的价值在于可以更容易地将准备好的数据加载到数据库、数据仓库和数据湖中进行数据分析。亚马逊雅典娜是一个交互式查询服务。使用标准SQL,你可以直接交互式地查询亚马逊S3上的数据。这两种服务都是无服务器服务,这意味着不需要管理基础设施,您只需要为运行的查询付费。

官方已经给出了如何使用AWS Glue和亚马逊S3搭建数据湖基础以及如何使用亚马逊Athena分析数据的具体教程,所以我赢了这里不再赘述。当然,如果你觉得这个方法还是有点复杂,那么接下来的服务可以重点关注。去年,AWS发布了一项名为AWS Lake Formation的新服务,进一步降低了构建数据湖的门槛。这项服务简化了创建数据湖的过程,并在几天内而不是几个月内构建了一个安全的数据湖。

不过,该服务尚未在中国正式推出。当然,你也可以根据自己的情况选择其他供应商。本文建议基于AWS数据湖解决方案快速构建数据湖,因为到目前为止,AWS数据湖/数据分析解决方案是最完整的,提供的服务最丰富,拥有的成功案例也最多。(