大会网址:https://live.juejin.cn/site/4354/xdc2021。
这次大会主要是以线上形式进行的,虽然和线下的无法相比,但安全了很多,鉴于现在的疫情,这种线上的形式还是蛮受欢迎的,日后应该也会还有很多大会会通过线上的方式进行。
这次大会我比较感兴趣的主要是分布式数据库、Google Cloud、业务架构演进、云原生、微服务架构等专题,但很多专题是同时开始的,所以我先看了 Google Cloud 相关专题,其他的只能看录播了。直播的整体质量还是不错的,但是总感觉缺少了点什么,可能是互动吧?
Google Cloud 的专题里我看到了数据湖和数据仓库相关的概念,这个在系统架构师的论文考试里有出现过,所以我还挺有兴趣。后面讲的 AI 相关的我则听的不多,虽然我也很感兴趣。
这里还是说一下数据仓库和数据湖吧。因为我是一边听一边查资料,会漏掉很多东西,所以这里的表述仅作为我个人的观点。我首先听到的是湖仓一体这个概念,这里讲的应该是数据湖和数据仓库相结合的一种模式,还有流批一体等。那什么是数据湖,什么是数据仓库以及湖仓一体又具体是指什么呢?
数据仓库可以简单理解为比数据库能够存储更大量级数据的仓库,并根据其拥有的特定的数据存储架构对数据进行分析以获得有价值的信息,从而提供决策支持。它是由比尔·恩门于 1990 年提出的概念,用于解决企业的数据集成与分析问题的。数据仓库比较流行的有 AWS Redshift, Greenplum, Hive 等。那数据仓库有什么特点呢?
- 首先,数据仓库是面向主题集成的。数据仓库中的数据是从多个异构的数据源中抽取、加工并按照主题重组而成的。
- 其次,数据仓库主要用于支撑企业决策分析,其所涉及的数据操作主要是数据查询。
那什么是数据湖呢?数据湖是一个集中存储各类结构化和非结构化数据的大型数据仓库,它可以存储来自多个数据源、多种数据类型的原始数据,数据无需经过结构化处理,就可以进行存取、处理、分析和传输。数据湖能帮助企业快速完成异构数据源的联邦分析、挖掘和探索数据价值。数据湖的本质是由“数据存储架构+数据处理工具”组成的解决方案。
数据仓库和数据湖可以理解为包含的关系,即数据湖中存储的“东西”要远远多于数据仓库中存储的“东西”。二者的区别可以参考下图(图片摘自^1^):
那湖仓一体指的又是什么呢?湖仓一体,又被称为 Lake House,其主要目的是融合数据仓库和数据湖,让数据流动起来,减少重复建设。Lake House 架构最重要的一点,是实现数据仓库和数据湖的数据/元数据无缝打通和自由流动。湖里的“显性价值”数据可以流到仓里,甚至可以直接被数仓使用;而仓里的“隐性价值”数据,也可以流到湖里,低成本长久保存,供未来的数据挖掘使用。
ps:因为 Google Cloud 中的专题我是从中间开始听的,所以暂且我也不是很清楚湖仓一体在其中的应用是如何,后面我看完录播后再补充过来。