Fork me on GitHub

数据湖和湖仓一体产业观察

以下文章来源于 https://zhuanlan.zhihu.com/p/627696393

导读: 本文分享主题为数据湖和湖仓一体产业观察,主要围绕以下三个方面进行介绍:

  1. 数据湖和湖仓一体技术发展及现状介绍
  2. 数据湖&湖仓一体产业观察
  3. 信通院未来工作计划

分享嘉宾|刘彦美 中国信息通信研究院 云计算与大数据研究所 工程师

编辑整理|陈沃晨 浪潮

出品社区|DataFun


01/数据湖和湖仓一体技术发展及现状介绍

1. 我国大数据发展态势好动力足

多年来,我国大数据高速发展,不断取得重要的突破,发展态势良好。大数据的产业规模高达1.3万亿,论文全球占比达到了31%,全球专利的受理占比高于50%,大数据市场主体超过18万家,企业获投总金额超过了800亿元。

近一年,我国在政策、人才、资金等方面持续加码,为大数据的后续发展注入强劲动力。在政策方面,比如工信部《“十四五”大数据产业发展规划》、国务院《要素市场化配置综合改革试点总体方案》、《关于加快建设全国统一大市场的意见》、《关于构建数据基础制度更好发挥数据要素作用的意见》等一系列的政策。在人才方面,147所双一流的高校中,有59%的高校已经开设了大数据相关专业。此外,广东设定了人才培训行动,浙江制定了高精尖缺的人才目录,福建也制定了一个相应的大数据人才发展计划。在资金方面,宁夏省、山东省、黑龙江省、江苏省等一系列省份也专门设置了大数据的专项资金支持。

2. 大数据技术进入深度优化阶段

从图中可以看到,20世纪60年代是数据库的起源,到了20世纪70年代的时候关系型数据库诞生,20世纪80年代的时候数据仓库理论被提出,2000年前后面向非结构化数据的NO SQL数据库的兴起,2010年前后计算的实时性和数据源的多样性的存储使用的需求,催生了数据湖的概念。同时随着云计算技术的深入应用以及数据平台技术完成了从私有化部署到云上部署,再向云原生的转变,2020年的时候提出了湖仓一体的概念。

总的来看,经过60余年的发展,大数据技术的框架趋于成熟,进入了深度优化的阶段。目前已经形成了以分布式数据库、数据仓库、批处理平台、流处理平台为代表的总体技术框架,并广泛应用,已经能够支撑极端的场景下具有高并发、低延时的数据处理和分析需求。

3. 企业复杂多变的业务诉求需要湖仓一体平台

随着数据类型的多样化以及分析场景的多元化,企业的需求也发生了一些转变。由之前的统计分析向预测分析转变,由单领域的分析向跨领域的分析转变,由被动的分析向主动分析转变,由非实时性向实时性转变,以及结构化的数据向多元化数据分析转变。

为了满足这些诉求,企业纷纷搭建多个应用系统来支撑这些应用,比如一个数据湖、N个数据仓库和N个应用的专用系统。这样就导致了系统繁杂以及昂贵的数据移动成本,延时也非常高,限制了对机器学习的支持,同时也缺乏开放性。面对这复杂多变的业务的诉求,以及实时性和融合性的需求,企业更加需要湖仓一体的数据平台。

4. 湖仓一体提升数据管理效率和灵活性

湖仓一体是为了解决大数据场景下的实时处理诉求高、非结构化数据治理难、系统运维复杂等问题的一种新型架构。它打破了数据仓库和数据湖之间的壁垒,融合了两者的优势。总的来说,湖仓一点是构建在数据湖低成本的数据存储架构之上,同时具备了数据仓库的数据处理和管理能力。

左边这个图展示的是湖仓一体的模块图。底层的数据源支撑数据湖和数据仓库,同时数据湖和数据仓库之间是可计算流动的。数据湖和数据仓库两者的元数据统一进行管理。此外还有统一的湖仓血缘,统一数据管理等一系列湖仓数据治理的能力来支撑上层的应用服务。

湖仓一体目前的实现方案有以下四类:一是基于Hadoop的数据湖向数据仓库能力的扩展来实现,二是基于云平台进行架构构建来实现,三是基于三大开源数据湖的解决方案(Hudi、Iceberg、DeltaLake)来实现,四是基于数据库的自研平台来实现。湖仓一体具备7大技术特性:分别是多种数据类型分析、数据治理、事务支持、BI支持、存算分离、开放型和实时性。

--

02/数据湖&湖仓一体产业观察

1. 中国信通院—信息社会创新发展的思想库和使能者

上图展示了信通院的发展历程,2014年的时候正式确立为中国信息通讯研究院,不再更名。

中国信通院有14个业务部门,其中云计算与大数据研究所就属于14个业务部门之一。此外,还有4个分院、19个省通信管理局行业支撑中心和20家创新中心。

2. 鼎力支撑国家大数据战略

中国信通院秉承国家“高端专业智库 产业创新发展平台”的宗旨和要求,在大数据领域积极落实国家的战略,为国务院及工信部、网信办、发改委等部委完成了大量的支撑工作,获得了广泛的认可。

这些支撑工作包含2015年的《促进大数据发展行动纲要》、2016年和2021年的《大数据产业发展规划(2016-2020年)》,以及2022年的《关于构建数据基础制度更好发挥数据要素作用的意见》等。

3. 持续发布大数据研究成果

通过对大数据领域的深入研究,我们也持续地发布了大数据的研究成果,共计50余份。包括《大数据白皮书》、《中国大数据发展调查报告》、《数据资产管理实践白皮书》、《金融分布式事务数据库白皮书》以及《数据库迁移技术报告》等一系列的研究成果。

4. 中国信通院大数据工作体系

上图所展示的中国信通院大数据工作体系中底层是数据基础设施,提供存储、计算、分析等数据智能基础能力。它包含数据基础设施的功能、性能、稳定性、安全性,以及数据基础设施的实施服务体系和运维保障。

供给侧的工作,包含产品的评测、服务能力的评估、方法论的提炼、输出联合研究报告等一系列工作。应用侧方面包含政策的解读、项目的咨询、项目的验收、应用水平的评估、方法论提炼的输出、实验室的共建、联合研究报告等。生态侧方面包含政策的支撑、标准的制定、人才培训、案例的征集、产业大会以及合作平台等一系列的工作。

5. 数据基础设施工作体系

数据基础设施工作体系是从2015年开始搭建的,核心围绕数据采集、存储、计算领域的技术产品、解决方案以及供应商,覆盖其选型、实施、应用、运维全流程,从而指导大数据实现技术突破、合理应用。

在供给侧方面的服务能力是平台建设服务商的咨询规划的能力、实施部署的能力以及运维运营的能力成熟度模型。应用侧运维能力方面,包含稳定性保障组织制度的能力、稳定性保障技术工具能力以及系统稳定性的能力等方面。

技术产品涵盖了功能、性能、稳定性、安全性四个方面。包含分布式批处理、流处理、数据湖、湖仓一体等基础平台类,数据平台整体解决方案、数据中台解决方案等解决方案类,还有数据集成工具、管理工具开发平台等开发管理类,以及商务智能分析工具、可视化产品图计算等分析应用类。

截至2022年底,已经有144家企业参与了我们的评测,标准的贯标测试次数达到了360余次。

6. 持续进行理论研究,自研多款测试工具

我们一直在持续进行理论研究,并自研了多款测试的工具。标准方面,我们产出国际标准2项,行业标准9项,团体标准50余项。

为了梳理产业的现状,定位产业的问题,引领产业的方向,中国信通院持续发布大数据的研究成果。从2014年起开始发布大数据白皮书,内容涵盖的是大数据领域内的政策、技术、产业、应用等。目前已经发布了7版,已经成为了业界洞察大数据产业发展的重要参考。

此外还有三款测试工具,比如DataBench系列的工具以及稳定性的工具,覆盖了多个场景和功能。

7. 云原生数据湖技术要求

云原生数据湖相关的标准方面的工作是产出了云原生数据湖技术要求标准。云原生数据湖技术要求标准包含存储、计算、安全、数据管理、兼容、运维、湖应用、高可用共8大能力域,总共涵盖了46个能力项。此标准参与单位有阿里、华为、腾讯、移动、星环、百度等企业,截至目前总共有9家企业的产品通过了测评。

8. 云原生湖仓一体数据平台技术要求

云原生湖仓一体的相关的标准工作是云原生湖仓一体数据平台技术要求,包含湖仓数据的集成、湖仓的存储、湖仓计算、湖仓的数据治理、湖仓的其他能力,总共5大能力域,23个能力项。标准的参与单位包括阿里、腾讯、巨杉、移动、新华三、甲骨文、百度、科杰等企业,截至目前是有4家企业的产品通过测评。

7. 观察1:数据湖和湖仓一体技术快速发展、功能不断完善

通过测评我们观察到数据湖和湖仓一体的技术快速发展、功能不断地完善。我们对所有测评项目的可选项通过率范围、项目数进行了统计,从统计图中可以看到,项目可选项通过率在51%-85%以及31%-50%区间的数量最多。有数据湖、湖仓一体、商务智能、数据可视化、图计算、图数据库、数据开发等项目。可见这些技术都是在不断地发展,能力不断完善,平均每个评测项目的可选项通过率达到了59.99%。

8. 观察2:数据湖的云原生能力有待进一步提升

比如存算分离、弹性扩缩容、容器化、SERVERLESS这些云原生特性的支持度我们也进行了相应的统计。在云原生能力中的容器化和SERVERLESS能力是比较弱的,分别占有的是33%和22%。并且在对Hudi、Iceberg和Delta三大开源数据湖协议的使用统计中,我们也看到Hudi和Iceberg的支持度是最高的,均占了44.5%。

测试过程中还发现数据湖在存储、数据源管理、多场景分析、计算生态支持上,产品的能力的差别是不大的。但是在统一元数据管理能力项来看,目前集成单独产品的会支持的更好。

9. 观察3:湖仓一体中湖到仓的发展路线产品化程度更高

湖仓一体的演进路线有两个:,一个是湖到仓的演进路线,一个是仓到湖的演进路线。

在我们的测评中发现,湖到仓的产品落地的产品化程度更高,功能更完备,占比达到了75%。我们也同时对相关能力项的演示形式进行了一些统计,从能力演示形式的统计来看,走湖到仓路线的湖仓一体产品可视化能力支持更好一些。

--

03/信通院未来工作计划

1. 信通院未来工作计划

我们未来的工作计划是启动和完成《湖仓一体建设成熟度模型》的标准编制。此外,在产业研究方向,我们持续跟进大数据产业的发展,研究产出实践的方法论。今年上半年会产出《湖仓一体技术与产业研究报告》。

2. 湖仓一体建设能力汇总

这张图展现了湖仓一体建设的能力汇总:在偏数据湖能力方面,需要有数据的存储、数据的准备、数据湖底座支持、多场景需求以及实时诉求等能力。偏数据仓库能力方面,需要有查询与计算的性能、数据的分析、数据的编排与管理等能力。IAAS能力方面,包括Serverless的部署、兼容性等能力。其它能力方面,包括数据治理、数据安全、灾备建设、服务支持、开源社区、产业链生态、方案的成熟化,以及方案的场景化等一系列能力的支持。每项能力中的成熟度是怎样的?《湖仓一体建设成熟度模型》标准中会对湖仓一体每项能力进行分级。

3. 标准推进计划

湖仓一体建设成度模型标准在3月15日召开了标准启动会,并按照平均每两周一次标准会的频次推进标准编制。我们将在今年6月份的“大数据产业发展大会”对标准进行发布。

--

04/问答环节

Q1:从之前的PPT看到,开源数据湖协议统计的比例,hudi和Iceberg都达到了44.5%,请问这个数据是仅限于国内还是国外的比例也在里面?

A1: 这个数据的统计对象为:国内提供数据湖、湖仓一体解决方案中用到的三大开源数据湖协议。

Q2: 在湖仓一体里面是文件存储还是对象存储比较主流?

A2:从测评和调研中发现,湖仓一体中对象存储、文件存储都会有用到,其中对象存储是主流。

Q3: 企业如何参与测评,如果有想主动参与的企业,如何能够参与测评工作?

A3: 企业可直接与我联系liuyanmei@caict.ac.cn。也可以通过我们运营的公众号:“大数据技术标准推进委员会”了解我们的工作动态,包括但限于测评通知、测评新闻、标准制定相关工作等。

今天的分享就到这里,谢谢大家。


本文地址:https://www.6aiq.com/article/1683608721985
本文版权归作者和AIQ共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出