Fork me on GitHub

数据维度建模已消失

摘要:在过去,面对存储和计算成本过高的问题,维度数据建模出现,它基于类似星形的架构或雪花架构构建,维度围绕事实数据表,可以对计算和储存进行优化。如今,维度数据建模已经逐渐淡出大家的视野之中……

原文链接:

https://blog.devgenius.io/learn-from-googles-data-engineers-dimensional-data-modeling-is-dead-68f6c2cb3fb0

声明:本文为CSDN翻译,转载请注明来源。

作者 | DataExpert

译者 | 朱珂欣 责编 | 屠敏

出品 | CSDN(ID:CSDNnews)

维度数据建模由数据仓库领域大师由Ralph Kimball在其 1996 年的著作中推广,作为一种在数据仓库中组织数据的方法,它以分析决策的需求出发构建模型,为分析需求服务。同时,维度数据建模还具备较好的大规模复杂查询的响应性能。

在过去,维度数据建模主要基于三个原因而存在:优化计算;按主题组织数据;优化存储。

过去,维度数据建模解决了重重问题
如果用当下的眼光重新审视维度建模在过去存在的原因,就会发现它的确能满足过去的需求。

计算早期,存储成本很高。

在1985 年,储存成本高达 90,000 美元。在这样成本高昂的情况下,数据仓库组织数据的方式必须尽可能节约存储成本,同样的数据尽可能只存储一次。

计算早期,计算成本很高。

在1985 年,最快的计算机以高达 3200 万美元的价格输出了 1.9 gigaflops 的计算能力。时下,最快的计算机输出了超过 400 petaflops 的计算能力,即 20,000 倍以上的计算能力。由此可见,当时计算面临需要优化的问题也同样重要。https://weibo.com/ttarticle/p/show?id=2309404812462431273201
https://weibo.com/ttarticle/p/show?id=2309404812462024425899
https://weibo.com/ttarticle/p/show?id=2309404812461663715568
https://weibo.com/ttarticle/p/show?id=2309404812461323977054
https://weibo.com/ttarticle/p/show?id=2309404812460938101197
https://zhuanlan.zhihu.com/p/563148501

面对存储和计算成本过高的问题,维度数据建模出现,它是基于类似星形架构或雪花架构构建,维度围绕事实数据表。可以通过借助维度数据建模中的星型架构和雪花架构对各个数据域、各个业务过程进行严格的建模。

维度数据建模的好处就是:事实表包含物理索引且易于检索的值。检索成本更高的值存储在维度表中,检索时更加具有选择性,从而节省处理成本。

如今,维度数据建模逐渐消失在大众的视野之中
但是,在大数据时代,技术的发展日新月异发展,也在潜移默化中推动着存储和计算发生了改变。随着大环境的变化,维度数据建模的优点逐渐被削弱,缺点却被放大,以至于维度数据建模越来越少。

存储几乎免费

如今,每月 1GB 的 AWS 云存储成本,仅仅只需要2美分。

相比较之下,维度数据建模将长表或宽表分解为星形或雪花模式的回报率很低。云存储以每年几美分的价值计算时,成本不再成为考虑因素,云存储也能更加适应大众的需求。

计算成本低廉

伴随着云架构的出现,目前计算可以做到轻松扩展,并且请求其他资源以应用于长时间运行的查询变得容易,因此计算成本更加低廉。https://zhuanlan.zhihu.com/p/563148328
https://zhuanlan.zhihu.com/p/563143175
https://zhuanlan.zhihu.com/p/563141795
https://zhuanlan.zhihu.com/p/563188678
https://zhuanlan.zhihu.com/p/563187221
https://zhuanlan.zhihu.com/p/563164678
https://zhuanlan.zhihu.com/p/56316426

维度建模对于普通用户来说很难理解

对于数据工程师而言,可以查看并直观地理解数据建模,但对于普通数据消费者而言,会觉得它并不直观,也不易理解。

尺寸模型的维护成本高昂

虽然近年来新的数据建模工具使集成变得更加容易,但如果每次向源表中添加新列时都不调整数据模型,会使用户通常无法使用新列。

未来,数据设计的发展方向在哪里
近来,数据湖和数据湖屋逐渐成为大家关注的焦点。数据湖能提供更好的最终用户体验,维护成本低廉,并且不需要额外的工程资源来构建。数据湖的主要好处是业务的可用性。

过去,分析师或商业智能工程师曾经需要解释复杂的数据模型以向业务交付价值。如今,通过数据湖可以将数据直接从源连接到最终用户。分析师和商业智能工程师可以专注于解决更有价值的问题,例如用于构建预测管道的工程功能。

数据湖最近的成功表明,计算和存储资源不再因略微减少而受益,但可用性的提高已被重新发现为数据生态系统的重大整体提升。并且,曾经在数据维度模型上的维护成本,可以用于为业务创造快速价值。

总的来说,在过去维度数据建模让数据规范化和执行数据规范化,让数据更加井井有条。但是,随着目前很多团队在数据湖和维度模型的成本后,维度数据建模越来越少,逐渐淡出大家的视野之中。维度数据建模真的不再具备实践价值了吗?我们把答案交给时间。
————————————————


本文地址:https://www.6aiq.com/article/1662966813017
本文版权归作者和AIQ共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出