Fork me on GitHub

网易数据治理体系、工具、流程、制度与管理概述

以下文章来源于 https://zhuanlan.zhihu.com/p/608754498

转载地址
阅读本文,您将获得以下收益:

  1. 如何更好地理解数据治理体系?

  2. 什么是开发与治理一体化的理念?

  3. 数据湖湖内、湖外治理流程的闭环如何展开?


导读

本文将介绍网易数帆在数据治理方面的一些总结和思考。文章将围绕以下三点展开:

  1. 数据治理解决了什么问题

  2. 数据治理体系

  3. 浅谈数据治理的实现


分享嘉宾|傅正 网易数帆 大数据产品专家

编辑整理|霍彪 全知科技

出品社区|DataFun


01/数据治理解决了什么问题



首先看一下数据治理解决了什么问题,可以总结为六个方面:


1. 数据开发与数据治理脱节

在许多企业中存在这样一个现象,就是对于数据的整个开发和治理往往是一个先污染后治理的过程,数据治理往往不会融入到数据生产的过程当中,与数据开发、建模、运维安全这些环节都会存在脱节的现象。因此,对企业来说进行数据治理的时候就需要对现有的系统和流程进行改造,必然会面对很高昂的成本。所以我们需要将数据治理活动前置,在数据生产环节就加入数据治理的活动,将数据开发和数据治理一体化结合起来。


2. 烟囱式的数据开发

在网易早期,数仓建设更多的是业务部门各自内部进行维护的,没有上升到组织架构层面进行规划。不同的业务部门,因为都有数据分析的需求,就导致各部门会存在各种零散分裂的小数仓。给企业内部的数据管理和共享造成很大的问题。烟囱式的数据开发,还容易造成指标口径不一致、数据重复开发、数据无法共享等问题,在中台建设前也缺少统一的规范建模的标准。


3. 不同平台缺少统一的管控

在我们的客户里面就有一个比较典型的例子,因为其IT架构存在很多不同的平台系统,系统从后端到前端也是相互独立紧耦合开发,导致整个系统很臃肿,建设效率又很低,对于业务的响应也不够快,并且存在大量的重复建设工作。因此,他们将建立统一标准的大数据开发与治理平台作为集团战略,将各个独立系统中存在的大量历史数据及任务进行统一管理。但是,由于这些独立系统的存在成为了他们做中台建设的一个阻碍,如果要去做中台,不仅需要去承担高昂的数据迁移成本,面对迁移过程中可能出现的数据遗失问题,还要去培养人员去掌握新的开发和分析工具。所以,他们对开发与治理平台的诉求就很高。


4. 治理过程缺少可量化的监控

治理过程实际上是很难衡量的。如果忽视了可视化的成果展示,会导致领导或者客户不易感知治理的成果,从而无法认同治理团队的工作。所以,在整个治理过程中,除了要有阶段性的目标,还要有可视化效果的呈现。比如发布了多少元数据,这些元数据在哪里能够被看到;存在多少质量稽核规则、又有多少规则被引用了。


5. 对数据的成本和价值缺少精细化的管理

随着企业业务的高速发展,数据量呈指数增长,相应的数据成本也是急剧增加的。因此,企业需要识别有价值数据,去除无用数据,然后沉淀数据资产。对企业来说,就需要进行数据成本和价值精细化的管理。如何去做好企业公共资源的复用,如何基于ROI的方式去沉淀数据资产等,对整个数据团队是很大的考验。这也是数据治理要解决的问题。


6. 数据治理缺少闭环

数据治理实际上是一个长期可持续的过程。因此,我们在治理活动的各个环节是需要做到闭环的,去保证治理的结果切实落地。比如质量稽核规则,如果只是单纯配置好质量规则,通过质量稽核规则找出一堆问题,而没有将其具体落实到某些人或者是落实到相关人员的KPI上,这样就会导致质量问题可能今天犯了之后,没人关注,后面还会反复出现,最后质量规则就形同虚设。数据治理还是要明确责任人,完成问题的反馈、记录,从而闭环整个流程。

--

02/数据治理体系


数据治理体系,要根据实际的客户(企业)场景行业场景 ,结合数据治理产品工具,去建立相应的流程,将制度建立在流程的基础上,管理建立在制度的基础上,形成全链路的数据治理体系。在实际实施过程中,要围绕数据治理产品工具流程制度管理去展开数据治理。



--

03/浅谈数据治理的实现


1. 数据治理工具------整体方案

在治理工具方面,要将治理和开发一体化,将整个治理流程贯穿到各个子产品,去沉淀一套全链路的数据治理体系。



在初期,先设计后开发。我们会有相关的一些模块作为支撑。做完之后要对数据进行评估,通过不同的维度去考察治理结果,并进行可视化展现。整个过程依据于一整套基于企业组织架构而建立并完善的数据治理流程。数据在对外展示并被使用的时候,通过数据资产地图开放给相关的用户、业务人员、运营人员、开发人员,让他们能够从里面了解元数据、了解数据资产的分布情况、数据血缘等内容。


2. 数据治理工具------开发与治理一体化

数据开发和治理一体化,指的是将数据治理的过程融入到数据开发的全生命周期当中,强调"先设计、后开发、先标准、后建模"的原则 。其目标就是将整个数据治理的流程与开发全生命周期相融合,在数据开发过程中去完成数据治理。通过指标和数据标准的定义,实现"规范即设计,设计即开发,开发即治理"的开发治理一体化理念。



如图上展示,在不同的阶段,将数据模型、数据传输、数据安全、数据质量等形成规范化的定义,使整个治理过程与开发过程结合起来。


3. 数据治理流程------规范建模



在整个设计阶段进行标准化的规范建模,能够保证数据模型的规范化,提高数据资产水平,提升数据的质量。可以结合国家的标准、行业的标准、企业自身标准,以及各个业务部门的核心数据去打造一套贴合自身业务发展的数据标准体系,通过数据元和数据字典去承载。也可以通过对各条业务线的分析去梳理出相关的原子指标,派生指标以及复合指标。通过指标系统对指标进行管理,去完成数据规范定义,助力数据模型规范设计。解决指标口径的计算口径不一致,指标定义的不一致,数据来源不一致等指标可信度低的问题。最后在数据标准和指标规范下构建模型,从而沉淀我们的业务元数据。


4. 数据治理流程------元数据资产治理



元数据可分为业务元数据、技术元数据和管理元数据。首先,要去完善业务元数据和技术元数据以及管理元数据,要将它们补充完整。然后根据元数据的治理发布流程将元数据发布上线。同时配合数据资产中心的资产健康诊断,并基于 ROI 的数据资产精细化管理,对数据资产的健康情况和使用情况进行实时的观察,识别有价值的资产。


5. 数据治理流程------湖外数据治理



数据治理的流程,还包括湖外数据的治理。湖外的数据可能来源于业务数据库,比如 MySQL、Oracle 等。针对这类数据,可以首先通过数据治理的管理员根据治理需求向 IT 部门发起登记数据源操作,数据源可来源于不同的业务系统,登记数据源后就可以进行元数据采集、注册。注册后,就可以根据完善度来决定是否需要治理。最终将数据发布为资产,供业务人员浏览和使用。


6. 数据治理流程------湖内数据治理



相比于湖外数据,湖内数据的治理也是通过注册、治理、审批、发布这几个步骤进行的。首先,进行注册,注册后,经过业务治理专员或者技术治理专员不断完善业务和技术元数据,向申请人提交发布申请,最终由数据治理管理员审核发布,发布后的数据资产可提供给业务人员浏览和使用。如果在使用过程中发现有数据问题,也可再次发起数据治理或者是数据下线。


7. 数据治理制度------开发规范制度



数据治理的制度包含很多,比如开发规范制度,数据要如何去准备?元数据怎么去梳理?有没有模板?建模时主题域的命名?表和字段的命名有没有相应的规范要求?数据在进行调度的时候,如何配置?怎样去运营等等,这些都会有相应的规范。


8. 数据治理制度------指标管理制度



指标管理制度,要明确指标的名称、计算口径以及业务口径,这些都需要有一定的规范。只有有了规范,才能够保证统一化、标准化。因此,可以有相应的指标管理制度,通过指标管理制度去保障体系化的管理。然后,可以根据这个制度去构建相应的指标模板,去梳理指标的基本信息、口径定义,完善指标的血缘关系等。


9. 数据治理制度------数据质量管理制度



数据质量管理制度,包含事前规则定义、事中质量监控、事后量化分析和问题追溯。在事前需求和规则定义的时候,通过事先梳理好的质量规则模板,通过自定义的一些规则,或者通过标准推荐的规则构建模板、构建规范。将质量规则配置完成之后,交与数据治理团队监控。如果发现质量问题,则要完成质量报告,对问题进行追踪改进以及相关的绩效考核。


10. 数据治理管理------组织架构



在管理层面要构建专门的部门来负责数据治理的工作,完善相关的组织架构,进行权责分担机制。比如有相关的数据治理管理工作组,有相关的数据治理管理员以及数据治理专员。数据治理管理员是作为集团数据治理工作的管理人员,对所有待治理的数据进行负责,推进和协调各部门的业务数据治理。数据治理专员是分派在各个部门,由各个部门内部确定的专门的一线人员,可对自己部门的数据进行治理。


11. 数据治理管理------运营与沉淀

数据治理不是一个临时性的工作,从数据生命周期的全过程到治理体系的健康运行都需要一个长效的治理机制来保证,进行体系化的数据治理,发现问题、解决手段、持续运营、持续沉淀要形成闭环。



如图,围绕数据资产的闭环

首先是发现问题,我们会围绕着成本、标准、质量、安全、价值这样五个方面去明确需要进行治理的内容。然后,基于需要治理的内容,配套专题优化治理工具,比如对无用数据推荐下线、对表生命周期的管理、对计算任务的优化等。最后,在治理过程当中持续有抓手,包括推送整个项目、个人的资产账单、数据治理的红黑榜、资产健康分和个人的任务优先级和资源预算申请挂钩等举措。此外还需进行一些持续性的运营,比如举办数据治理大赛,业务线专项治理活动等,来持续运营和打磨产品的能力。

今天的分享就到这里,谢谢大家。


▌分享嘉宾


▌大话数智

大话数智,是DataFun策划的智库类公众号,包括但不限于知识地图、深度访谈、直播、课程等学习资料,旨在为广大数据智能从业者、数据智能团队提供一个日常学习成长的平台,促进先进的数据智能技术的传播与广泛落地。


**▌


本文地址:https://www.6aiq.com/article/1677128401272
本文版权归作者和AIQ共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出