Lambda 架构已死,去 ETL 化的 IOTA 才是未来



转载请注明 AIQ - 最专业的机器学习大数据社区  http://www.6aiq.com

AIQ 机器学习大数据 知乎专栏 点击关注

本文由 Analysys易观微信公众号授权转发
经过这么多年的发展,已经从大数据 1.0 的 BI/Datawarehouse 时代,经过大数据 2.0 的 Web/APP 过渡,进入到了 IOT 的大数据 3.0 时代,而随之而来的是数据架构的变化。

 

Lambda 架构

在过去 Lambda 数据架构成为每一个公司大数据平台必备的架构,它解决了一个公司大数据批量离线处理和实时数据处理的需求。一个典型的 Lambda 架构如下:

数据从底层的数据源开始,经过各种各样的格式进入大数据平台,在大数据平台中经过 Kafka、Flume 等数据组件进行收集,然后分成两条线进行计算。一条线是进入流式计算平台(例如 Storm、Flink 或者 Spark Streaming),去计算实时的一些指标;另一条线进入批量数据处理离线计算平台(例如 Mapreduce、Hive,Spark SQL),去计算 T+1 的相关业务指标,这些指标需要隔日才能看见。

 

Lambda 架构经历多年的发展,其优点是稳定,对于实时计算部分的计算成本可控,批量处理可以用晚上的时间来整体批量计算,这样把实时计算和离线计算高峰分开,这种架构支撑了数据行业的早期发展,但是它也有一些致命缺点,并在大数据 3.0 时代越来越不适应数据分析业务的需求。缺点如下:

● 实时与批量计算结果不一致引起的数据口径问题:因为批量和实时计算走的是两个计算框架和计算程序,算出的结果往往不同,经常看到一个数字当天看是一个数据,第二天看昨天的数据反而发生了变化。

● 批量计算在计算窗口内无法完成:在 IOT 时代,数据量级越来越大,经常发现夜间只有 4、5 个小时的时间窗口,已经无法完成白天 20 多个小时累计的数据,保证早上上班前准时出数据已成为每个大数据团队头疼的问题。

●数据源变化都要重新开发,开发周期长:每次数据源的格式变化,业务的逻辑变化都需要针对 ETL 和 Streaming 做开发修改,整体开发周期很长,业务反应不够迅速。

● 服务器存储大:数据仓库的典型设计,会产生大量的中间结果表,造成数据急速膨胀,加大服务器存储压力。

 

Kappa 架构

 

针对 Lambda 架构的需要维护两套程序等以上缺点,LinkedIn 的 Jay Kreps 结合实际经验和个人体会提出了 Kappa 架构。Kappa 架构的核心思想是通过改进流计算系统来解决数据全量处理的问题,使得实时计算和批处理过程使用同一套代码。此外 Kappa 架构认为只有在有必要的时候才会对历史数据进行重复计算,而如果需要重复计算时,Kappa 架构下可以启动很多个实例进行重复计算。

 

一个典型的 Kappa 架构如下图所示:

Kappa 架构的核心思想,包括以下三点:

1. 用 Kafka 或者类似 MQ 队列系统收集各种各样的数据,你需要几天的数据量就保存几天。

2. 当需要全量重新计算时,重新起一个流计算实例,从头开始读取数据进行处理,并输出到一个新的结果存储中。

3. 当新的实例做完后,停止老的流计算实例,并把老的一些结果删除。

Kappa 架构的优点在于将实时和离线代码统一起来,方便维护而且统一了数据口径的问题。而 Kappa 的缺点也很明显:

● 流式处理对于历史数据的高吞吐量力不从心:所有的数据都通过流式计算,即便通过加大并发实例数亦很难适应 IOT 时代对数据查询响应的即时性要求。

● 开发周期长:此外 Kappa 架构下由于采集的数据格式的不统一,每次都需要开发不同的 Streaming 程序,导致开发周期长。

● 服务器成本浪费:Kappa 架构的核心原理依赖于外部高性能存储 redis,hbase 服务。但是这 2 种系统组件,又并非设计来满足全量数据存储设计,对服务器成本严重浪费。

 

IOTA 架构

而在 IOT 大潮下,智能手机、PC、智能硬件设备的计算能力越来越强,而业务需求要求数据实时响应需求能力也越来越强,过去传统的中心化、非实时化数据处理的思路已经不适应现在的大数据分析需求,我提出新一代的大数据 IOTA 架构来解决上述问题,整体思路是设定标准数据模型,通过边缘计算技术把所有的计算过程分散在数据产生、计算和查询过程当中,以统一的数据模型贯穿始终,从而提高整体的预算效率,同时满足即时计算的需要,可以使用各种 Ad-hoc Query 来查询底层数据:

  

IOTA 整体技术结构分为几部分:

● Common Data Model:贯穿整体业务始终的数据模型,这个模型是整个业务的核心,要保持 SDK、cache、历史数据、查询引擎保持一致。对于用户数据分析来讲可以定义为“主 - 谓 - 宾”或者“对象 - 事件”这样的抽象模型来满足各种各样的查询。以大家熟悉的 APP 用户模型为例,用“主 - 谓 - 宾”模型描述就是“X 用户 – 事件 1 – A 页面(2018/4/11 20:00) ”。当然,根据业务需求的不同,也可以使用“产品 - 事件”、“地点 - 时间”模型等等。模型本身也可以根据协议(例如 protobuf)来实现 SDK 端定义,中央存储的方式。此处核心是,从 SDK 到存储到处理是统一的一个 Common Data Model。

● Edge SDKs & Edge Servers:这是数据的采集端,不仅仅是过去的简单的 SDK,在复杂的计算情况下,会赋予 SDK 更复杂的计算,在设备端就转化为形成统一的数据模型来进行传送。例如对于智能 Wi-Fi 采集的数据,从 AC 端就变为“X 用户的 MAC 地址 - 出现 - A 楼层(2018/4/11 18:00)”这种主 - 谓 - 宾结构,对于摄像头会通过 Edge AI Server,转化成为“X 的 Face 特征 - 进入 - A 火车站(2018/4/11 20:00)”。也可以是上面提到的简单的 APP 或者页面级别的“X 用户 – 事件 1 – A 页面(2018/4/11 20:00) ”,对于 APP 和 H5 页面来讲,没有计算工作量,只要求埋点格式即可。

● Real Time Data:实时数据缓存区,这部分是为了达到实时计算的目的,海量数据接收不可能海量实时入历史数据库,那样会出现建立索引延迟、历史数据碎片文件等问题。因此,有一个实时数据缓存区来存储最近几分钟或者几秒钟的数据。这块可以使用 Kudu 或者 Hbase 等组件来实现。这部分数据会通过 Dumper 来合并到历史数据当中。此处的数据模型和 SDK 端数据模型是保持一致的,都是 Common Data Model,例如“主 - 谓 - 宾”模型。

● Historical Data:历史数据沉浸区,这部分是保存了大量的历史数据,为了实现 Ad-hoc 查询,将自动建立相关索引提高整体历史数据查询效率,从而实现秒级复杂查询百亿条数据的反馈。例如可以使用 HDFS 存储历史数据,此处的数据模型依然 SDK 端数据模型是保持一致的 Common Data Model。

● Dumper:Dumper 的主要工作就是把最近几秒或者几分钟的实时数据,根据汇聚规则、建立索引,存储到历史存储结构当中,可以使用 map reduce、C、Scala 来撰写,把相关的数据从 Realtime Data 区写入 Historical Data 区。

● Query Engine:查询引擎,提供统一的对外查询接口和协议(例如 SQL JDBC),把 Realtime Data 和 Historical Data 合并到一起查询,从而实现对于数据实时的 Ad-hoc 查询。例如常见的计算引擎可以使用 presto、impala、clickhouse 等。

● Realtime model feedback:通过 Edge computing 技术,在边缘端有更多的交互可以做,可以通过在 Realtime Data 去设定规则来对 Edge SDK 端进行控制,例如,数据上传的频次降低、语音控制的迅速反馈,某些条件和规则的触发等等。简单的事件处理,将通过本地的 IOT 端完成,例如,嫌疑犯的识别现在已经有很多摄像头本身带有此功能。

 

IOTA 大数据架构,主要有如下几个特点:

● 去 ETL 化:ETL 和相关开发一直是大数据处理的痛点,IOTA 架构通过 Common Data Model 的设计,专注在某一个具体领域的数据计算,从而可以从 SDK 端开始计算,中央端只做采集、建立索引和查询,提高整体数据分析的效率。

● Ad-hoc 即时查询:鉴于整体的计算流程机制,在手机端、智能 IOT 事件发生之时,就可以直接传送到云端进入 real time data 区,可以被前端的 Query Engine 来查询。此时用户可以使用各种各样的查询,直接查到前几秒发生的事件,而不用在等待 ETL 或者 Streaming 的数据研发和处理。

● 边缘计算(Edge-Computing):将过去统一到中央进行整体计算,分散到数据产生、存储和查询端,数据产生既符合 Common Data Model。同时,也给与 Realtime model feedback,让客户端传送数据的同时马上进行反馈,而不需要所有事件都要到中央端处理之后再进行下发。

如上图,IOTA 架构有各种各样的实现方法,为了验证 IOTA 架构,易观也自主设计并实现了“秒算”引擎,目前支持易观内部月活 5.5 亿设备端进行计算的同时,也基于“秒算”引擎研发出了可以独立部署在企业客户内,进行数字用户分析和营销的“易观方舟”,可以访问 ark.analysys.cn 进行体验。

在大数据 3.0 时代,Lambda 大数据架构已经无法满足企业用户日常大数据分析和精益运营的需要,去 ETL 化的 IOTA 大数据架构才是未来。


更多高质资源 尽在AIQ 机器学习大数据 知乎专栏 点击关注

转载请注明 AIQ - 最专业的机器学习大数据社区  http://www.6aiq.com