AIQ | 百分点刘译璟:Hadoop 或衰落,但核心组件生命力旺盛!



转载请注明 AIQ - 最专业的机器学习大数据社区  http://www.6aiq.com

AIQ 机器学习大数据 知乎专栏 点击关注

作者 IT168 赵钰莹

大数据产业趋于成熟,首当其冲的数据资产管理需求大规模爆发,如果将数据比作土壤,加之大数据平台组件的标准管理、元数据管理、主数据管理等各种营养成分,可以培养滋润出非常丰富多彩的上层数据应用。但不能忽视的是,在一些调查报告和趋势预测中,对 Hadoop 的未来都十分不乐观。为了搞清楚业界对 Hadoop 生死的观点,IT168 特别进行关于 Hadoop 是否已“失宠”的专题调研。

作为 Hadoop 生态的直接使用者,百分点技术副总裁兼首席架构师刘译璟博士接受了 IT168 记者的采访。共同探讨,百分点对 Hadoop 的命运如何看待?层出不穷的 Hadoop 生态组件,百分点是如何选择的?

一直以来,我们可能忽略了一些问题。比如,Hadoop 核心组件与边缘组件的边界正在变得越来越清晰;Spark、Flink 正在逐渐成长,生态渐渐庞大;可供选择的组件越来越多,但是企业对于如何选择却毫无头绪。

关于 Hadoop 生死的讨论已经进入后半场,到底其命运走向如何?

刘译璟认为,所谓专注:Hadoop 的优势恰恰是它最大的劣势!

2011 年,Hadoop 在百分点正式上线。起初,百分点主要是应用 MapReduce、Hive 和 HDFS 三大核心组件做数据仓库相关的工作。随后,组件越来越丰富,功能也越来越强大。但总体来讲,Hadoop 在百分点大数据架构中还是扮演着一个基础平台的角色。

基于多年 Hadoop 生态的应用经验,刘译璟认为,Hadoop 最大的优势就是可处理的数据量庞大且运行稳定。在节点资源不增加的情况下,Hadoop 的运行速度虽然不占优势,但却是十分稳定的。在海量数据处理方面,Hadoop 依旧是目前为止可以找到的最合适的解决方案。

既是优势也是劣势,Hadoop 在批处理方面的强大无法掩盖其在实时处理以及流处理方面的缺憾。作为后来者的 Spark 和 Flink 正是弥补了 Hadoop 的这些劣势,才在大数据市场分得了一方天下。

与其讨论庞大的 Hadoop 生态的命运,不如先看看各组件都过得如何!

Gartner 在《2017 年数据管理技术成熟度曲线》中指出,尽管企业对大数据解决方案的需求在不断增长,但对 Hadoop 的需求并没有像预期那样加速,企业对 Hadoop 的热情很低。刘译璟认为,企业对 Hadoop 的关注度降低是正常的,概念炒作阶段结束,企业将关注点移回业务和解决方案本身,部分厂商又开始将焦点对准下一轮新兴技术,准备着新一波的技术炒作。

观点解读:Hadoop 可能衰落,但核心组件的生命力依旧旺盛!

Gartner 认为,Hadoop 到达生产成熟期前即被淘汰

单就 Gartner 报告,我们很难对 Hadoop 判死刑。毕竟,事实上,它已经存在于国内很多企业的大数据架构中,每天都会有成千上万的任务运行在 Hadoop 之上,这其中不免核心任务。既然我们对庞大的 Hadoop 生态的命运摇摆不定,不如先来看看 Hadoop 各大组件的生存现状,一旦这些组件逐渐被外来者替换,整个生态自然无法称之为“Hadoop 生态”。

虽然,Hadoop 生态历史悠久且成熟,企业没有必要将运行良好的整个底层架构替换掉。但是,Hadoop 生态中各个组件的可替换性还是很高的,Hadoop 生态的概念被慢慢淡化是有可能的。比如,不少企业会在机器学习任务中使用 Spark 或者 Tensorflow,甚至尝试类似 Flink 这样的新技术。

至于各大组件的生命力,刘译璟认为企业需要判断组件之间的差异性,选择生命力相对较长的组件。他表示,HBase、HDFS 以及 ZooKeeper 这类组件的生命力还是挺长的,短期内不会消失。毕竟,类似 HDFS 这样的基础组件消失是很困难的,无论是 Spark 还是 Flink,底层的文件系统都是 HDFS,很少有第三方厂商基于开源再造一个文件系统,HDFS 在某种程度上奠定了大数据的基础。

其次,应用极其广泛的 Hive 也是 Hadoop 生态表现比较好的组件之一,类 SQL 的做法易于学习,企业可进一步增加自定义的函数和方法。

最后,ZooKeeper 和 HBase 也是可以放心的两个选择。目前,不少系统集成了 ZooKeeper,因为它是分布式应用程序协调服务很关键的工具。在海量数据存储方面,刘译璟认为,目前看起来比较靠谱的方案依旧是 HBase。无论是时间序列数据库还是图数据库底层往往都是 HBase,这也说明其性能的优异。

观点解读:Hadoop 可能衰落,但核心组件的生命力依旧旺盛!

但是,MapReduce、Hive 这类组件确实可能被 Spark 等替换掉,随着硬件越来越成熟,Spark 的优化工作越来越好,企业很可能倾向于在内存中计算。此外,Hadoop 在机器学习方面确实不太擅长,Mahout 等组件表现不佳,成为不少企业选择 Spark 的原因之一。最后,资源管理器 Yarn 与 Hadoop 的绑定过于紧,而实际上,我们有很多资源调度管理方法可供选择,比如 Kubernetes 等,对各种应用的支持某种程度上比 Yarn 更完善,无论是外部类型应用,大数据应用还是机器学习应用均可处理。

观点解读:Hadoop 可能衰落,但核心组件的生命力依旧旺盛!

不少用户都在讨论:这么多组件,企业如何搭配才是正确的。其实,组件的选取肯定与具体完成的业务相关,除上述讨论,刘译璟也分享了百分点的大数据操作系统图,希望对从业者有所帮助。

 

观点解读:Hadoop 可能衰落,但核心组件的生命力依旧旺盛!

大数据天下咋分?被热捧的 Spark 和 Flink 或许会先大战一场!

对于现在比较热门的两大 Hadoop 替补队员——Spark 和 Flink,刘译璟认为,整体来看,Spark 确实还有很大的发展空间。作为后来者,Spark 在功能与效果上确实比 Hadoop 更好。随着 Flink 的逐渐完善,Spark 与 Flink 之间的竞争关系会更为直接明显,因为二者的理念和方法十分相像,都弥补了 Hadoop 在实时处理和流式处理方面的缺憾。

但是,一项技术要想真正发展起来不单单取决于技术本身的价值。想要与 Hadoop 平起平坐,Flink 和 Spark 还需要来自厂商、开发者甚至是资本方面的支持,暂时无法预测未来的大数据市场会是什么样的现象。

总之,Hadoop 生态可能走向衰落,但核心组件的生命力依然旺盛!

写在最后: 此前 IT168 已分别对国内一线互联网公司的大数据架构及国内部分提供大数据服务的厂商的调研。调研发现,无论是大数据厂商还是互联网企业,Hadoop 都是稳稳的基础层。但在行业实践中,总会有关注技术前沿的瞭望者,百分点在结合实际业务应用技术中不断探索、思考,一直坚持为解决企业机构的实际问题而行之,这也是百分点对 Hadoop 是否已“失宠”的回答。


更多高质资源 尽在AIQ 机器学习大数据 知乎专栏 点击关注

转载请注明 AIQ - 最专业的机器学习大数据社区  http://www.6aiq.com