提高Spark姿势水平 No.73
长文。巨长。
本文的依据是我学习整个Spark的学习历程。在这里,我会从几个方面来跟大家一起讨论。Spark 是什么?Spark 跟 Hadoop 有什么渊源?Spark 有哪些方便的组件?什么场景下用 Spark ,如何使用?以及用什么样的姿势来学习 Spark 会比较好?
Apache Spark™ is a fast and general engine for large-scale data processing.
Spark就是一个能够快速以及通用的处理大规模数据的引擎。怎么理解这句话呢? Spark 就是一个处理引擎,它提供了类似 map , reduce , groupBy,persist 这些操作,来方便地对数据进行各种各样的并行处理。它以一个有向无环图来定义一个应用,方便对任务的容错和重试处理。它定义了一个叫 RDD 的弹性数据结构,将所有的数据和中间结果都尽可能缓存在内存中,形成一个分布式内存数据集。