本章涵盖
Spark带来了什么
Spark组件 Spark程序流 Spark生态系统 下载并启动spark-in-action虚拟机Apache Spark是一个快速,通用的分布式计算平台。听起来像市场宣传,然而这确实是最适合他的标签。
Apache Spark真的给大数据空间带来了革命。 Spark可以有效地利用内存,并且可以执行等效作业比Hadoop的MapReduce快10到100倍。除此之外,Spark的创建者设法抽象出一个事实,即你正在处理一组机器,而是给你一组基于集合的API。使用Spark的集合感觉像使用本地Scala,Java或Python集合,但Spark的集合引用分布在许多节点上的数据。这些集合的操作被转换成复杂的并行程序,而用户不必知道事实,这是一个真正强大的概念。
在本章中,我们首先阐述了Spark的主要功能,并将Spark与其自然的前身:Hadoop的MapReduce进行比较。
然后,我们简要探讨Hadoop的生态系统 - 一个与Hadoop一起用于大数据操作的工具和语言的集合,以了解Spark如何适应。
我们简要概述Spark的组件,并向您展示典型的Spark程序如何使用简单的“Hello World”示例。
最后,我们帮助您下载并设置我们为在书中运行示例而准备的spark-in-action虚拟机。
我们已经尽最大努力为Spark架构,其组件,运行时环境和API编写了全面的指南,同时提供了具体的示例和现实案例研究。通过阅读本书,更重要的是,通过筛选示例,您将获得编写自己的高质量Spark程序和管理Spark应用程序所需的知识和技能。