1.4 Spark 生态
我们已经提到了Hadoop生态系统,包括接口,分析,集群管理和基础设施工具。 一些最重要的如图1.6所示。 图1.6不是完整的7你可能会说我们没有添加一个工具,但是一个完整的工具列表将很难适应这一节。 但我们认为,这个列表代表了Hadoop生态系统中最突出的工具的一个很好的子集。 1.6 Hadoop生态系统中的基本基础架构,接口,分析和管理工具,以及Spark整合或过时的一些功能 如果您将Spark组件的功能与Hadoop生态系统中的工具进行比较,您可以看到一些工具突然变得多余。例如,Apache Giraph可以替换为Spark GraphX,而Spark MLlib可以替代Apache Mahout。 Apache Storm的功能与Spark Streaming的功能大不相同,因此在许多情况下可以使用Spark Streaming。 不再需要Apache Pig和Apache Sqoop,因为Spark Core和Spark SQL涵盖了相同的功能。但是即使你有传统的Pig工作流,并且需要运行Pig,Spork项目也允许你运行Pig on Spark。
本文http://www.paymoon.com:8001/index.php/2016/12/27/spark-ecosystem/ 如果转载请联系 龙遥Yol i@paymoon.com
Spark没有办法替换Hadoop生态系统工具(Oozie,HBase和ZooKeeper)的基础架构和管理。 Oozie用于调度不同类型的Hadoop作业,现在甚至有一个扩展来调度Spark作业。 HBase是一个分布式和可扩展的数据库,这是Spark不提供的东西。 ZooKeeper提供了许多分布式应用程序需要的常用功能的快速和强大的实现,例如协调,分布式同步,命名和提供组服务。它也用于许多其他分布式系统中的这些目的。 Impala和Drill可以与Spark共存,特别是Drill支持Spark作为执行引擎。但它们更像是竞争框架,主要跨越Spark Core和Spark SQL的功能,这使得Spark特性更加丰富(双关)。 我们之前说过Spark不需要使用HDFS存储。除了HDFS,Spark可以对存储在Amazon S3存储桶和纯文件中的数据进行操作。更令人兴奋的是,它也可以使用Alluxio(以前的Tachyon),这是一个以内存为中心的分布式文件系统或其他分布式文件系统,如GlusterFS。 另一个有趣的事实是,Spark不必在YARN上运行。 Apache Mesos和Spark独立集群是Spark的替代集群管理器。 Apache Mesos是一个带有分布式资源抽象的高级分布式系统内核。它可以扩展到具有完全容错的成千上万个节点(我们将在第12章中访问它)。 Spark Standalone是Spark特有的集群管理器,今天在多个站点上使用。 因此,如果我们从MapReduce切换到Spark,并摆脱YARN和所有的工具,Spark使过时,Hadoop生态系统剩下什么?换句话说:我们是否正在慢慢迈向新的大数据标准:Spark生态系统?
本文http://www.paymoon.com:8001/index.php/2016/12/27/spark-ecosystem/ 如果转载请联系 龙遥Yol i@paymoon.com
Spark 实战更多文章:[翻译]Spark In Action – PayMoon贝明实验室 http://www.paymoon.com:8001/index.php/2016/12/27/spark-in-action-foreword/
我们已经提到了Hadoop生态系统,包括接口,分析,集群管理和基础设施工具。 一些最重要的如图1.6所示。 图1.6不是完整的7你可能会说我们没有添加一个工具,但是一个完整的工具列表将很难适应这一节。 但我们认为,这个列表代表了Hadoop生态系统中最突出的工具的一个很好的子集。 1.6 Hadoop生态系统中的基本基础架构,接口,分析和管理工具,以及Spark整合或过时的一些功能 如果您将Spark组件的功能与Hadoop生态系统中的工具进行比较,您可以看到一些工具突然变得多余。例如,Apache Giraph可以替换为Spark GraphX,而Spark MLlib可以替代Apache Mahout。 Apache Storm的功能与Spark Streaming的功能大不相同,因此在许多情况下可以使用Spark Streaming。 不再需要Apache Pig和Apache Sqoop,因为Spark Core和Spark SQL涵盖了相同的功能。但是即使你有传统的Pig工作流,并且需要运行Pig,Spork项目也允许你运行Pig on Spark。
本文http://www.paymoon.com:8001/index.php/2016/12/27/spark-ecosystem/ 如果转载请联系 龙遥Yol i@paymoon.com
Spark没有办法替换Hadoop生态系统工具(Oozie,HBase和ZooKeeper)的基础架构和管理。 Oozie用于调度不同类型的Hadoop作业,现在甚至有一个扩展来调度Spark作业。 HBase是一个分布式和可扩展的数据库,这是Spark不提供的东西。 ZooKeeper提供了许多分布式应用程序需要的常用功能的快速和强大的实现,例如协调,分布式同步,命名和提供组服务。它也用于许多其他分布式系统中的这些目的。 Impala和Drill可以与Spark共存,特别是Drill支持Spark作为执行引擎。但它们更像是竞争框架,主要跨越Spark Core和Spark SQL的功能,这使得Spark特性更加丰富(双关)。 我们之前说过Spark不需要使用HDFS存储。除了HDFS,Spark可以对存储在Amazon S3存储桶和纯文件中的数据进行操作。更令人兴奋的是,它也可以使用Alluxio(以前的Tachyon),这是一个以内存为中心的分布式文件系统或其他分布式文件系统,如GlusterFS。 另一个有趣的事实是,Spark不必在YARN上运行。 Apache Mesos和Spark独立集群是Spark的替代集群管理器。 Apache Mesos是一个带有分布式资源抽象的高级分布式系统内核。它可以扩展到具有完全容错的成千上万个节点(我们将在第12章中访问它)。 Spark Standalone是Spark特有的集群管理器,今天在多个站点上使用。 因此,如果我们从MapReduce切换到Spark,并摆脱YARN和所有的工具,Spark使过时,Hadoop生态系统剩下什么?换句话说:我们是否正在慢慢迈向新的大数据标准:Spark生态系统?
本文http://www.paymoon.com:8001/index.php/2016/12/27/spark-ecosystem/ 如果转载请联系 龙遥Yol i@paymoon.com
Spark 实战更多文章:[翻译]Spark In Action – PayMoon贝明实验室 http://www.paymoon.com:8001/index.php/2016/12/27/spark-in-action-foreword/