1.6 总结
■ Apache Spark是一种令人兴奋的新技术,它迅速取代Hadoop的MapReduce作为首选大数据处理平台。 ■ Spark程序的速度可以比MapReduce快100倍。 ■ Spark支持Java,Scala,Python和R语言。 ■ 使用Spark编写分布式程序与编写本地Java,Scala或Python程序类似。 ■ Spark为单个框架中的批处理编程,实时数据处理功能,结构化数据的类似SQL的处理,图形算法和机器学习提供了一个统一的平台。
www.paymoon.com:8001/index.php/2016/12/27/spark-in-action-1-6-summary/
■ Spark不适合小型数据集,也不应将其用于OLTP应用程序。 ■ 主要的Spark组件是Spark Core,Spark SQL,Spark Streaming,Spark MLlib和Spark GraphX。 ■ RDD是Spark对分布式集合的抽象。 ■ Spark取代了Hadoop生态系统中的一些工具。 ■ 您将使用spark-in-action VM来运行本书中的示例。
本文http://www.paymoon.com:8001/index.php/2016/12/27/spark-in-action-1-6-summary/ 如果转载请联系 龙遥Yol i@paymoon.com
Spark 实战更多文章:[翻译]Spark In Action – PayMoon贝明实验室 http://www.paymoon.com:8001/index.php/2016/12/27/spark-in-action-foreword/
■ Apache Spark是一种令人兴奋的新技术,它迅速取代Hadoop的MapReduce作为首选大数据处理平台。 ■ Spark程序的速度可以比MapReduce快100倍。 ■ Spark支持Java,Scala,Python和R语言。 ■ 使用Spark编写分布式程序与编写本地Java,Scala或Python程序类似。 ■ Spark为单个框架中的批处理编程,实时数据处理功能,结构化数据的类似SQL的处理,图形算法和机器学习提供了一个统一的平台。
www.paymoon.com:8001/index.php/2016/12/27/spark-in-action-1-6-summary/
■ Spark不适合小型数据集,也不应将其用于OLTP应用程序。 ■ 主要的Spark组件是Spark Core,Spark SQL,Spark Streaming,Spark MLlib和Spark GraphX。 ■ RDD是Spark对分布式集合的抽象。 ■ Spark取代了Hadoop生态系统中的一些工具。 ■ 您将使用spark-in-action VM来运行本书中的示例。
本文http://www.paymoon.com:8001/index.php/2016/12/27/spark-in-action-1-6-summary/ 如果转载请联系 龙遥Yol i@paymoon.com
Spark 实战更多文章:[翻译]Spark In Action – PayMoon贝明实验室 http://www.paymoon.com:8001/index.php/2016/12/27/spark-in-action-foreword/