1.1.1 Spark 发展史
虽然过去十年看到Hadoop的广泛采用,Hadoop不是没有它的缺点。 它是强大的,但它处理速度很慢。 这为新技术(如Spark)开辟了道路,以解决Hadoop面临的相同问题,但Spark 更高效。 在接下来的几页中,我们将讨论Hadoop的缺点,以及Spark如何解决这些问题。
Hadoop框架及其HDFS和MapReduce数据处理引擎,
是第一个将分布式计算带给大众的。 Hadoop解决了
任何分布式数据处理工作面临的三个主要问题:
本文http://www.paymoon.com:8001/index.php/2016/12/27/the-spark-revolution/ 如果转载请联系 龙遥Yol i@paymoon.com
1、并行化 - 如何同时执行计算的子集 2、分发 - 如何分发数据 3、容错 - 如何处理组件故障 注意附录A更详细地描述了MapReduce。 此外,Hadoop集群通常由商品硬件组成,这使Hadoop易于设置。 这就是为什么过去十年被广泛采用。
本文http://www.paymoon.com:8001/index.php/2016/12/27/the-spark-revolution/ 如果转载请联系 龙遥Yol i@paymoon.com
1、并行化 - 如何同时执行计算的子集 2、分发 - 如何分发数据 3、容错 - 如何处理组件故障 注意附录A更详细地描述了MapReduce。 此外,Hadoop集群通常由商品硬件组成,这使Hadoop易于设置。 这就是为什么过去十年被广泛采用。