La relación entre Hadoop y Spark. ¿El clúster Spark tiene que depender de Hadoop?
En comparación con Hadoop, la verdadera ventaja de Spark es la velocidad. La mayoría de las operaciones de Spark están en la memoria. El sistema MapReduce de Hadoop volverá a escribir todos los datos en el medio de almacenamiento físico después de cada operación para garantizar una recuperación completa en caso de un problema, pero el almacenamiento de datos distribuido elástico de Spark también puede lograrlo.
Datos extendidos:
Spark se implementa en lenguaje Scala y utiliza Scala como marco de aplicación. A diferencia de Hadoop, Spark y ? ¿Escala? Es posible una estrecha integración, donde Scala puede manipular conjuntos de datos distribuidos tan fácilmente como los objetos de colección local.
Aunque Spark se creó para admitir trabajos iterativos en conjuntos de datos distribuidos, en realidad es complementario a Hadoop y puede ejecutarse en paralelo en el sistema de archivos Hadoop. Este comportamiento puede ser compatible con un marco de clúster de terceros llamado Mesos. Desarrollado por el Laboratorio AMP (Algoritmos, Máquinas y Personas) de UC Berkeley, Spark se puede utilizar para crear aplicaciones de análisis de datos de baja latencia y gran escala.
Enciclopedia Baidu-Xinghuo