La relación entre Hadoop y Spark. ¿El clúster Spark tiene que depender de Hadoop?

Debe estar en un clúster de hadoop y su fuente de datos es HDFS, que es esencialmente un marco informático en hilo, al igual que MrHadoop es la base, donde HDFS proporciona almacenamiento de archivos y Yarn administra los recursos. Puede ejecutar MapReduce, Spark, Tez y otros marcos informáticos.

En comparación con Hadoop, la verdadera ventaja de Spark es la velocidad. La mayoría de las operaciones de Spark están en la memoria. El sistema MapReduce de Hadoop volverá a escribir todos los datos en el medio de almacenamiento físico después de cada operación para garantizar una recuperación completa en caso de un problema, pero el almacenamiento de datos distribuido elástico de Spark también puede lograrlo.

Datos extendidos:

Spark se implementa en lenguaje Scala y utiliza Scala como marco de aplicación. A diferencia de Hadoop, Spark y ? ¿Escala? Es posible una estrecha integración, donde Scala puede manipular conjuntos de datos distribuidos tan fácilmente como los objetos de colección local.

Aunque Spark se creó para admitir trabajos iterativos en conjuntos de datos distribuidos, en realidad es complementario a Hadoop y puede ejecutarse en paralelo en el sistema de archivos Hadoop. Este comportamiento puede ser compatible con un marco de clúster de terceros llamado Mesos. Desarrollado por el Laboratorio AMP (Algoritmos, Máquinas y Personas) de UC Berkeley, Spark se puede utilizar para crear aplicaciones de análisis de datos de baja latencia y gran escala.

Enciclopedia Baidu-Xinghuo

上篇: ¿Tendrán conflicto 360 Security Guard y Norton? 下篇: Los 50 principales promotores inmobiliarios en 2020