Apache Spark

Motor de procesamiento distribuido de código abierto.

Contenidos mostrar

Descripción

Apache Spark ha sido diseñado para ser rápido, versátil y escalable en el análisis de big data (macrodatos) y por ello es utilizado en el campo de la ciencia de datos.

Utiliza procesamiento en memoria RAM y un grafo acíclico dirigido (DAG) para lograr una ejecución optimizada, permitiendo el análisis en tiempo real, procesamiento por lotes, machine learning y consultas SQL.

Funciona en clústeres independientes o sobre Hadoop, ofreciendo APIs en Python (PySpark), Scala, Java y R.

Enlaces

Spark.Apache.org

Descripción

Enlaces

Recursos