Skip to main content

Apache Spark

Motor de procesamiento distribuido de código abierto.

Descripción

Apache Spark ha sido diseñado para ser rápido, versátil y escalable en el análisis de big data (macrodatos) y por ello es utilizado en el campo de la ciencia de datos.

Utiliza procesamiento en memoria RAM y un grafo acíclico dirigido (DAG) para lograr una ejecución optimizada, permitiendo el análisis en tiempo real, procesamiento por lotes, machine learning y consultas SQL.

Funciona en clústeres independientes o sobre Hadoop, ofreciendo APIs en Python (PySpark), Scala, Java y R.

Recursos

Ir a Arriba