#A propos

Apache Spark se présente comme la nouvelle génération de moteur de calcul distribué qui remplace progressivement Hadoop/MapReduce.

L'objet de ce Hands-on Labs est de vous familiariser par la pratique au traitement massif et distribué dans le domaine du data crunching et du machine learning. A l'issue de cette session, vous serez familiers avec :

Les Resilient Data Sets (RDD) qui désignent l’abstraction essentielle pour la manipulation distribuée des données.
les patterns de transformations et d'actions offerts par l'API
les API de chargement et de stockage de données - filesystem / hdfs / NoSQL(Elasticsearch et Cassandra)
Les bonnes pratiques de programmation distribuée avec la mise en oeuvre du partitionnement sélectif et l'usage de variables partagées (accumulators et broadcast variables)
l'analyse et le reporting via Spark SQL
l'analytique temps-réel avec Spark Streaming

Les prérequis à installer :

JDK 8 Distribution Spark et contenu du Hands-on Lab

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

README.md

Files

README.md

Latest commit

History

README.md

File metadata and controls