Skip to content

Latest commit

 

History

History
21 lines (12 loc) · 1015 Bytes

README.md

File metadata and controls

21 lines (12 loc) · 1015 Bytes

#A propos

Apache Spark se présente comme la nouvelle génération de moteur de calcul distribué qui remplace progressivement Hadoop/MapReduce.

L'objet de ce Hands-on Labs est de vous familiariser par la pratique au traitement massif et distribué dans le domaine du data crunching et du machine learning. A l'issue de cette session, vous serez familiers avec :

  • Les Resilient Data Sets (RDD) qui désignent l’abstraction essentielle pour la manipulation distribuée des données.

  • les patterns de transformations et d'actions offerts par l'API

  • les API de chargement et de stockage de données - filesystem / hdfs / NoSQL(Elasticsearch et Cassandra)

  • Les bonnes pratiques de programmation distribuée avec la mise en oeuvre du partitionnement sélectif et l'usage de variables partagées (accumulators et broadcast variables)

  • l'analyse et le reporting via Spark SQL

  • l'analytique temps-réel avec Spark Streaming

Les prérequis à installer :

JDK 8 Distribution Spark et contenu du Hands-on Lab