img

Traitement de données Big Data en temps réel avec Spark et Storm

Le Big Data, connu pour sa capacité à traiter des données massives, intègre avec l'arrivée d'outils comme Spark et Storm la composante temps réel. Vous découvrirez dans ce cours les atouts de ces outils, leur système de calcul distribué temps réel ainsi que la notion de diffusion en continue (Streaming Big Data).

Bookmark 1 Intervenant 7 Inscrits

Objectifs pédagogiques

  • À l’issue de la formation, le participant sera en mesure de :
  • Comprendre les fondamentaux du développement d'applications Big Data en temps réel
  • Evaluer les outils Spark et Storm
  • Appliquer les systèmes de calcul distribué temps réel de Storm et de Spark
  • Traiter des grosses quantités de données en temps réel

Public concerné

Concepteurs, développeurs, architectes.

Prérequis

  • Bonnes connaissances en développement logiciel. Une compréhension des problèmes liés au Big Data est un plus.

Programme de la formation

Introduction à l'architecture temps réel

  • Traitements temps réel.
  • Les architectures LAMBDA.
  • Les architectures KAPPA.
  • Les architectures SMACK.

Travaux pratiques

Etude de l'implémentation d'une architecture KAPPA pour Spark et Strom.

L'architecture Kafka

  • L'aperçu de Kafka Producers, Brokers, Consumers.
  • Les fichiers journaux de Kafka.
  • Les schémas Avro. Utilisation de ZooKeeper.

Travaux pratiques

Étude de la configuration de Kafka dans l'architecture KAPPA.

L'architecture Apache Storm

  • Définition de l'environnement de développement.
  • Création de projets basés sur Storm.
  • Définition des composants Storm (Spout et Bolt).
  • Définition des flux Storm.
  • Modèle de données (clé, valeur).
  • Rôles des Nimbus et ZooKeeper.

Etude de cas

Étude de l'implémentation de l'architecture KAPPA pour Storm.

Le traitement des messages Storm

  • Programmation de services avec Clojure, Java, Python.
  • Cycle de vie d'un message.
  • L'API Storm pour la définition de la fiabilité.
  • Stratégie de mise en place de la fiabilité pour une application utilisant le Big Data.

Travaux pratiques

  • Mise en œuvre d'un projet de traitement des réseaux sociaux en temps réel dans l'architecture KAPPA.

L'architecture d'Apache Spark

  • Les différentes versions de Spark (Scala, Python, R et Java).
  • Comparaison avec l'environnement Storm.
  • Les différents modules de Spark.
  • Les différents types d'architecture : Standalone, Apache Mesos ou Hadoop YARN.

Travaux pratiques

Etude de l'implémentation de l'architecture SMACK pour Spark.

Le temps réel avec Spark Streaming

  • Présentation des RDD.
  • Créer, manipuler et réutiliser des RDD.
  • Accumulateurs et variables broadcastées.
  • Principe de fonctionnement.
  • Les différents types de sources.
  • Comparaison avec Apache Storm.

Travaux pratiques

Mise en œuvre d'un projet de traitement des réseaux sociaux en temps réel.

Les autres acteurs du marché

  • Comparaison de tous les outils de streaming de l'écosystème (Storm, Spark Streaming, Flink, Samza).
  • Focus sur l'architecture Samza.

Travaux pratiques

Étude de l'implémentation de l'architecture KAPPA avec Samza.

Projet final


Le Big Data, connu pour sa capacité à traiter des données massives, intègre avec l'arrivée d'outils comme Spark et Storm la composante temps réel. Vous découvrirez dans ce cours les atouts de ces outils, leur système de calcul distribué temps réel ainsi que la notion de diffusion en continue (Streaming Big Data).

Nous couvrirons les cours suivants:

-.-

Sur 5.0

5stars
(90%)
4stars
(65%)
3stars
(49%)
2stars
(25%)
1stars
(15%)

Formations Recommandées

Mot Clés

Recherche

Nos Formateurs

Newsletter

Abonnez-vous pour plus informations.