img

Big Data - Python pour l'analyse de données

Le langage Python dispose d'un écosystème scientifique, permettant entre autres, les traitements statistiques : de la construction de modèles d'analyse, à leur évaluation jusqu'à leur représentation. Ce cours vous permet d'analyser des données d'horizon divers avec les bibliothèques Python.

Bookmark 1 Intervenant 8 Inscrits

Objectifs pédagogiques

  • À l’issue de la formation, le participant sera en mesure de :
  • Comprendre le principe de la modélisation statistique
  • Savoir utiliser les principaux outils de traitement et d'analyse de données pour Python
  • Savoir appliquer les pratiques optimales en matière de nettoyage et de préparation des données avant l'analyse
  • Choisir entre la régression et la classification en fonction du type de données
  • Apprendre à mettre en place un modèle d'apprentissage simple
  • Être capable d'extraire des données d'un fichier

Public concerné

  • Développeurs en Python, responsables infocentre, développeurs de logiciels, programmeurs, data analysts, data scientists.

Prérequis

  • Maîtrise de la programmation Python. Connaissances de base en statistiques ou avoir suivi le stage "Statistiques, maîtriser les fondamentaux" (Réf. STA).
  • Vérifiez que vous avez les prérequis nécessaires pour profiter pleinement de cette formation en faisant ce test.

Programme de la formation

Présentation de l’écosystème Python scientifique

  • Panorama de l’écosystème scientifique de Python : les librairies incontournables.
  • Savoir ou trouver de nouvelles librairies et juger de leur pérennité.
  • Les principaux outils et logiciels open source pour la data science.

Travaux pratiques

Installation de Python 3, d'Anaconda et de Jupiter Notebook.

Travailler les données avec Python

  • Le socle scientifique Python : la SciPy Stack.
  • Les bonnes pratiques pour bien démarrer votre projet de data science avec Python.
  • Les formats de fichiers scientifiques et les librairies pour les manipuler.
  • Pandas : l’analyse de données tabulaires (fichiers csv, excel...), statistiques, pivots, filtres, recherche…
  • Numpy : calcul numérique et algèbre linéaire (les vecteurs, matrices, images).
  • L’extraction des données,la préparation , le nettoyage.

Travaux pratiques

  • Ecrire des scripts Python permettant de travailler avec des données issues de fichiers, afin d’appliquer des filtres, des traitements de formatage, de nettoyage.

Introduction à la modélisation

  • Les étapes de construction d'un modèle.
  • Les algorithmes supervisés et non supervisés.
  • Le choix entre la régression et la classification.

Travaux pratiques

Intégration dans l’environnement installé de scripts Python, pour analyse.

Procédures d'évaluation de modèles

  • Les techniques de ré-échantillonnage en jeu d'apprentissage, de validation et de test.
  • Test de représentativité des données d'apprentissage.
  • Mesures de performance des modèles prédictifs.
  • Matrice de confusion, de coût et la courbe ROC et AUC.

Travaux pratiques

  • Mise en place d'échantillonnage de jeux de données. Effectuer des tests d'évaluations sur plusieurs modèles fournis.

Les algorithmes supervisés

  • Le principe de régression linéaire univariée.
  • La régression multivariée.
  • La régression polynomiale.
  • La régression régularisée.
  • Le Naive Bayes.
  • La régression logistique.

Travaux pratiques

Mise en œuvre des régressions et des classifications sur plusieurs types de données.

Les algorithmes non supervisés

  • Le clustering hiérarchique.
  • Le clustering non hiérarchique.
  • Les approches mixtes.

Travaux pratiques

Traitements de clustering non supervisés sur plusieurs jeux de données.

Projet final

Le langage Python dispose d'un écosystème scientifique, permettant entre autres, les traitements statistiques : de la construction de modèles d'analyse, à leur évaluation jusqu'à leur représentation. Ce cours vous permet d'analyser des données d'horizon divers avec les bibliothèques Python.

Nous couvrirons les cours suivants:

-.-

Sur 5.0

5stars
(90%)
4stars
(65%)
3stars
(49%)
2stars
(25%)
1stars
(15%)

Formations Recommandées

Mot Clés

Recherche

Nos Formateurs

Newsletter

Abonnez-vous pour plus informations.