Objectifs pédagogiques
- À l’issue de la formation, le participant sera en mesure de :
- Comprendre le principe de la modélisation statistique
- Savoir utiliser les principaux outils de traitement et d'analyse de données pour Python
- Savoir appliquer les pratiques optimales en matière de nettoyage et de préparation des données avant l'analyse
- Choisir entre la régression et la classification en fonction du type de données
- Apprendre à mettre en place un modèle d'apprentissage simple
- Être capable d'extraire des données d'un fichier
Public concerné
- Développeurs en Python, responsables infocentre, développeurs de logiciels, programmeurs, data analysts, data scientists.
Prérequis
- Maîtrise de la programmation Python. Connaissances de base en statistiques ou avoir suivi le stage "Statistiques, maîtriser les fondamentaux" (Réf. STA).
- Vérifiez que vous avez les prérequis nécessaires pour profiter pleinement de cette formation en faisant ce test.
Programme de la formation
Présentation de l’écosystème Python scientifique
- Panorama de l’écosystème scientifique de Python : les librairies incontournables.
- Savoir ou trouver de nouvelles librairies et juger de leur pérennité.
- Les principaux outils et logiciels open source pour la data science.
Travaux pratiques
Installation de Python 3, d'Anaconda et de Jupiter Notebook.
Travailler les données avec Python
- Le socle scientifique Python : la SciPy Stack.
- Les bonnes pratiques pour bien démarrer votre projet de data science avec Python.
- Les formats de fichiers scientifiques et les librairies pour les manipuler.
- Pandas : l’analyse de données tabulaires (fichiers csv, excel...), statistiques, pivots, filtres, recherche…
- Numpy : calcul numérique et algèbre linéaire (les vecteurs, matrices, images).
- L’extraction des données,la préparation , le nettoyage.
Travaux pratiques
- Ecrire des scripts Python permettant de travailler avec des données issues de fichiers, afin d’appliquer des filtres, des traitements de formatage, de nettoyage.
Introduction à la modélisation
- Les étapes de construction d'un modèle.
- Les algorithmes supervisés et non supervisés.
- Le choix entre la régression et la classification.
Travaux pratiques
Intégration dans l’environnement installé de scripts Python, pour analyse.
Procédures d'évaluation de modèles
- Les techniques de ré-échantillonnage en jeu d'apprentissage, de validation et de test.
- Test de représentativité des données d'apprentissage.
- Mesures de performance des modèles prédictifs.
- Matrice de confusion, de coût et la courbe ROC et AUC.
Travaux pratiques
- Mise en place d'échantillonnage de jeux de données. Effectuer des tests d'évaluations sur plusieurs modèles fournis.
Les algorithmes supervisés
- Le principe de régression linéaire univariée.
- La régression multivariée.
- La régression polynomiale.
- La régression régularisée.
- Le Naive Bayes.
- La régression logistique.
Travaux pratiques
Mise en œuvre des régressions et des classifications sur plusieurs types de données.
Les algorithmes non supervisés
- Le clustering hiérarchique.
- Le clustering non hiérarchique.
- Les approches mixtes.
Travaux pratiques
Traitements de clustering non supervisés sur plusieurs jeux de données.
Projet final
Le langage Python dispose d'un écosystème scientifique, permettant entre autres, les traitements statistiques : de la construction de modèles d'analyse, à leur évaluation jusqu'à leur représentation. Ce cours vous permet d'analyser des données d'horizon divers avec les bibliothèques Python.
Nous couvrirons les cours suivants: