Objectifs pédagogiques

À l’issue de la formation, le participant sera en mesure de :
Comprendre le principe de la modélisation statistique
Savoir utiliser les principaux outils de traitement et d'analyse de données pour Python
Savoir appliquer les pratiques optimales en matière de nettoyage et de préparation des données avant l'analyse
Choisir entre la régression et la classification en fonction du type de données
Apprendre à mettre en place un modèle d'apprentissage simple
Être capable d'extraire des données d'un fichier

Public concerné

Développeurs en Python, responsables infocentre, développeurs de logiciels, programmeurs, data analysts, data scientists.

Prérequis

Maîtrise de la programmation Python. Connaissances de base en statistiques ou avoir suivi le stage "Statistiques, maîtriser les fondamentaux" (Réf. STA).
Vérifiez que vous avez les prérequis nécessaires pour profiter pleinement de cette formation en faisant ce test.

Programme de la formation

Présentation de l’écosystème Python scientifique

Panorama de l’écosystème scientifique de Python : les librairies incontournables.
Savoir ou trouver de nouvelles librairies et juger de leur pérennité.
Les principaux outils et logiciels open source pour la data science.

Travaux pratiques

Installation de Python 3, d'Anaconda et de Jupiter Notebook.

Travailler les données avec Python

Le socle scientifique Python : la SciPy Stack.
Les bonnes pratiques pour bien démarrer votre projet de data science avec Python.
Les formats de fichiers scientifiques et les librairies pour les manipuler.
Pandas : l’analyse de données tabulaires (fichiers csv, excel...), statistiques, pivots, filtres, recherche…
Numpy : calcul numérique et algèbre linéaire (les vecteurs, matrices, images).
L’extraction des données,la préparation , le nettoyage.

Travaux pratiques

Ecrire des scripts Python permettant de travailler avec des données issues de fichiers, afin d’appliquer des filtres, des traitements de formatage, de nettoyage.

Introduction à la modélisation

Les étapes de construction d'un modèle.
Les algorithmes supervisés et non supervisés.
Le choix entre la régression et la classification.

Travaux pratiques

Intégration dans l’environnement installé de scripts Python, pour analyse.

Procédures d'évaluation de modèles

Les techniques de ré-échantillonnage en jeu d'apprentissage, de validation et de test.
Test de représentativité des données d'apprentissage.
Mesures de performance des modèles prédictifs.
Matrice de confusion, de coût et la courbe ROC et AUC.

Travaux pratiques

Mise en place d'échantillonnage de jeux de données. Effectuer des tests d'évaluations sur plusieurs modèles fournis.

Les algorithmes supervisés

Le principe de régression linéaire univariée.
La régression multivariée.
La régression polynomiale.
La régression régularisée.
Le Naive Bayes.
La régression logistique.

Travaux pratiques

Mise en œuvre des régressions et des classifications sur plusieurs types de données.

Les algorithmes non supervisés

Le clustering hiérarchique.
Le clustering non hiérarchique.
Les approches mixtes.

Travaux pratiques

Traitements de clustering non supervisés sur plusieurs jeux de données.

Projet final

Le langage Python dispose d'un écosystème scientifique, permettant entre autres, les traitements statistiques : de la construction de modèles d'analyse, à leur évaluation jusqu'à leur représentation. Ce cours vous permet d'analyser des données d'horizon divers avec les bibliothèques Python.

Nous couvrirons les cours suivants:

Oozon Oozons

Membre

-.-

Sur 5.0

5stars

(90%)

4stars

(65%)

3stars

(49%)

2stars

(25%)

1stars

(15%)

-- Share -- -- --

Formations Recommandées

Popular

Big Data - Python pour l'analyse de données...

4.2

(0)

90 000 XOF

Popular

Big Data, méthodes et solutions pratiques pour l'analyse des données...

Ce cours vous permettra de comprendre les enjeux et les apports du Big Data ainsi que les technologies pour le mettre en œuvre. Vous apprendrez à intégrer des volumétries massives de données structurées et non structurées via un ETL, puis à les analyser grâce à des modèles statistiques et des dashboards dynamiques.

4.2

(0)

90 000 XOF

Popular

Environnement R, traitement de données et analyse statistique...

Environnement logiciel Open Source et langage, R est spécialisé dans les traitements statistiques. Ce cours vous apprendra à programmer en R, à utiliser l'éditeur R studio, à exploiter les possibilités de visualisation des datas et à appliquer des algorithmes statistiques fondamentaux : régressions, ACP, CAH.

4.2

(0)

90 000 XOF

Popular

Machine learning, méthodes et solutions...

Le Machine Learning couvre l'ensemble des méthodes et concepts qui permettent d'extraire automatiquement à partir de données, des modèles de prédiction et de prise de décision. Durant ce cours, vous mettrez en œuvre les différents algorithmes du domaine et appréhendez les bonnes pratiques d'un projet Machine Learning.

4.2

(0)

90 000 XOF

0.0

S'enroller Maintenant

Mot Clés

Recherche

Nos Formateurs

Oozons
Tout

--

Big Data - Python pour l'analyse de données

Objectifs pédagogiques

Public concerné

Prérequis

Programme de la formation

Présentation de l’écosystème Python scientifique

Travaux pratiques

Travailler les données avec Python

Travaux pratiques

Introduction à la modélisation

Travaux pratiques

Procédures d'évaluation de modèles

Travaux pratiques

Les algorithmes supervisés

Travaux pratiques

Les algorithmes non supervisés

Travaux pratiques

Projet final

Oozon Oozons

-.-

Formations Recommandées

Big Data - Python pour l'analyse de données...

4.2

90 000 XOF

Big Data, méthodes et solutions pratiques pour l'analyse des données...

4.2

90 000 XOF

Environnement R, traitement de données et analyse statistique...

4.2

90 000 XOF

Machine learning, méthodes et solutions...

4.2

90 000 XOF

Mot Clés

Recherche

Nos Formateurs

Newsletter