Data science



Objectifs, programme, validation de la formation

Objectifs

Utilisez les statistiques et la programmation Python pour créer des modèles prédictifs fiables. Développez votre confiance en vous et votre crédibilité, en vous entraînant à résoudre des problèmes complexes.
La formation Data Science de General Assembly est une initiation pratique au domaine interdisciplinaire de la data science et du machine learning, entre IT, statistiques et business. Vous apprendrez à utiliser le langage de programmation Python pour acquérir, analyser et modéliser des données, puis distiller des prédictions qui influencent toute la stratégie de l’entreprise.
L’une des parties essentielles de la formation est la mise en pratique des principales techniques de modélisation et des algorithmes du machine learning. Ils vous permettent de développer des modèles prédictifs fiables basés sur des données réelles et de tester leur validité. Vous vous entraînerez aussi à communiquer vos résultats et observations via la rédaction d’un document technique et une présentation aux différentes parties prenantes.

À la fin de cette formation, vous serez capable de :

  • Réaliser une analyse exploratoire de données avec Python,
  • Construire et affiner des modèles de machine learning pour faire des prédictions à partir d’ensembles de données,
  • Communiquer des observations basées sur des données à des publics avertis comme novices.

Description, programmation

Module 1 : Principes fondamentaux de la data

  • Définir les processus, outils et approches utilisés par les data scientists (ou scientifiques des données) pour analyser des données,
  • Appliquer des processus de data science pour résoudre une tâche,
  • Naviguer d’un répertoire à l’autre grâce à la ligne de commande,
  • Utiliser Git et GitHub pour partager les répertoires,
  • Effectuer des opérations arithmétiques et sur des chaînes de caractères en Python,
  • Affecter des variables,
  • Implémenter des boucles et des instructions conditionnelles,
  • Utiliser Python pour nettoyer et modifier des ensembles de données.

Module 2 : Exploitation des données

  • Utiliser DataFrames et Series pour lire des données,
  • Renommer, supprimer, combiner, sélectionner et consolider des données,
  • Identifier et traiter les valeurs nulles et manquantes,
  • Définir les principes clés de la visualisation des données,
  • Créer des graphiques linéaires, des graphiques à barres, des histogrammes et des graphiques en boîtes avec Seaborn et Matplotlib,
  • Créer des visualisations de données pour distinguer les caractéristiques et les tendances d’un ensemble de données,
  • Identifier une distribution normale dans un ensemble de données en utilisant des statistiques sommaires et des visualisations,
  • Déterminer la causalité et les biais d’échantillonnage,
  • Tester une hypothèse via une étude de cas,
  • Valider vos conclusions via une analyse statistique (ex. : valeurs-p, intervalles de confiance).

Module 3 : Modélisation de la data science

  • Définir la modélisation des données et la régression linéaire,
  • Faire la distinction entre variables catégorielles et continues,
  • Construire un modèle de régression linéaire pour la prédiction avec la bibliothèque scikit-learn,
  • Décrire les erreurs de biais et de variance,
  • Définir overfitting and underfitting,
  • Explorer les méthodes de validation croisée à k blocs, LOOCV et en trois sections,
  • Construire un modèle de k plus proches voisins avec la bibliothèque scikit-learn,
  • Évaluer et ajuster le modèle en utilisant des indicateurs de mesure comme l’exactitude/erreur de classification,
  • Construire un modèle de classification par régression logistique avec la bibliothèque scikit-learn,
  • Décrire la fonction sigmoïde, les cotes et les rapports de cotes et leur relation avec la régression logistique.

Module 4 : Applications de la data science

  • Accéder aux API publiques et récupérer des informations,
  • Lire et écrire des données en JSON,
  • Utiliser la bibliothèque de requêtes,
  • Montrer comment tokeniser un texte en langage naturel,
  • Catégoriser et baliser des données textuelles non structurées,
  • Réaliser un modèle de classification de texte en utilisant scikit-learn, CountVectorizer, TfidfVectorizer et TextBlog,
  • Créer des moyens de roulement et tracer des données de séries chronologiques,
  • Examiner l’autocorrélation sur les données de séries chronologiques.

Validation et sanction

Attestation d’acquis ou de compétences ;Attestation de suivi de présence

Type de formation

Perfectionnement, élargissement des compétences

Niveau de sortie sans niveau spécifique

Métiers visés

M1802 :


Durée, rythme, financement

Durée 40 heures en centre
Durée indicative : 79 jours

Modalités de l'alternance FOAD : 40 h

Conventionnement Non

Conditions d'accès

Niveau d'entrée sans niveau spécifique

Conditions spécifiques et prérequis - Niveau: Maîtriser les bases de la programmation, de la syntaxe Python et des statistiques. - Réaliser un test auprès de notre équipe Admission. - Disposer d'un bon niveau d'anglais (pour les non anglophones, un niveau B2 du CECRL ou un score TOEFL d'au moins 90 est recommandé). - Matériel: Avoir un ordinateur (PC ou Mac) de moins de 4 ans doté du système d'exploitation le plus récent. Si la formation se déroule à distance, disposez d'une bonne connexion à Internet, une webcam et des écouteurs.

Inscription

Contact renseignement M. Géraud Mathe


Périodes prévisibles de déroulement des sessions

Session débutant le : 26/10/2021

Adresse d'inscription
2 Rue Henri Legay 69100 Villeurbanne

Lieu de formation


Organisme de formation responsable