Ingénierie de la fouille et de la visualisation de données massives - RCP216
Objectifs, programme, validation de la formation
Objectifs
Cet enseignement s’intéresse à l’impact des caractéristiques des données massives (volume, variété, vélocité) sur les méthodes de fouille de données. Sont examinées les approches actuelles qui permettent de faire passer à l’échelle les méthodes de fouille, en insistant sur les spécificités des opérations de fouille en environnement distribué.Les caractéristiques mentionnées sont ensuite considérées de façon plus spécifique pour certains problèmes fréquents dans le traitement des données massives. Sont ainsi abordés les systèmes de recommandation et la recherche efficace par similarité, la classification automatique et l’apprentissage supervisé sur une plate-forme distribuée, les opérations spécifiques au traitement des données textuelles souvent hétérogènes, les implications de la vélocité sur la fouille de flux de données, l’analyse de grands graphes et de réseaux sociaux.L’UE s’intéresse ensuite au rôle de la visualisation et de l’interaction, non seulement dans la présentation des résultats mais aussi dans les opérations de fouille de données.
Description, programmation
1. Introduction : applications, typologie des données, typologie des problèmes2. Approches : réduction de la complexité, distribution3. Passage à l’échelle de quelques problèmes fréquents4. Visualisation d’information : historique, applications, outils5. Enjeux perceptifs de la visualisation d’information : couleurs, formes, immersion, lecture6. Techniques de représentations : graphes, hiérarchies, lignes de temps7. Techniques d’interaction : association focus/contexte, distorsion, filtrage
Le cours est complété par des travaux pratiques (TP) permettant de mettre en pratique des techniques présentées. Pour la partie fouille de données, les TP seront réalisés à l’aide de Apache Spark. Pour le travail sur le projet, l’auditeur devra installer le logiciel Spark (gratuit) sur un ordinateur personnel de capacité suffisante, suivant les instructions disponibles en ligne. Les supports de cours et de TP, ainsi que d’autres explications concernant le déroulement de l’UE sont accessibles à partir de http://cedric.cnam.fr/vertigo/Cours/RCP216/
Validation et sanction
Attestation de formation
Type de formation
Perfectionnement, élargissement des compétences
Niveau de sortie sans niveau spécifique
Durée, rythme, financement
Durée 45 heures en centre
Modalités de l'alternance -
Conventionnement Non
Conditions d'accès
Niveau d'entrée sans niveau spécifique
Conditions spécifiques et prérequis Bonnes connaissances mathématiques et statistiques générales, maîtrise de méthodes statistiques pour la fouille de données, connaissance de techniques de gestions de données massives faiblement structurées, connaissance de techniques de passage à l'échelle par distribution. Capacité à utiliser le système d'exploitation linux, connaissance d'au moins un langage de programmation.Vous êtes encouragés à évaluer votre capacité à suivre cette UE en répondant au questionnaire en ligne accessible ici (section Conditions d'accès). Vous pouvez répondre sans vous identifier, les réponses vous sont données immédiatement et les résultats ne sont pas enregistrés.
Inscription
Contact renseignement Hélène CNAM DE BRETAGNE
Téléphone 09 72 31 13 12
Périodes prévisibles de déroulement des sessions
Session débutant le : 18/10/2021
Adresse d'inscription
Conservatoire national des arts et métiers - centr
2 Rue Camille Guérin 22440 Ploufragan
Lieu de formation
Adresse :
Organisme de formation responsable
CNAM DE BRETAGNE
Adresse
2 Rue Camille Guérin 22440 Ploufragan
Téléphone
Site web
http://www.cnam-bretagne.fr