Polytech Génie industriel et informatique

Ce cours introduit l'analyse de données et le domaine du Big Data. Un objectif est de sensibiliser aux besoins de l'industrie en matière de Big Data et aux grandes familles d'approches en lien avec le Data Mining et l'apprentissage statistique.

  • Présentation de l'analyse de données au travers d'applications concrètes sur des masses de données (big data) importantes: Web, graphes, données tabulées. Illustrations via des interfaces homme-machine destinées à visualiser des grandes masses de données et des graphes.
  • Statistiques et d'algèbre (rappel de description uni-dimensionnelle et de calcul matriciel, corrélation, régression).
  • Présentation de la plateforme logicielle ouverte R et de l'environnement distribué Apache Hadoop (problème du stockage et du traitement de données massives).
  • Méthode de classification non supervisée (K-moyennes et variantes) : cours + TP.
  • Méthode de classification supervisée (arbres de décision): cours + TP avec l'environnement logiciel Weka et/ou Apache Mahout. 
  • Analyse en composantes principales : cours + TP.