Mathématiques appliquées, statistique Data Science (DS)

Espace d'organisation et de partage pour le M2 Data Science, année 2018 / 2019.

Ce cours est une présentation du langage de programmation Python pour le calcul scientifique. Après une passe sur le langage,  une présentation des principaux modules sera effectuées.

Objectifs de l’UE

On dit qu’on a une représentation parcimonieuse d’un vecteur de données si il est possible de trouver un système générateur ou même une base dans laquelle le vecteur peut être décrit ou bien approché par une combinaison linéaire d’un petit nombre de vecteurs du système.

Dans ce cours on commencera par présenter les bases et transformées classiques dans lesquels certains types de données sont naturellement parcimonieux. On montrera dans le cas de problèmes classiques en traitement du signal (débruitage, compression…) l’intérêt d’utiliser de telles décompositions. On présentera enfin plusieurs algorithmes qui permettent de calculer de telles décompositions et on étudiera leurs propriétés mathématiques.

Programme détaillé

  1. Bases et repères classiques pour la représentation parcimonieuse des signaux

  2. Applications à des problèmes concrets: débruitage, compression, régression parcimonieuse

  3. Algorithmes pour la représentation parcimonieuse des signaux.

Bibliographie

    S. Mallat, A wavelet tour of signal processing , Academic Press.

    S. Foucart, O. Rauhut, A mathematical introduction to compressive sensing, Springer.

Documents vidéos en rapport avec le cours:

Cours de Stéphane Mallat au Collège de France: l'apprentissage face a la malédiction de la grande dimension

L’objectif est de présenter quelques algorithmes fondamentaux de l’ère du traitement informatique du “big data”, par ré-échantillonnage ou permutations aléatoires des données.

À la fin du cours, l’étudiant doit avoir compris et savoir mettre en œuvre la procédure de bootstrap, y compris dans des situations compliquées : régression, analyse de survie, inférence post-sélection de modèles. Il apprendra aussi à mettre en œuvre une procédure de test multiple, et à utiliser des méthodes de permutation dans ce cadre.

Organisation des alternances pour l'année 2019/2020 en M2 Data Science

Objectifs de l’UE

On dit qu’on a une représentation parcimonieuse d’un vecteur de données si il est possible de trouver un système générateur ou même une base dans laquelle le vecteur peut être décrit ou bien approché par une combinaison linéaire d’un petit nombre de vecteurs du système.

Dans ce cours on commencera par présenter les bases et transformées classiques dans lesquels certains types de données sont naturellement parcimonieux. On montrera dans le cas de problèmes classiques en traitement du signal (débruitage, compression…) l’intérêt d’utiliser de telles décompositions. On présentera enfin plusieurs algorithmes qui permettent de calculer de telles décompositions et on étudiera leurs propriétés mathématiques.

Programme détaillé

  1. Bases et repères classiques pour la représentation parcimonieuse des signaux

  2. Applications à des problèmes concrets: débruitage, compression, régression parcimonieuse

  3. Algorithmes pour la représentation parcimonieuse des signaux.

Bibliographie

    S. Mallat, A wavelet tour of signal processing , Academic Press.

    S. Foucart, O. Rauhut, A mathematical introduction to compressive sensing, Springer.

Documents vidéos en rapport avec le cours:

Cours de Stéphane Mallat au Collège de France: l'apprentissage face a la malédiction de la grande dimension

La séparation de sources est devenue indéniablement un des thèmes majeurs et difficiles du traitement du signal et des images. De plus, le développement de systèmes d'acquisition munis de capteurs multi-canaux ces dernières années, a renforcé l'intérêt dans les méthodes qui en découlent. Au sens large, le problème de la séparation de sources peut être interprété comme celui consistant à trouver un bon espace de représentation pour des données multivariées, qui est de longue date un thème récurrent en statistiques. Par bonne représentation, il est entendu que les données sont transformées de manière à les scruter sous un autre angle afin de rendre leur structure essentielle plus facilement lisible, ou tout du moins accessible. Ce problème est typiquement rencontré en théorie de l'apprentissage, en analyse exploratoire des données et en traitement du signal.

De manière générale, en séparation de sources, on considère une famille de signaux émis par des objets physiques, appelés sources, et une collection de capteurs (canaux) distincts chacun mesurant un mélange des sources originales. Ce mélange peut être linéaire instantané, convolutif, voire non-linéaire. Le nombre de capteurs peut être supérieur ou inférieur au nombre de canaux auquel cas on parle de mélange respectivement sur- et sous-déterminé. Par ailleurs, les mesures sont en général contaminées par du bruit. Le problème de la séparation de sources est celui qui consiste à recouvrer les sources originales à partir des mélanges observés bruités, qui est un problème inverse mal posé. Lorsque les poids du mélange sont inconnus et doivent être estimés conjointement aux sources, la séparation de sources est dite aveugle. Dans l'exemple classique du "cocktail party", les sources sont les voix des différents invités, que l'on veut séparer à partir des mélanges enregistrés par des microphones disposés à différents endroits. Au-delà du traitement des signaux acoustiques, la séparation de sources a des retombées importantes dans de très nombreux champs d'application où des données multi-canaux sont à traiter, comme l'ingénierie biomédicale, l'imagerie médicale, l'imagerie astronomique, l'imagerie radar, les systèmes de communication, la sismologie, la géophysique, l'économétrie, pour ne citer que ceux-ci.