Langues : English français
Accueil > Manifestations > Thèses et HDR > Thèses > Ali El Attar

Ali El Attar

Directeur de thèse

Marc Gelgon
Antoine Pigeau

Résumé

Cette thèse propose une contribution en matière d’analyse de données, dans
la perspective de systèmes
informatiques distribués non-centralisés, pour le partage de données
numériques. De tels systèmes se
développent en particulier sur internet, possiblement à large échelle,
mais aussi, par exemple, par
des réseaux de capteurs. Notre objectif général est d’estimer la
distribution de probabilité d’un jeu
de données distribuées, à partir d’estimations locales de cette
distribution, calculées sur des sousjeux
de données locaux. En d’autres termes, il s’est agi de proposer une
technique pour agréger des
estimés locaux pour en faire un estimé global. Notre proposition s’appuie
sur la forme particulière que
doivent prendre toutes les distributions de probabilité manipulées : elles
doivent se formuler comme
un mélange de lois gaussiennes multivariées. Notre contribution est une
solution à la fois décentralisée
et statistiquement robuste aux modèles locaux aberrants, pour mener à bien
l’agrégation globale, à
partir d’agrégations locales de mélanges de lois gaussiennes. Ces
agrégations locales ne requièrent
un accès qu’aux seuls paramètres des modèles de mélanges, et non aux
données originales.

Mots-clés : clustering ; modèle de mélange, agrégation des modèles des mélanges ; estimation robuste ; détection de données atypiques ; données distribuées.

Abstract

This work proposes a contribution aiming at probabilistic model
estimation, in the setting of distributed,
decentralized, data-sharing computer systems. Such systems are developing over the internet,
and also exist as sensor networks, for instance. Our general goal consists in estimating a
probability distribution over a data set which is distributed into subsets
located on the nodes of a
distributed system. More precisely, we are at estimating the global
distribution by aggregating local
distributions, estimated on these local subsets. Our proposal exploits the following assumption : all
distributions are modelled as a Gaussian mixture. Our contribution is a
solution that is both decentralized
and statistically robust to outlier local Gaussian mixture models. The
proposed process only
requires mixture parameters, rather than original data.

Keywords : clustering ; mixture of models ; aggregation of mixture models ; robust estimation ; outlier detection ; distributed data.

Composition du Jury

  • Franck MORVAN, Professeur Université Paul Sabatier (Rapporteur)
  • Mustapha LEBBAH, Maître de conférences-HDR Université Paris XIII(Rapporteur)
  • Pierre-François MARTEAU, Professeur Université de Bretagne Sud(Examinateur)
  • Colin DE LA HIGUERA, Professeur Université de Nantes (Examinateur)
  • Marc GELGON, Professeur de Polytech’Nantes (Directeur de thèse)
  • Antoine PIGEAU Maitre de Conférences de Polytech’Nantes (Encadrant de
    thèse)

Dernière modification : vendredi 26 octobre 2012