Accueil > Manifestations > Thèses et HDR > Thèses > Thèse Quang-Khai Pham

Thèse Quang-Khai Pham

Directeur de thèse

Noureddine Mouaddib
Boualem Benatallah

Résumé

Les domaines de la médecine, du web, du commerce ou de la finance
génèrent et stockent de grandes masses d’information sous la forme de
séquences d’événements. Ces archives représentent des sources
d’information très riches pour des analystes avides d’y découvrir des
perles de connaissance. Par exemple, les biologistes cherchent à découvrir
les facteurs de risque d’une maladie en analysant l’historique des
patients, les producteurs de contenu web et les bureaux de marketing
examinent les habitudes de consommation des clients et les opérateurs
boursiers suivent les évolutions du marché pour mieux l’anticiper.
Cependant, ces applications requièrent l’exploration de séquences
d’événements très volumineuses, par exemple, la finance génère
quotidiennement des millions d’événements, où les événements peuvent être
décrits par des termes extraits de riches contenus textuels. La
variabilité des descripteurs peut alors être très grande. De ce fait,
découvrir des connaissances non triviales à l’aide d’approches classiques
de fouille de données dans ces sources d’information prolixes est un
problème difficile. Une étude récente montre que les approches classiques
de fouille de données peuvent tirer profit de formes condensées de ces
données, telles que des résultats d’agrégation ou encore des résumés. La
connaissance ainsi extraite est qualifiée de connaissance d’ordre
supérieur. À partir de ce constat, nous présentons dans ces travaux le
concept de « résumé de séquence d’événements » dont le but est d’amener
les applications dépendantes du temps à gagner un facteur d’échelle sur de
grandes masses de données. Un résumé s’obtient en transformant une
séquence d’événements où les événements sont ordonnés chronologiquement.
Chaque événement est précisément décrit par un ensemble fini de
descripteurs symboliques. Le résumé produit est alors une séquence
d’événements, plus concise que la séquence initiale, et pouvant s’y
substituer dans les applications. Nous proposons une première méthode de
construction guidée par l’utilisateur, appelée TSaR. Il s’agit d’un
processus en trois phases : i) une généralisation, ii) un regroupement et
iii) une formation de concepts. TSaR utilise des connaissances de domaine
exprimées sous forme de taxonomies pour généraliser les descripteurs
d’événements. Une fenêtre temporelle est donnée pour contrôler le
processus de regroupement selon la proximité temporelle des événements.
Dans un second temps, pour rendre le processus de résumé autonome,
c’est-à-dire sans paramétrage, nous proposons une redéfinition du problème
de résumé en un nouveau problème de classification. L’originalité de ce
problème de classification tient au fait que la fonction objective à
optimiser dépend simultanément du contenu des événements et de leur
proximité dans le temps. Nous proposons deux algorithmes gloutons appelés
G-BUSS et GRASS pour répondre à ce problème. Enfin, nous explorons et
analysons l’aptitude des résumés de séquences d’événements à contribuer à
l’extraction de motifs séquentiels d’ordre supérieur. Nous analysons les
caractéristiques des motifs fréquents extraits des résumés et proposons
une méthodologie qui s’appuie sur ces motifs pour en découvrir d’autres, à
granularité plus fine. Nous évaluons et validons nos approches de résumé
et notre méthodologie par un ensemble d’expériences sur un jeu de données
réelles extraites des archives d’actualités financières produites par
Reuters.

Dernière modification : mercredi 27 juillet 2011