Accueil > Manifestations > Thèses et HDR > Thèses > Claudia Marinica

Claudia Marinica

Directeur de thèse

Fabrice Guillet

Résumé

Cette thèse s’inscrit à la confluence de deux domaines actifs de recherche : l’Extraction de Connaissances à partir des Données - la fouille de Règles d’Association, et l’Ingénierie des Connaissances - les langages de représentation du Web Sémantique.
L’usage de la technique de fouille de règles d’association est limité par les grands volumes de règles découvertes, ainsi que par leur faible qualité. Ainsi, plusieurs méthodes de réduction ont été proposées dans la littérature comme les représentations concises de motifs, la réduction de la redondance, le filtrage, le ranking et le post-traitement, et la plupart sont basées sur la structure des données. Toutefois, l’intérêt des règles dépend fortement des connaissances et des objectifs de l’utilisateur. Dans ce contexte, il est essentiel d’aider le décideur avec une technique efficace de réduction du nombre de règles tout en gardant les règles intéressantes.
Ce travail aborde deux problèmes essentiels : l’intégration des connaissances de l’utilisateur dans le processus de fouille, et l’interactivité avec l’utilisateur. Le premier problème exige un formalisme précis et flexible pour représenter les connaissances, comme les ontologies du Web Sémantique. Le second propose un processus d’exploration plus itératif permettant à l’utilisateur de fouiller l’espace de règles progressivement en se concentrant sur les règles intéressantes.
Les principales contributions de ce travail peuvent être résumées comme suit :
(i) Un modèle de représentation de connaissances. Premièrement, nous proposons de représenter les connaissances du domaine de l’utilisateur à l’aide d’ontologies. Deuxièmement, nous introduisons un nouveau formalisme, nommé “Schéma de Règles”, qui permet à l’utilisateur de définir ses attentes à travers des concepts ontologiques. Enfin, nous suggérons à l’utilisateur un ensemble d’“Opérateurs de fouille” à appliquer sur les schémas.
(ii) Une nouvelle approche de post-traitement, ARIPSO. Elle permet à l’utilisateur de réduire le volume de règles en ne gardant que les règles qui l’intéressent. ARIPSO est un processus interactif intégrant les connaissances de l’utilisateur sous le modèle proposé. La boucle interactive permet à chaque étape à l’utilisateur de modifier les informations fournies et de réitérer la phase de post-traitement.
(iii) L’implémentation en post-traitement d’ARIPSO. L’outil développé est complet et opérationnel, et il met en œuvre toutes les fonctionnalités décrites dans l’approche. Une implémentation alternative, sans post-traitement, a été proposée (ARLIUS). Elle est constituée d’un processus d’exploration locale et interactive.
(iv) L’étude expérimentale analysant l’efficacité de l’approche et la qualité des règles découvertes. À cet effet, nous avons utilisé une base de données réelle, et, pour ARIPSO, l’étude a été réalisée en coopération avec l’expert du domaine. A partir d’un jeu de données de près de 400 milliers de règles, ARIPSO a filtré, selon différents scénarios, entre 3 et 200 règles validées par l’expert.

Dernière modification : vendredi 22 octobre 2010