Accueil > Manifestations > Thèses et HDR > Thèses > Adrien Bougouin

Adrien Bougouin

Directeur de thèse

Béatrice Daille
Florian Boudin

Résumé

Les termes-clés, ou mots-clés, sont des mots ou des expressions qui représentent le contenu d’un document. Ils en donnent une représentation synthétique et permettent de l’indexer pour la recherche d’information. Cette thèse s’intéresse à l’indexation automatique par termes-clés de documents en domaines de spécialité. La tâche est difficile à réaliser et les méthodes actuelles peinent encore à atteindre des résultats satisfaisants. Notre démarche s’organise en deux temps.
Dans un premier temps, nous nous intéressons à l’indexation par termes-clés en général. Nous proposons une méthode pour sélectionner des termes-clés candidats dans un document en nous focalisant sur la catégorie des adjectifs qu’ils peuvent contenir, puis proposons une méthode pour les ordonner par importance. Cette dernière, TopicRank, se situe en aval de la sélection des candidats. C’est une méthode à base de graphe qui groupe les termes-clés candidats véhiculant le même sujet, projette les sujets dans un graphe et extrait un terme-clé par sujet. Nos expériences montrent que TopicRank est significativement meilleur que les précédentes méthodes à base de graphe.
Dans un second temps, nous adaptons notre travail à l’indexation par termes-clés en domaines de spécialité. Nous étudions la méthodologie d’indexation manuelle de documentalistes et la simulons à l’aide de TopicCoRank. TopicCoRank ajoute à
TopicRank un graphe qui représente le domaine de spécialité du document. Grâce à ce second graphe, TopicCoRank possède la rare capacité à fournir des termes-clés qui n’apparaissent pas dans les documents. Appliqué à quatre domaines de spécialité, TopicCoRank améliore significativement TopicRank.

Mots-clés :

Indexation automatique, terme-clé, mot-clé, domaine de spécialité, méthode à base de graphe, recherche d’information, traitement automatique des langues.

Composition du jury :

  • Marc Gelgon, Professeur, Université de Nantes, Président
  • Brigitte Grau, Professeur, ENSIIE, Rapporteuse
  • Jacques Savoy, Professeur, Université de Neuchâtel, Rapporteur
  • Fabienne Moreau, Maître de conférences, Université de Rennes, Examinatrice
  • Béatrice Daille, Professeur, Université de Nantes, Directrice de thèse
  • Florian Boudin, Maître de conférences, Université de Nantes

Abstract :

Keyphrases are words or multi-word expressions that represent the content of a
document. Keyphrases give a synoptic view of a document and help to index it for
information retrieval. This Ph.D thesis focuses on domain-specific automatic keyphrase annotation. Automatic keyphrase annotation is still a difficult task, and current systems do not achieve satisfactory results. Our work is divided in two steps.
First, we propose a keyphrase candidate selection method that focuses on the categories of adjectives relevant within keyphrases and propose a method to rank them according to their importance within the document. This method, TopicRank, is a graph-based method that clusters keyphrase candidates into topics, ranks the topics and extracts one keyphrase per important topic. Our experiments show that TopicRank significantly outperforms other graph-based methods for automatic keyphrase annotation.
Second, we focus on domain-specific documents and adapt our previous work. We study the best practice of manual keyphrase annotation by professional indexers and mimic it with a new method, TopicCoRank. TopicCoRank adds a new graph representing the specific domain to the topic graph of TopicRank. Leveraging this second graph, TopicCoRank possesses the rare ability to provide keyphrases that do not occur within documents. Applied on four corpora of four specific domains, TopicCoRank significantly outperforms TopicRank.

Key words :

Document indexing, keyphrase, keyword, specific domain, graph-based method, micro summary, information retrieval, natural language processing

Dernière modification : jeudi 5 novembre 2015