Accueil > Manifestations > Thèses et HDR > Thèses > Mohamed Hatmi

Mohamed Hatmi

Directeur de thèse

Emmanuel Morin
Christine Jacquin
Sylvain Meignier

Résumé

La Reconnaissance des entités nommées est une sous-tâche de l’activité
d’extraction d’information. Elle consiste à identifier certains objets
textuels tels que les noms de personne, d’organisation et de lieu. Le
travail de cette thèse se concentre sur la tâche de reconnaissance des
entités nommées pour la modalité orale. Cette tâche pose un certain
nombre de difficultés qui sont inhérentes aux caractéristiques
intrinsèques du traitement de l’oral (absence de capitalisation, manque de
ponctuation, présence de disfluences et d’erreurs de reconnaissance...).
Dans un premier temps, nous étudions les spécificités de la reconnaissance
des entités nommées en aval du système de reconnaissance automatique de la
parole. Nous présentons une méthode pour la reconnaissance des entités
nommées dans les transcription de la parole en adoptant une taxonomie
hiérarchique et compositionnelle. Nous mesurons l’impact des différents
phénomènes spécifiques à la parole sur la qualité de reconnaissance des
entités nommées. Dans un second temps, nous proposons d’étudier le
couplage étroit entre la tâche de transcription de la parole et la tâche
de reconnaissance des entités nommées. Dans ce but, nous détournons les
fonctionnalités de base d’un système de transcription de la parole pour le
transformer en un système de reconnaissance des entités nommées. Ainsi, en
mobilisant les connaissances propres au traitement de la parole dans le
cadre de la tâche liée à la reconnaissance des entités nommées, nous
assurons une plus grande synergie entre ces deux tâches. Nous menons
différents types d’expérimentations afin d’optimiser et d’évaluer notre
approche.

Mots clés : Reconnaissance des Entités Nommées, Reconnaissance Automatique de la Parole, Champs Conditionnels Aléatoires, Modèle de Langage.

Composition du jury

  • Sophie ROSSET, Directeur de recherche CNRS, LIMSI-CNRS : Rapporteur
  • Jean-Yves ANTOINE, Professeur des universités, Université
    François-Rabelais de Tours : Rapporteur
  • Pascale SÉBILLOT, Professeur des universités, INSA de Rennes : Examinatrice
  • Emmanuel MORIN, Professeur des universités, Université de Nantes, Directeur de thèse
  • Christine JACQUIN, Maître de conférences, Université de Nantes,
    Co-encadrante de thèse
  • Sylvain MEIGNIER, Maîitre de conférences, Université du Maine, Co-encadrant de thèse

Abstract of the Thesis :

Named entity recognition is a subtask of information extraction. It
consists of identifying some textual objects such as person, location and
organization names. The work of this thesis focuses on the named entity
recognition task for the oral modality. Some difficulties may arise for
this task due to the intrinsic characteristics of speech processing (lack
of capitalisation marks, lack of punctuation marks, presence of
disfluences and of recognition errors...). In the first part, we study the
characteristics of the named entity recognition downstream of the
automatic speech recognition system. We present a methodology which
allows named entity recognition following a hierarchical and compositional
taxonomy. We measure the impact of the different phenomena specific to
speech on the quality of named entity recognition. In the second part, we
propose to study the tight pairing between the speech recognition task and
the named entity recognition task. For that purpose, we take away the
basic functionnalities of a speech recognition system to turn it into a
named entity recognition system. Therefore, by mobilising the inherent
knowledge of the speech processing to the named entity recognition task,
we ensure a better synergy between the two tasks. We carry out different
types of experiments to optimize and evaluate our approach.

Key Words : Named Entity Recognition, Automatic Speech Recognition,
Conditional Random Fields, Language Modeling.

Dernière modification : mercredi 15 janvier 2014