Accueil > Equipes > TALN > Projets > Miles

Miles

Le projet régional Miles vise à développer et structurer la recherche en Sciences et Technologies de l’Information et de la Communication (STIC). Le LINA collabore avec le LIUM sur l’analyse conjointe de données multimédia et, plus précisément, sur l’identification de locuteurs dans des corpus oraux.

Description

Le but de l’axe multimedia du projet Miles consiste à développer une architecture logicielle afin d’identifier des locuteurs dans des corpus oraux en utilisant une analyse conjointe du signal sonore et de sa transcription écrite.
Nous utiliserons UIMA comme base architecturale pour connecter et intégrer des composants qui sont distribués géographiquement et qui sont dédiés à la reconnaissance de locuteurs dans des textes transcrits.

Le LINA collabore avec le LIUM à la réalisation d’une telle architecture. Plus précisément, le LIUM fournit des composants pour :

  • la segmentation en locuteurs dans une ressource sonore
  • la transcription écrite de la parole

Quant au LINA, l’équipe TALN s’occupe de :

  • la reconnaissance d’identités nommées dans des textes
  • l’intégration de ces différents composants au sein de l’architecture UIMA

Réalisations

Le travail prévoyait de porter des outils existants dans les deux laboratoires sous la plate-forme UIMA afin de les associer dans une même chaîne de traitement. Les tâches accomplies sont décrites ci-dessous :

Modèles de données

Tout d’abord, nous avons proposé un modèle de représentation de l’information pour l’écrit et pour l’oral. Ce modèle s’appuie sur les normes ou des standards :

  • du Dublin Core en ce qui concerne les représentations d’informations portant sur les documents (également appelées méta-données).
    En savoir plus...

  • de Multext en ce qui concerne les informations de nature morpho-syntaxique pour l’écrit.
    En savoir plus...

Composants de traitement automatique des langues

Nous avons développé certains composants de traitement automatique des langues pour la plate-forme UIMA. Il s’agit plus précisément de composants de pré-traitement qui sont requis préalablement à des traitements plus spécifiques. Ces composants sont décrits ci-dessous :

  • Tout d’abord, nous avons développé un Collection Reader – composant qui s’insère en tout début des chaînes de traitement sous la plate-forme UIMA – qui permet, d’une part, d’identifier une ressource locale ou distante et, d’autre part, de détecter le type de contenu de cette ressource.
    En savoir plus...

  • Nous avons développé un composant qui permet d’extraire le contenu textuel d’un document si le type de son contenu est, ou bien du texte avec les types MIME text et text/plain, ou bien du PDF avec le type MIME application/pdf.
    Ce composant utilise la librairie Java issue du projet Apache Tika. Cette librairie permet également d’extraire de informations relatives aux méta-données de documents.
    En savoir plus...

  • Nous avons également développé des composants UIMA qui récupère les résultats de l’analyse morpho-syntaxique des mots, de leur lemmatisation à partir d’outils indépendants existants dans la communauté du TAL. Il s’agit :

    1. d’un composant UIMA pour le PoS tagger Brill
      En savoir plus...
    2. d’un composant UIMA pour le PoS tagger Treetagger
      En savoir plus...
  • Nous disposons également d’un composant UIMA pour la reconnaissance d’entités nommées qui s’appuie sur Nemesis, un outil développé au sein de l’équipe.
    En savoir plus...

Composants de traitement de la parole

Nous avons intégré sur la plate-forme UIMA des outils développés au LIUM pour la traitement de la parole. Il s’agit d’un composant pour la version 2.3 de la libraire Java spkDiarization qui offrent les fonctionnalités ci-dessous :

  • de passer d’un signal sonore en vecteur de paramètres acoustiques (mfcc et plp)
  • de détecter le type du signal sonore (musique, parole seulement)
  • de détecter le type de canal de transmission (téléphone ou studio)
  • de segmenter et de classifier le signal sonore en locuteurs
  • de détecter le genre des locuteurs

En savoir plus...

Valorisation

Un des objectif de ce projet consiste pour les deux équipes ligériennes à positionner en tant que leader au niveau national sur le développement de la plate-forme UIMA multimédia du français. Le travail effectué au cours de ce projet a été valorisé par :