Langues : français English
Accueil > Equipes > TALN

TALN

Traitement Automatique du Langage Naturel

Responsable

Béatrice DAILLE
Téléphone +33(0)2 51 12 58 54

Responsable Adjoint

Denis BECHET
Téléphone +33(0)2 51 12 57 74

L’équipe TALN


(en septembre 2015 de gauche à droite : Grégoire JADI, Emmanuel PLANAS, Soufian SALIM, Nicolas HERNANDEZ, Damien CRAM, Hugo MOUGARD, Christine JACQUIN, Laura MONCEAUX, Solen QUINIOU, Denis BECHET, Béatrice DAILLE, Emmanuel MORIN, Colin DE LA HIGUERA, Amir HAZEM, Firas HMIDA, Adrien BOUGOUIN, Chantal ENGUEHARD, Florian BOUDIN et Joseph LARK.

Présentation

Les travaux de l’équipe TALN s’inscrivent dans la thématique du traitement automatique des langues. Ils s’intéressent aux techniques d’analyses robustes adaptables à la diversité des données langagières écrites s’exprimant sur tout support communicationnel et à de nombreuses langues.L’équipe mène aussi des recherches à caractère fondamental portant sur la théorie des langages et l’apprentissage.

Les thèmes de recherches de l’équipe sont :

  • Analyse et découverte
    L’analyse s’intéresse classiquement aux modèles formels de la syntaxe et de la sémantique des langues. Nous travaillons sur les formalistes des grammaires de dépendances et les grammaires catégorielles et sur l’apprentissage de telles grammaires. La découverte applique diverses méthodes d’analyses sur les corpus de données textuelles pour isoler des éléments remarquables. l’équipe a une forte expertise dans le traitement de documents appartenant à des domaines spécialisés.
  • Alignement et comparaison
    L’alignement est à l’origine une sous-thématique de la traduction automatique statistique. Si la traduction s’intéresse aux collections de textes traduits et cherche à apparier dans deux langues, des unités textuelles de grain moindre que le texte, nos travaux exploitent d’autres types de corpus. Nous travaillons sur les alignements de corpus comparables, des textes dans deux langues sans rapport de traduction, des corpus multimodaux, des textes provenant de l’oral ou de l’écriture manuscrite et des textes écrits. La comparaison s’appuie sur des techniques d’alignement pour caractériser les segments alignés linguistiquement.

Ces deux thèmes nous permettent de traiter de manière complémentaire des problématiques d’accès et de recherche d’information dans un cadre multilingue et multimodal.
Les réalisations logicielles de l’équipe s’effectuent au sein de la plate-forme logiciel UIMA. Les ressources linguistiques sont mises sous licence LGPLLR.

Dernière modification : mercredi 21 juin 2017