Accueil > Manifestations > Thèses et HDR > Thèses > Thèse Sebastian Peña Saldarriaga

Thèse Sebastian Peña Saldarriaga

Directeur de thèse

Christian Viard Gaudin
Emmanuel Morin

Résumé

L’évolution technologique des dispositifs électroniques de capture de l’écriture manuscrite se traduit par l’apparition d’une grande quantité de documents manuscrits en-ligne. Cela pose la question de l’accès à
l’information contenue dans ces données. Ce travail s’intéresse à l’accès
à l’information textuelle contenue dans des documents qui se présentent
sous la forme d’une séquence temporelle de points (x, y). Deux tâches
principales ont été étudiées, la première concerne le développement d’un
système de catégorisation de documents, tandis que la seconde s’intéresse
à la recherche d’information dans des bases documentaires manuscrites. En
amont, une première étape importante a consisté à collecter un corpus
manuscrit de référence pour la validation expérimentale de cette étude.
L’utilisation d’un système de reconnaissance de l’écriture étant l’élément
transversal des approches proposées, une partie de notre travail a
consisté à analyser le comportement de ces approches face aux erreurs de
reconnaissance.
La catégorisation est effectuée en enchaînant un système de reconnaissance
à un système de catégorisation basé sur des méthodes d’apprentissage
statistique. Pour la recherche d’information, deux approches ont été
proposées. La première tire partie de la diversité des résultats restitués
par des algorithmes de recherche différents, l’idée étant que la
combinaison des résultats peut pallier leurs faiblesses respectives. La
seconde approche exploite les relations de proximité thématique entre les
documents. Si deux documents proches ont tendance à répondre au même
besoin d’information, alors ces mêmes documents doivent avoir des scores
de pertinence proche.

Dernière modification : mercredi 27 juillet 2011