Accueil > Manifestations > Thèses et HDR > Thèses > Andreea Radulescu

Andreea Radulescu

Directeur de thèse

Irena Rusu
Géraldine Jean

Résumé

Le développement des méthodes de séquençage de nouvelle génération a permis la production de grandes quantités de données à moindre coût. Cependant, les fragments obtenus, appelés reads, possèdent des longueurs plus courtes et des taux d’erreurs plus élevés que ceux obtenus avec les premières méthodes de séquençage. Cela a créé de nouveaux défis pour l’assemblage de génomes. Même si de nombreux assembleurs sont publiés chaque année et que les algorithmes sont de plus en plus élaborés, la reconstruction d’un génome entier de novo, en l’absence de génome de référence, reste un problème difficile. Une des principales causes est la présence des répétitions dans les génomes.

Cette thèse décrit des algorithmes visant à améliorer l’assemblage de novo de répétitions. Nous présentons d’abord nos solutions axées sur les répétitions en tandem. L’algorithme appelé DExTaR a été conçu pour améliorer la détection de répétitions en tandem exactes suite à un assemblage de novo global basé sur l’approche de de Bruijn. Le second algorithme, appelé MixTaR, effectue seulement des assemblages locaux afin de détecter des répétitions en tandem exactes et approximatives. En utilisant deux types de reads, courts et longs, MixTaR ne requiert pas un assemblage global préalable.
Nous proposons ensuite plusieurs algorithmes pour simplifier le problème d’assemblage basé sur une nouvelle structure de données, le graphe de de Bruijn pairé. Ce graphe inclut les informations des reads pairés dès le début du processus d’assemblage afin d’améliorer la détection de répétitions et la qualité de l’assemblage.

Mots clés :

séquençage de nouvelle génération, assemblage de novo, graphe de de Bruijn, répétitions en tandem, cycle couvrant solide

Composition du jury :

  • Dominique LAVENIER, Directeur de Recherches, CNRS Rennes, Rapporteur
  • Eric RIVALS, Directeur de Recherches, CNRS Montpellier, Rapporteur
  • Guillaume FERTIN, Professeur des Universités, Université de Nantes, Examinateur
  • Irena RUSU, Professeur des Universités, Université de Nantes, Directrice de thèse
  • Géraldine JEAN, Maître de Conférences, Université de Nantes, Co-encadrante

Abstract

The development of the next-generation sequencing methods has allowed the generation of vast amounts of data at a lower cost and time. However, the fragments obtained, called reads, have shorter lengths and higher error rates that the ones obtained with the first sequencing methods. This new type of data created new challenges in genome assembly. Even though many assembly software are published every year and algorithms are becoming more and more complex, reconstructing a whole genome de novo, in the absence of a reference genome, remains a difficult problem. One of the main causes is represented by the presence of repetitive regions in the genomes.
This thesis describes algorithms designed to improve the de novo assembly of repeats. We first present our solutions focused on tandem repeats. The algorithm called DExTaR aims at extending the work done by a de novo assembly in the detection of exact tandem repeats. Based on a de Bruijn graph constructed by an assembler, our approach assembles new exact tandem repeats by analysing the parts of the graph left unresolved. The second algorithm, called MixTaR, performs only local assemblies in order to detect exact and approximate tandem repeats. Using the two types of reads obtained by the new sequencing methods, short and long reads, MixTaR does not require a global de novo assembly.
We then propose several algorithms for simplifying the assembly problem based on a new data structure, the paired de Bruijn graph. This graph uses the paired-end information from the beginning of the assembly process as a solution to a better repeat detection and higher quality results.

Key words :

next generation sequencing, de novo assembly, de Bruijn graph, tandem repeats, sound covering cycle

Dernière modification : vendredi 20 novembre 2015