Langues : English français
Accueil > Manifestations > Thèses et HDR > HDR > HDR Esther Pacitti

HDR Esther Pacitti

Résumé

Dans une base de données répartie, la réplication de données sert à augmenter la fiabilité et la disponibilité des données ainsi que les performances d’accès. En général, l’unité de réplication (copie ou réplique) est une table relationnelle (ou un fragment de table), un document ou un fichier. La réplication consiste alors à placer plusieurs copies sur différents nœuds distincts. Si un nœud devient non opérationnel à la suite d’une panne par exemple, une autre copie est toujours accessible sur un autre nœud. La réplication permet aussi d’améliorer les performances d’accès en augmentant la localité de référence. Lorsque le coût de communication est un facteur dominant, le placement d’une copie sur le nœud où elle est le plus souvent accédée favorise les accès locaux et évite les accès au réseau.

Les avantages apportés par la réplication sont à comparer avec la complexité et les coûts supplémentaires de maintenance des copies qui doivent rester identiques. La mise à jour d’une copie doit être répercutée automatiquement sur toutes ses répliques. Le problème est compliqué par la présence de pannes de nœuds ou du réseau. Pour aborder ces problèmes, nous avons adopté le modèle de réplication asynchrone, le plus utilisé en pratique, et nous nous sommes concentrés sur la gestion de la cohérence des données dans trois contextes importants : (1) entrepôts de données, (2) grappes et (3) applications collaboratives en pair à pair (P2P).

Dans le contexte des entrepôts de données, nous avons proposé de nouvelles architectures et des stratégies de réplication asynchrones efficaces pour la configuration mono-maître, la plus répandue, qui améliorent le degré de fraîcheur des données répliquées tout en garantissant leur cohérence. Ce travail a été validé dans le cadre du projet européen DWQ (Data Warehouse Quality).
Dans le contexte des grappes de bases de données, nous avons proposé un nouvel algorithme de réplication de données, dit préventif, asynchrone et multi-maître qui assure la cohérence forte des données. Ce travail a été validé dans le cadre du projet RNTL Leg@net avec le prototype RepDB* (diffusé en logiciel libre).

Dans le contexte des applications collaboratives en P2P, nous avons proposé des algorithmes efficaces pour la réconciliation de données répliquées en mode optimiste. Nous avons aussi proposé des optimisations qui exploitent la localité offerte par certains réseaux P2P. Nous avons validé ces algorithmes avec le prototype APPA, dans le cadre des projets ANR Masses de Données MDP2P et Respire, le projet européen STREP Grid4All et le projet RNTL Xwiki Concerto. Enfin, nous avons proposé une solution complète pour déterminer les données courantes (les plus à jour) parmi les données répliquées dans les tables de hachage distribuées (DHTs). Nous avons validé notre solution par une implémentation du DHT Chord sur un cluster de 64 nœuds et par une simulation jusqu’à 10.000 pairs en utilisant SimJava. Ce travail a été réalisé dans le cadre du projet ANR Masses de Données Respire.

Dernière modification : mercredi 27 juillet 2011