Accueil > Equipes > TALN > Projets > Blogoscopie > Corpus

Corpus

Nature du corpus

Le corpus Blogoscopie est un corpus de blogs, dont les billets et commentaires ont été annotés manuellement via l’outil oXygen (éditeur XML). L’annotation porte sur deux catégories d’éléments : les concepts contenus dans les billets et les commentaires, et les évaluations émises par l’auteur du billet ou du commentaire à propos des concepts exprimés.

Préalablement à la collecte des données, une analyse comparative de trois typologies des blogs nous a permis de centrer nos analyses sur les blogs thématiques personnels, c’est-à-dire sur « des blogs personnels francophones, tenus par un seul et même individu, régulièrement alimenté et à caractère public » [Cardon et Delaunay-Teterel 2006, p.3], auxquels nous avons ajouté une contrainte thématique. En effet, contrairement aux blogs « journaux intimes » et aux « weblogs purs », ces blogs présentent la particularité de traiter d’un concept en particulier, les billets afférents contiennent simultanément une partie informative relative au concept discuté, et une partie évaluative relative au point de vue de l’auteur dans les billets et à celui de ses interlocuteurs dans chaque commentaire respectif.

Les blogs ont été collectés à partir de la plateforme Over-Blog en juin 2007. Une extraction antérieure des billets et des commentaires aurait introduit un biais dans la représentation et la variété des concepts, tant l’intérêt des blogueurs était centré sur les élections présidentielles françaises. Dans un souci de représentativité du corpus par rapport aux centres d’intérêt des blogueurs, nous avons sélectionné les 10 blogs les plus visités par thème, puis les 10 billets les plus récents publiés et les 10 premiers commentaires (maximum) associés à chaque billets.
Composition du corpus

Le corpus comporte 200 billets annotés et 612 commentaires associés, ce qui représente un peu plus de 83 500 mots répartis au sein de 200 fichiers au format XML. Au total, 5666 formes de concepts ont été annotées et 4943 formes d’évaluations.

Le corpus Blogoscopie comporte trois sous-parties :

Sous-parties Nombre de billets Nombre de commentaires Nombre de thématiques
(1)7629633
(2) 341628
(3) 9015410
TOTAL20061251

Téléchargements

Manuel utilisateur :

PDF - 341.4 ko
Manuel Corpus Annoté

Echantillon corpus Blogoscopie :

Zip - 11.6 ko
Echantillon Corpus Annoté



Dernière modification : mardi 25 mai 2010