• Aucun résultat trouvé

Un échantillon de la blosphère politique française

2.3 Observation in-vivo des dynamiques

2.3.4 Un échantillon de la blosphère politique française

Dans cette section et les suivantes, nous décrivons en détail le protocole de col- lecte de données qui a été employé pour décrire les jeux de données analysés dans cette thèse. La structure d’un jeu de données décrivant une communautés de sa- voirs est la même pour l’ensemble de nos cas d’étude, néanmoins, la réalisation pratique de cette collecte varie énormément selon que l’on s’applique à “craw- ler” la blogosphère ou à interroger une base de données de publications scienti- fiques. On peut grossièrement décrire la procédure générale comme la succession de trois étapes : (i) délimitation d’un ensemble de textes ou d’acteurs qui définit les limites de notre communautés de savoirs (cette phase peut aller de la défini- 12. On peut néanmoins citer l’approche hypergraphique mise en œuvre dans Ruef et al. (2004) pour caractériser la formation de nouvelles équipes d’entrepreneurs ou le cadre théorique plus large actuellement conçu par Johnson (2006) pour rendre compte de la dynamiques des systèmes com- plexes à travers un formalisme original fondé sur les hyper-réseaux sans oublier les hypothèses premières de nature typiquement hypergraphique que Simmel (1955) mettait en œuvre.

tion d’une requête pour interroger une base de données, à un travail d’enquête pour identifier les acteurs d’une communauté de savoirs), (ii) collecte du corpus de textes correspondant et extraction des informations pertinentes (“parsing” d’un corpus de pages web ou d’un ensemble de publications scientifiques) et enfin (iii) modélisation des informations extraites pour construire notre réseau épistémique. Cette dernière phase correspond à la première étape de “reconstruction phénomé- nologique” des données textuelles originales en une description plus réduite mais également plus facile à appréhender par les outils d’analyse.

Nous illustrerons ces trois phases de façon détaillée sur l’un de nos cas d’étude : celui constitué d’une portion de la blogosphère politique française. La constitution de ce jeu de données a nécessité de trouver un compromis entre la richesse des information extraites de l’observation de l’activité de la blogosphère et le nombre de blogs sélectionnés pour figurer dans cette collection.

Concernant la première phase de délimitation de notre système, nous avons appliqué un processus de sélection de type “boule de neige” (Herring et al., 2005) dont l’initiateur a été un blog choisi parmi les 5 blogs les plus influents de la blo-

gosphère des commentateurs politiques français13). Partant de ce blog, on a réuni

tous les blogs mentionnés dans son “blogroll” (le blogroll d’un blog est classique- ment interprété comme ses “favoris” d’un blog, on considère généralement que le blogroll réunit les blogs régulièrement lus par l’auteur du blog). Ces blogs si- tués dans le voisinage de notre blog initial ont ensuite été sélectionnés ou rejetés sur la base de leur activité (leur activité moyenne devait être au moins égale à un billet hebdomadaire) et en fonction des thématiques traitées (nous avons écarté les blogs qui n’étaient pas focalisés sur le commentaire de la vie politique française) ; certaines considérations techniques nous ont également parfois contraint à écarter certains sites mais ce type de cas s’est finalement limité à quelques blogs seule- ment. Cette première couronne, constituée par les blogs politiques actifs situés à un clic du blogroll de notre site initial, est constituée de 23 blogs. Elle a ensuite été complétée par une opération similaire à partir des blogs figurant dans le blogroll de cette première couronne. Au final, notre jeu de données contient un ensemble de 120 blogs notés B. Ces blogs se trouvent tous, au plus, à deux clics du blog de départ (si l’on se limite aux seuls liens de blogroll). Cependant, les liens de blogroll étant orientés, deux blogs de cet ensemble peuvent très bien, par exemple, se trou- ver à une distance 5 l’un de l’autre ; le réseau de blogroll résultant n’est d’ailleurs naturellement pas nécessairement connexe. La phase de sélection est résumée par la représentation du processus de boule de neige figure 2.3, c’est le réseau de blo- groll qui est représenté de façon à ce que l’agencement spatial des nœuds (organi- sation en deux cercles concentriques) corresponde aux deux couronnes construites en s’éloignant à distance 1 puis 2 du blog initial.

13. http ://versac.net fait partie du top 5 du classement des blogs de commentaires politiques publié par le moteur de recherche spécialisé dans la blogosphère Technorati (http ://www.technorati.com

FIGURE2.3: Ensemble des 120 blogs constituant notre jeu de données, représentés selon

leur appartenance à la première ou à la seconde couronne autour du blog de versac (au centre du schéma).

La seconde phase de collecte et d’extraction d’un corpus textuel pertinent a été menée sur cette portion de la blogosphère politique française en “collectant”

systématiquement les traces textuelles produites pendant 6 mois d’activité, du 1er

janvier 2007 jusqu’au 30 juin 2007, une période durant laquelle des débats nourris

ont accompagné le déroulement des élections présidentielles (1er et 2nd tour au

mois d’avril et mai) puis législatives (en juin) françaises.

L’activité de chacun des blogs de notre sélection a été “crawlée” grâce à des scripts développés de façon ad-hoc pour chaque plate-forme de blog et si néces- saire pour chaque blog en réalisant une exploration “rétrospective” de l’historique d’édition des blogs. Nous avons ainsi extrait, sur l’ensemble de la période d’obser- vation, 11 552 billets, leur date de publication (telle qu’elle apparaît dans le billet) et l’ensemble des commentateurs d’un billet donné (pourvu que le commentaire ait été signé par un des blogs de notre échantillon). Nous avons également extrait

l’ensemble des liens de blogrolls entre blogs de notre échantillon B.14

Restreindre notre sélection à un nombre relativement faible de blogs, nous a ainsi permis d’employer une méthodologie d’extraction certes coûteuse (chaque blog a bénéficié a minima d’une adaptation du script de collecte à ses spécifici- tés techniques), mais permettant d’obtenir une description très précise des dyna- miques d’interaction entre blogueurs (sur les liens de commentaire et de citation) et de production de contenu. D’autres méthodologies ont été mises en œuvre pour collecter des données de blogs à grande échelle. L’une d’elle consiste à employer les flux rss des blogs (Shi et al., 2007) afin d’aider à la reconstruction du contenu des billets à partir d’heuristiques simples, une autre méthode consiste à effectuer 14. Techniquement, la technique de “web scrapping” employée était fondée sur le repérage de

DOMassociés aux champs d’intérêt (date du billet, titre, liens de commentaires, etc.) au sein du

code de la page d’un blog. Ce travail de collecte a été réalisé avec le concours précieux de Hugo Lebrun, Richard Norton, et Charles Cizel.

des crawls quotidiens de la page principale d’un blog et de détecter les différences entre deux états successifs du site pour tâcher d’en isoler les nouveaux contenus (Glance et al., 2004). De par leur robustesse, ces méthodes sont bien adaptées à la collecte de jeux de données massifs, mais elles sont exposées à certaines limitations quant à l’exhaustivité et la fiabilité de l’opération de collecte : absence de flux rss pour certains blogs, difficulté à séparer les changements issus d’une modification de la charte graphique ou de l’ajout de commentaires dans la méthode différen- tielle, les réseaux de commentaires restant généralement le parent pauvre de ces analyses.

Notre méthode “rétrospective” présente l’avantage de donner une représenta- tion plus détaillée de l’activité des blogueurs, incluant notamment le réseau des commentaires. Elle permet également un “parsing” des données homogène dans le temps, le crawl étant effectué “en une passe” sur l’ensemble des 6 mois d’activité des blogueurs (on élimine ainsi le bruit induit, par exemple, par des modifications de chartes graphiques). De façon plus générale, la reconnaissance automatisée de la structure des textes au sein d’un blog ou d’une page web constitue un champ de recherche à part entière (Bar-Yossef and Rajagopalan, 2002) qui se développe très rapidement. Dans un contexte plus industriel, il semble désormais possible de construire des jeux de données beaucoup plus larges et, sans doute bientôt, plus détaillés que celui sur lequel nous nous penchons.

Enfin, la troisième et dernière phase de modélisation de notre corpus de textes est décrite dans la section suivante.