• Aucun résultat trouvé

Catégorisation des blogs selon leur sensibilité politique

4.6 Trajectoires des individus au sein des paysages sémantiques

5.1.2 Catégorisation des blogs selon leur sensibilité politique

On a montré que les blogueurs reproduisent en partie des motifs relationnels similaires à leur alter-ego “réel” : par exemple Adamic and Glance (2005b) ont montré que les regroupements (basés sur des critères structurels) de blogs au sein de la blogosphère politique américaine suivaient les frontières partisanes tradition- nelles (blogs démocrates ou républicains). Cette similarité avec le monde réel nous encourage à proposer une catégorisation des blogs en fonction de leur sensibilité politique, dont nous ferons l’hypothèse qu’elle permet de définir des catégories de sources cohérentes et pertinentes vis-à-vis de notre problématique.

2. Comme nous souhaitons par la suite repérer les pics d’activité associés à un concept donné, nous avons fixé le terme de pondération – l’idf – comme constant dans le temps ; il est donc cal- culé pour l’ensemble des contenus agrégés dans le temps. Par la suite, nous définissons des seuils dépendant des concepts pour décrire la dynamique symbolique de nos sources, ainsi, ce terme de pondération est naturellement sans conséquence pour déterminer si une catégorie de blogs mobilise de façon particulière un concept à un moment donné, par contre, il est crucial au moment de l’étape de catégorisation des blogs que nous décrivons dans la section suivante.

3. ˆw(i) = P tWt(i, c) P t P|W| c=1Wt(i, c) · log |B| |{j, W(j, c) > 0}|

! ! ! !"# !"# !"# !"$ !"$ !"$ !"% !"% !"% !"& !"& !"& !"' !"' !"' !"( !"( !"( !") !") !") !"* !"* !"* !"+ !"+ !"+ # # # , , -./01.,234567 859 :0,23 4567 ;.<0,23 4567 =/>/3?/ 159:0 6./01. ;.<0 ! ! ! !"# !"# !"# !"$ !"$ !"$ !"% !"% !"% !"& !"& !"& !"' !"' !"' !"( !"( !"( !") !") !") !"* !"* !"* !"+ !"+ !"+ # # # , , -./01.,234567 859: 0,23 4567 ;.<0,23 4567 =/>/3?/ 159:0 6./01. ;.<0 ! ! ! !"# !"# !"# !"$ !"$ !"$ !"% !"% !"% !"& !"& !"& !"' !"' !"' !"( !"( !"( !") !") !") !"* !"* !"* !"+ !"+ !"+ # # # , , -./01.,234567 859: 0,23 4567 ;.<0,23 4567 =/>/3?/ 159:0 6./01. ;.<0 ! ! ! !"# !"# !"# !"$ !"$ !"$ !"% !"% !"% !"& !"& !"& !"' !"' !"' !"( !"( !"( !") !") !") !"* !"* !"* !"+ !"+ !"+ # # # , , -./01.,234567 859: 0,23 4567 ;.<0,23 4567 =/>/3?/ 159:0 6./01. ;.<0

FIGURE5.1: Diagramme ternaire représentant le vecteur des poids relatifs des concepts

de la droite, du centre, et de la gauche, à gauche, projection des blogs pré-catégorisés (leur inclination politique est matérialisée par leur couleur), au milieu, définition des zones d’ap- partenance à chaque parti, à droite, projection de l’ensemble des blogs dans cet espace, les blogs appartenant aux zones pré-définies, sont catégorisés selon chacune des couleurs po- litiques.

Pour réaliser cette catégorisation, nous pouvons, compte tenu de la taille limi- tée du jeu de données, consulter chaque site et établir une première catégorisa- tion “manuelle”. Généralement, les blogueurs prenant ouvertement parti pour un camp politique placent des liens dans leur blogroll, vers des sites de campagne, ou les sites de soutien au candidat qu’ils supportent. Ces marqueurs nous ont per- mis d’attribuer sans ambiguïté une couleur politique : droite, gauche, centre, à près d’une trentaine de sites.

Une fois cette pré-catégorisation établie, nous définissons ensuite une série de concepts nous semblant caractéristiques des thématiques mises en avant par

chaque parti au cours de la campagne4. Ces trois classes de concepts permettent

d’attribuer à chaque source un vecteur tridimensionnel, dont les coordonnées

correspondent à la moyenne de leur profil sémantique ˆwt(i) sur chaque classe

de concepts. Ces vecteurs sont ensuite normalisés de manière à pouvoir défi- nir chaque source comme un triplet censé indiquer la proportion de concepts de droite, du centre ou de gauche au sein de leurs publications.

Nous avons représenté l’ensemble des blogs catégorisés “manuellement” sur la figure 5.1. Le positionnement des blogs au sein du diagramme ternaire indique une focalisation des thématiques abordées en fonction de la couleur politique du blogueur, ce qui valide en partie notre hypothèse selon laquelle les classes de blogs que nous construisons ont un comportement d’édition relativement homogène. Ainsi, les blogs centristes (en jaune sur la figure) semblent aborder uniquement des thématiques centristes. Le profil des blogs de gauche et de droite est plus dis- persé sur la dimension des thématiques centristes, on peut néanmoins aisément les caractériser par les thématiques qu’ils abordent peu, ainsi, d’après nos blogs pré-étiquettés, un blog de gauche emploiera systématiquement moins de 20% de 4. quelques exemples de concepts sélectionnés, pour le centre : Ruralité, UDF, Francois Bayrou, budget de la recherche, dette publique..., pour la gauche : encadrement militaire, salaire minimum, capita- lisme financier, Lionel Jospin, pacte présidentiel..., et pour la droite : réforme des retraites, service minimum, identité française, régimes spéciaux...

thème de droite, et vice-versa pour les blogs de droite. Nous créons ainsi (dia- gramme central figure 5.1) trois zones censées caractériser l’inclination politique d’un blog : une première, matérialisée par un triangle orange pour les blogs cen- tristes, correspond à des usages de concepts centristes à plus de 90%, le second, en bleu, correspond à l’ensemble des sources, dont les contenus publiés mobi- lisent moins de 10% de concepts de gauche et au moins 10% de concepts de droite. Le dernier ensemble, en rose, est le pendant du précédent en inversant gauche et droite.

Une fois ces “espaces de sensibilité politique” définis, nous projetons l’en- semble des blogs dans cet espace, et nous servons de leur distribution spatiale dans le diagramme ternaire pour les catégoriser. Un peu plus de 50 blogs sont ainsi étiquetés comme appartenant aux classes : gauche, droite ou centre, en fonc- tion de leur appartenance aux trois zones pré-définies. Les trois classes de blogs sont de tailles équivalentes. Les blogs non catégorisés ne sont pas pris en compte par la suite, leur profil sémantique ne permettant pas de leur attribuer de façon claire une couleur politique.

Cette méthode de catégorisation peut être critiquée à cause des interventions manuelles qu’elle a requises, néanmoins, la contiguïté apparente des blogs qui af- fichent la même sensibilité politique au sein de cet espace offre quelque garantie vis-à-vis du résultat final. Nous avons maintenant à notre disposition 4 classes de sources notées C : trois classes réunissent les blogs dont le profil d’activité est ca- ractéristique d’un blog de droite, de gauche ou du centre, et une dernière classe de

sources réunissant les 3 grands quotidiens nationaux5.