• Aucun résultat trouvé

2.3 Observation in-vivo des dynamiques

2.3.6 Caractérisation sémantique

Au-delà, de la structure sociale liant ces blogs, nous souhaitons caractériser ce système en introduisant une dimension sémantique liée aux contenus produits et échangés par les blogueurs. Les billets traitent généralement d’un sujet ou d’une question en particulier, parfois en s’appuyant sur certaines ressources extérieures. Nous faisons l’hypothèse que nous pouvons caractériser le contenu des billets des blogueurs à partir des sujets et thématiques qu’ils discutent ; ceux-ci sont repérés dans le texte des billets à partir d’un ensemble de syntagmes jugés pertinents vis- à-vis de la communauté de savoirs. En ce qui concerne les ressources extérieures sur lesquelles les blogueurs peuvent s’appuyer, nous faisons également l’hypo- thèse que les URLs qui ne sont pas des liens de citation permettent de définir un ensemble de ressources digitales qu’un blogueur est à même de diffuser dans son environnement. Ces ressources serviront spécifiquement à définir des entités ato- miques diffusant dans la blogosphère.

Par conséquent nous distinguerons par la suite :

– un ensemble de sujets de haut-niveau W, que nous appellerons également 15. Les notations en gras désigneront de façon générale dans le texte des mesures agrégées tem- porellement.

concepts, relatif à l’activité de chronique de la vie politique dans notre contexte. W est constitué de 190 syntagmes, dont la liste est donnée en an- nexe A.1, allant de noms de figures politiques à des questions de sociétés qui ont animé la dernière campagne présidentielle comme “ changement clima- tique”, “impôt sur la succession”, “débat public”, “prévention de la délinquance”, “referendum sur la Constitution Européenne”, “heures supplémentaires”, etc. – un ensemble d’URLs, noté U, distinctes de liens dans le réseau de citation —

celles-ci sont simplement des ressources extérieures : vidéos en ligne, articles de media, billets d’autres blogs extérieurs à notre sélection, etc. U consiste en une sélection de 3 140 URLs (dont le nombre de caractère est supérieur à

1016).

Munis de l’ensemble W des syntagmes pertinents, nous procédons ensuite à l’indexation de ces concepts au sein de l’ensemble des billets extraits. Cette in- dexation, dans le cas de la blogosphère politique française, a été réalisée avec l’aide

de Didier Bourigault et Franck Sajous concepteur de Leximedia 200717. Le logiciel

d’analyse syntaxique Syntex (Bourigault et al., 2005) a été utilisé de façon à intégrer certains traitements linguistiques tels que le repérage des types grammaticaux de chaque occurrence de notre ensemble de concepts (ainsi le logiciel différencie par exemple durant l’indexation le terme “Royal” entre son emploi en tant qu’adjectif ou en tant que nom propre). Cette tâche d’indexation permet de connaître le ou les concepts employés par tel ou tel blogueur un jour donné. On introduit ainsi la

matrice temporelle Wtqui retrace les contenus publiés par les blogueurs : Wt(i, w)

vaut 1 si le terme w ∈ W apparaît dans un billet publié par le blog i au temps t, 0 sinon.

On définit le profil sémantique d’un agent i au temps t comme l’agrégation des sujets qu’il a abordé jusque là. Ce profil est un vecteur de dimension |W| noté

Wt(i). Il est défini comme étant égal à la somme des vecteurs Wt′(i) pour t′ ≤ t.

Le profil sémantique de chaque agent est donc représenté par un vecteur dans un espace dont les termes forment les dimensions.

Cette matrice dynamique peut s’interpréter de façon équivalente comme le ré-

seau socio-sémantique dynamique GSCliant les agents du système aux concepts

qu’ils mobilisent. On définit simplement l’ensemble des liens RSC de GSC, dans

sa version non pondérée, comme l’ensemble des couples (i, w) d’agents et de

concepts vérifiant Wt(i, w) > 0. Dans sa version pondérée, les liens (i, w) du

réseau GSC sont simplement dotés d’un poids égal à W

t(i, w). Le réseau socio-

sémantique, comme le réseau social est par définition croissant. En pratique nous n’emploierons que de façon mineure cette formalisation (dans le chapitre 3 exclu- sivement), et utiliserons essentiellement l’expression des profils sémantiques des agents soit pour les plonger dans une structure sémantique plus large, soit pour construire une distance sémantique entre deux agents.

16. les chaînes de caractères “http ://” et “www” mises à part 17. http ://erss.irit.fr :8080/LexiMedia2007/

Pour comparer les contenus produits par deux agents i et j au temps t, nous adopterons une mesure classique de similarité basée sur un calcul de corrélation

soit le cosinus de leur profil sémantique Wt(i) et Wt(j). Mais avant de réaliser

cette mesure, nous appliquons d’abord une procédure de normalisation des termes en fonction de leur fréquence respective en suivant l’approche du “tf·idf” Salton et al. (1975). Ce type de traitement est largement appliqué dans l’ingénierie docu- mentaire.

La procédure de normalisation consiste à pondérer la “fréquence des termes”, “tf” , ou fréquence du terme au sein de la production textuelle d’une source, avec la “fréquence inverse de document”, “idf”, soit l’inverse de la fréquence du terme dans l’ensemble du corpus des sources porté au log. Cette méthode permet de donner plus de poids aux termes rares dans les profils sémantiques des agents. Les

profils Wt(i) sont donc remplacés par des profils ajustés par tf·idf : ˆwt(i) définis

de la façon suivante : ˆ wt(i, w) = Wt(i, w) P|W| w=1Wt(i, w) · log |B| |{j, Wt(j, w) > 0}|

où la partie droite de la formule correspond au ratio inverse du nombre de sources mentionnant le terme w.

Nous obtenons ensuite une expression de la similarité entre deux agents i et j comme le produit scalaire de leur profil sémantique normalisé divisé par le produit

de leur norme. La dissimilarité sémantique entre deux agents i et j, δt(i, j) peut

s’interprèter comme une “dissonance cognitive” et s’exprime sous la forme :

δt(i, j) = 1 −

ˆ

Wt(i) · ˆWt(j)

k ˆWt(i)kk ˆWt(j)k

La dissimilarité δt(i, j)vaut 0 si les deux agents partagent exactement le même

profil sémantique à t, et vaut 1 s’ils n’ont jamais mobilisé les mêmes concepts jusque là.

Le réseau sémantique GCnécessite généralement un traitement particulier lié à

la définition d’une mesure de proximité entre concepts. Nous n’en donnons donc pour l’instant qu’une description simplifiée. Le réseau sémantique reflète la struc- ture des concepts tels qu’ils sont mobilisés dans l’ensemble de la communauté de

savoirs à un moment donné. Dans sa forme la plus simple, ses liens RCsont définis

au temps t comme l’ensemble des couples de concepts (w1, w2)qui co-apparaissent

dans un même billet publié à la date t. Nous ne décrivons pas, pour le moment, les formes plus évoluées que peuvent prendre ce réseau ; nous aurons l’occasion d’approfondir sa description dans la section 3.3.2 et plus largement au chapitre 4 lorsque nous aborderons les questions de cartographie des dynamiques scienti- fiques. Notons néanmoins que, contrairement aux deux réseaux précédents, le ré- seau sémantique n’est pas croissant.