• Aucun résultat trouvé

Promesses et périls de l'analyse de liens

2. Un détour par les link studies

2.3. Promesses et périls de l'analyse de liens

À considérer les travaux évoqués ci-dessus, il semble que l'étude des liens soit porteuse de nombreuses promesses. Elle permet d'étudier une variété de phénomènes sociaux, en tirant parti de la numérisation de pans entiers des mondes sociaux — une numérisation qui laisse permettrait de comprendre les phénomènes sociaux grâce aux traces numériques qu'ils laissent. Il n'y aurait donc qu'à tendre la main et à cueillir les liens, ou plutôt à lancer les machines pour récolter des ensembles de données toujours plus grands.

La récolte de liens se présente comme un acte technique simple, sans équivoque. En théorie, les liens sont faciles à détecter : il s'agit de chaînes de caractères présents dans le code HTML des pages web, contenus entre les bornes des balises <a> et </a>. Des logiciels nommés crawlers procèdent de manière automatique : ils analysent le code HTML, peuvent y repérer les liens et les enregistrer, et éventuellement répéter les opérations sur les

l'analyse de liens ont ainsi créé des outils ad hoc comme SocSciBot10 , LexiURL11 ,VOSON project12 , IssueCrawler13 , Navicrawler14

, etc. Ceux-ci promettent un même mode opératoire simplifié : il s'agit de fournir au logiciel une liste de pages web (sous forme d'URL) de départ, puis de paramétrer la profondeur avec laquelle on souhaite explorer celle-ci. Le logiciel explore les pages, y répertorie les liens, explore les nouveaux liens en fonction des paramètres choisis et fournit, au final, une base de données contenant des nœuds (les sites) et des liens entre ces nœuds.

En plus d'être à portée de main, les liens — comme d'autres traces numériques — possèderaient une autre qualité plutôt rare en science sociale : celle des données produites naturellement, qui peuvent être collectées de manière non intrusive, sans être suscitées par le chercheur (Park, 2003). Cependant, les possibilités d'automatisation à grande échelle, comme le caractère non intrusif de la collecte des liens, cachent en réalité un certain nombre de limites et de difficultés à la fois techniques et méthodologiques.

Des « données » naturelles ?

Les liens sont loin de constituer des données « naturelles », prêtes à être cueillies et nous informant, sans autre médiation, de phénomènes sociaux qu'elles reflèteraient sans équivoque. Le fait que la recherche, mais surtout l'industrie du web, accorde de la valeur aux liens et les utilise comme devise symbolique pour mesurer et classifier l'importance, la centralité ou l'autorité de pages et de sites web n'est pas anodin. « Ceux qui mesurent le système sont devenus une partie significative de celui-ci » (Halavais, 2008, p. 48), et le poids d'un acteur tel que le moteur de recherche Google n'est plus à démontrer.

L'optimisation pour moteurs de recherche (search engine optimization) est une pratique de plus en plus répandue. Celle-ci implique notamment que les créateurs de contenus sur le web tentent, lorsqu'ils sont amenés à créer des liens, à anticiper l'impact que ceux-ci peuvent avoir sur leurs résultats dans les moteurs de recherche. « L'étude des hyperliens à un niveau macro est compliquée par le fait que les utilisateurs sont de plus en plus conscients des structures des hyperliens » (Halavais, 2008, p. 53).

La raison d'être de nombreuses analyses de liens — l'idée selon laquelle la création de liens est une activité éminemment sociale — complique dès lors la tâche des chercheurs. La nature même des données exige des précautions, puisque les liens ne sont pas des activités statistiquement indépendantes : Thelwall (2006, p. 7) met en évidence l'imitation entre

10  http://socscibot.wlv.ac.uk/   11  http://lexiurl.wlv.ac.uk/   12  http://voson.anu.edu.au/   13  http://www.issuecrawler.net/   14  https://addons.mozilla.org/en-­‐US/firefox/addon/200263/  

créateurs de sites, la copie pure et simple de certains contenus, ou la création automatique de pages comme tant de facteurs qui font que les liens ne sont pas des observations indépendantes les unes des autres. Comme le formulent Harries et al. (2004, p. 439), la création d'hyperliens est « une activité sociale qui inspire l'imitation, à l'opposé de l'indépendance statistique ». Tous les traitements statistiques qui présupposent l'indépendance des observations ne peuvent donc pas être appliqués validement. Les mêmes précautions sont à prendre avec les tests statistiques qui postulent que les données correspondent à des distributions normales, gaussiennes puisque les distributions de liens ont plutôt tendance à correspondre à des lois de puissance (Barabasi, 2003).

Parfois, c'est la collecte même des données qui peut bousculer l'environnement que les chercheurs croyaient simplement observer sans y intervenir — et le cartographe de modifier la carte (Plantin, 2013, p. 234). Ghitalla remarque par exemple que son étude de la structure des liens qui traversent le web européen a une influence sur celui-ci : une fois sa carte d'hyperliens mise en ligne, celle-ci apparaît au cœur du réseau étudié – étant donné qu'elle contient des liens vers tous les sites concernés. « La carte, une fois publiée sur le réseau, modifie le territoire qu'elle représente » (Ghitalla, 2008).

Dans le cas de Marres (2004), c'est la collecte de données, à l'aide d'un crawler, qui ne passe pas inaperçue. Le grand nombre de requêtes envoyé par le logiciel aux sites étudiés peut inquiéter les webmasters attentifs. Et la chercheuse de recevoir un courriel du responsable du site web qui était l'objet de sa recherche, alarmé par tant de trafic sur son site. Cette réaction, commente Marres, « nous fait nous poser toutes sortes de questions, par exemple au sujet de l'implication inévitable des chercheurs dans le phénomène qu'ils étudient (le problème des anthropologues : “se mélanger avec les indigènes”) » (Marres, 2004, p. 125).

Tous les liens se valent-ils ?

La promesse d'une collecte de données automatisée et à grande échelle masque également un constat partagé, implicitement ou explicitement, par de nombreuses recherches : tous les liens ne sont pas égaux. Les aplatir dans des métriques globales, où un lien est enregistré comme une relation positive en faveur du phénomène que les chercheurs entendent mesurer, ne va donc pas de soi.

Ceux qui étudient les liens des blogs marquent souvent une différence entre les liens qu'on trouve dans le texte des billets et les liens de type « blogroll » (ceux qui sont présentés dans une colonne sur le côté), et postulent que ces deux types de liens ne peuvent être

ces deux types de liens sur base de leur position dans la page ? Privilégier les uns, ou les autres ? Les réponses à ces questions dépendent des recherches qui sont mises en œuvre : les chercheurs qui veulent comprendre les mécanismes d'affiliation ont tendance à préférer les liens dans les « blogroll », mais ceux qui cherchent à tracer les réseaux conversationnels préfèrent les liens dans le texte des billets. Adamic (2008) avance que les liens des « blogrolls » servent de badges aux blogueurs, qui les exhibent pour signifier leur appartenance à un groupe. Ils indiquent « une conscience sociale » du blogueur (Marlow, 2004, p. 3) ou peuvent constituer une indication du paysage idéologique dans lequel un blogueur souhaite s'inscrire (Park & Jankowski, 2008 ; Park & Thelwall, 2008). Pour Lin et al., les liens des « blogrolls » sont plus riches en information que les liens dans les billets, puisqu'ils signalent l'affiliation interpersonnelle (Lin et al., 2007, p. 17). En revanche, les liens dans le texte des billets sont désignés comme de bons indicateurs des conversations qui ont cours dans une blogosphère. Ils permettent aux blogueurs d'avoir « des conversations distribuées » (Marlow, 2004, p. 3) et dénotent un « engagement actif avec d'autres blogueurs » (Hargittai et al., 2008a), ils seraient dès lors « plus significatifs des lectures d'un blogueur que les liens des blogrolls » (Adamic & Glance, 2005, p. 7).

La comparaison directe de liens extraits de contextes différents pose également problème dans une perspective diachronique. Les pratiques de communication en ligne, tout comme les techniques, évoluent. La comparaison par Park et Thelwall de différentes générations de communication politique en ligne (les sites personnels, les blogs et les réseaux sociaux) met en évidence que, même en considérant une temporalité relativement réduite, les pratiques en matière de liens évoluent drastiquement. En l'occurrence, le cadre analytique et la méthodologie utilisés pour donner du sens aux liens trouvés dans des pages personnelles se révèlent imparfaits une fois transférés aux blogs, « parce qu'il y a des types [de liens] qui sont uniques aux blogs » (Park & Thelwall, 2008). De même, dans leur tentative de cartographier les liens entre différentes disciplines académiques, Harries et al. remarquent des variations disciplinaires dans les types de liens. Tous soulignent que le contexte est crucial, et qu'il n'est pas raisonnable d'amalgamer tous les types de liens. Les logiciels qui extraient en vrac tous les liens de pages et de sites, sans distinguer leur position ou des éléments de contexte, manqueraient donc de finesse.

En regard des quelques éléments exposés ci-dessus, c'est un des principaux attraits de l'analyse de lien qui doit être considéré sous un nouveau jour : la possibilité de récolter des données à grande échelle et de les étudier dans leur globalité. Si tous les liens ne sont pas égaux, si leur interprétation dépend largement du contexte, alors le traitement automatique de grandes quantités de liens devient problématique, et ce même sans entrer dans de

subtiles distinctions propres au domaine étudié. Dans leur tentative d'examiner le « graphe du web » en entier, Bharat et al. (2001) ont pour but de déterminer si deux sites sont semblables grâce à la structure de leur réseau de liens. Mais même cette simple mesure de similarité sur base de la fréquence des mêmes comportements hypertextuels se révèle parfois trompeuse, et les auteurs remarquent qu'il y a dans leurs résultats des « paires de sites fortement connectées qui n'ont par ailleurs rien en commun » – comme les grands hébergeurs www.geocities.com ou members.aol.com, dont la similarité est uniquement due à leur grande taille (Bharat et al., 2001, p. 5).

Interprétations périlleuses

Les études présentées ci-dessus s'accommodent d'une tension fondamentale, puisqu'elles tentent de donner du sens à des agrégats de connexions hypertextes, tout en reconnaissant qu'interpréter les intentions individuelles derrière chaque lien est extrêmement délicat. Thelwall résume le problème de la façon suivante : « la raison expliquant la présence d'un grand nombre de liens peut être complètement différente de la raison expliquant la création d'un lien individuel » (Thelwall, 2006, p. 9).

La multiplicité des intentions possibles derrière les liens n'est pas spécifique au web, et le même constat a déjà été fait au sujet d'autres systèmes de références croisées. Comme les renvois entre différentes entrées de l'Encyclopédie de Diderot et d'Alembert (Zimmer, 2009) peuvent parfois relever de l'ironie, de l'allusion, ou de stratégies pour éviter la censure ; comme les notes de bas de pages des livres d'histoire peuvent cacher « toute une gamme de pratiques divergentes », y compris de l'humour ou des « coups de poignard dans le dos d'un collègue » (Grafton & Fabre, 1998, pp. 16–17), les liens ne sont pas univoques ou purement utilitaires.

L'analogie avec les « ancêtres » de l'hypertexte peut-elle dès lors éclairer notre compréhension des processus de création des liens ? Thelwall (2003) s'inspire de recherches sur les citations scientifiques pour délimiter les différentes fonctions des liens présents sur les sites d'université britanniques — arguant que ceux-ci peuvent servir à échanger de l'information ou du capital social, mais aussi être purement gratuits ou triviaux, sans fonction de communication discernable. Cette diversité débouche sur un constat d'échec : contrairement aux citations académiques, les liens sur le web sont essentiellement chaotiques, et les utiliser en vrac et hors contexte pour inférer des relations entre des individus ou des organisations est « problématique » (Park & Thelwall, 2003).

p. 192). « Même si leur ancrage sur des mots du texte contribue à leur sémantisation (par le rapport métonymique entre le mot et le fragment auquel il renvoie), et que des dispositifs comme le typage (qui permet au lecteur d'anticiper sur le type de contenu qu'il va trouver) ou les menus contextuels peuvent les rendre plus explicites, les liens possèdent un caractère fondamentalement elliptique » (Clément, 2007, pp. 192–193). Il n'existe aucune garantie que des indications à propos des intentions de son créateur peuvent être trouvées dans un lien lui-même, ou même dans la ressource vers laquelle ce lien dirige (Thelwall, 2001). En bref, les liens sont « des artefacts très difficiles à comprendre. La question de ce que quelqu'un a voulu dire en créant un lien ou en en activant un est entièrement déterminée par le contexte » (Halavais, 2008).

Dès lors, la nécessité de comprendre les motivations des individus à produire des liens et les fonctions que les liens servent dans leur contexte de création revient comme un horizon inatteignable de l'étude des liens. La plupart des auteurs reconnaissent qu'étudier les intentions derrière les liens pourrait améliorer leurs analyses (Park, 2010) : « plusieurs méthodes doivent être employées pour examiner les raisons pour lesquelles les créateurs de sites web forment des réseaux avec d'autres sites via les hyperliens : des sondages, des entretiens approfondis, de l'observation, des analyses comparatives du contenu des sites ou d'autres données sur le réseau pourraient contribuer à la compréhension des relations sociales entre les composantes du réseau. » (Park, 2003, p. 58) — des dispositifs très coûteux à mettre en place à grande échelle (Park, 2002, p. 4).