1. Évolution de l'étude des liens dans les sites d'information Approches techno-centrées
1.7. Limites des études de liens dans les sites d'information
Il faut enfin pointer un certain nombre de tensions, de paradoxes ou de raccourcis dans la conceptualisation, la mesure et l’interprétation des liens.
Instantané
Peu d'études, au final, présentent autre chose qu'un instantané des sites d'information qu'elles examinent. Les contenus des sites sont extraits ponctuellement, et forment au final des échantillons de taille plutôt modeste.
Même s'il n'entre pas dans le projet de cette recherche de plaider en faveur des « big data », force est de constater que la taille plutôt modeste de certains échantillons rend certaines affirmations fragiles. Par exemple, Tsui (2008) étudie 906 articles extraits de 9 publications (des blogs et des sites d'information), qui contiennent 3876 liens. La taille de l'échantillon semble donc raisonnable, mais sa ventilation en fonction de la destination des liens et des publications mène à des affirmations plus contestables : le nombre de liens externes
externes constituent respectivement 0,7 et 27 % du nombre total des liens de ces deux publications, extraits d'un nombre similaire d'articles — un œil sur les pourcentages laisse donc croire à une grande différence en termes de liens externes entre les deux sites, alors qu'ils diffèrent uniquement en termes du nombre total de liens (427 pour le New York Times et 11 pour le L.A. Times).
Une conceptualisation unidimensionnelle du lien
L’équation selon laquelle les liens externes équivaudraient strictement aux mentions des sources est ainsi relativement peu discutée ou problématisée. Elle offre certes une mesure directement opérationnalisable — il s’agit par exemple pour D’heer & Paulussen (2012) de compter les liens externes présents dans les productions des journalistes et des citoyens pour conclure à un comportement différent en matière de sources des uns et des autres — mais masque un ensemble de fonctions potentielles des liens dans le contexte journalistique, que la plupart des études évoquées ici mentionnent néanmoins.
Ainsi, les liens contribueraient à créer dans les contenus journalistiques simultanément plus de profondeur (Dimitrova et al., 2003) et de concision (Tremayne, 2005, p. 31) : les journalistes ne devraient plus systématiquement écrire des récapitulatifs des événements passés, ils pourraient proposer des liens vers d’autres contenus pour les lecteurs qui en ont besoin, et ainsi se concentrer sur l’essentiel tout en ne négligeant pas le contexte et la profondeur. Les liens seraient également un moyen pour les journalistes de donner la parole à une diversité d’opinions (Tremayne, 2005).
Les liens ne sont donc pas réductibles à leur fonction de citation, à leur potentiel de « connecter directement une affirmation à sa source » (Turow, 2008, p. 73) — et considérer les liens comme une mesure univoque du comportement des producteurs d’information vis-à-vis de leurs sources ferait preuve d’un réductionnisme excessif.
Même en considérant ses multiples fonctions journalistiques, la question de ce qui explique ou éclaire la création des liens n’est pas résolue. Les résultats des études qui, comme celle de Weber (2010) considèrent les liens comme des stratégies de construction de « bonnes relations » au sein d’un réseau d’organisations sont certes à considérer avec prudence en lumière d’un certain nombre de précautions méthodologiques6
. Son existence met
6 Ces résultats sont toutefois à prendre avec précaution, en considérant quelques avertissements méthodologiques : l'étude de Weber (2012) n'est pas claire sur la composition du corpus étudié, échouant à mettre en œuvre l'injonction de "transparence" (Karpf 2012, voir p.61) nécessaire aux recherches sur des données numériques.
Les données sont issues du site d'archivage Internet Archive : l'auteur reconnait qu'il s'agit de données incomplètes qui ne peuvent être que des instantanés aléatoires sur lesquels le chercheur n'a aucune prise -‐-‐ à mes yeux un exemple de réappropriation sans distance critique de catégorisation et d'échantillonnage "indigènes" dénoncé par Rebillard (2012, p. 259) comme un défaut courant des méthodes numériques. Sous des
néanmoins en évidence une tension qui traverse les tentatives de conceptualisation des raisons d’être des liens dans les sites d’information : certains postulent des raisons purement stratégiques à la création de liens là où d’autres ne voient que des motifs journalistes. Pour les premiers, les liens existent parce qu’ils « créent de bonnes relations » avec d’autres organisations et acteurs (Weber, 2010 ; Ryfe et al., 2012). Pour les seconds, les liens sont, par exemple, utilisés comme traces du rapport des journalistes à leurs sources (D’heer & Paulussen, 2012).
Fausse impression d'uniformité
En ce qui concerne l'interprétation des liens trouvés sur les sites d'information, il faut d'abord souligner que même si les conclusions dénoncent de manière récurrente l'absence de liens dans les sites d'information, de grands écarts existent d'un site à l'autre.
Les 10 sites étudiés par Quandt en 2005 montrent de grandes disparités : parmi les 1603 articles examinés, beaucoup (dans des proportions qui vont de 60 à 90 %) contiennent des liens internes. Mais en ce qui concerne les liens externes, les comportements sont moins unifiés, et la proportion d'articles qui en contient varie de presque aucun (0 % pour le site russe kommersant.ru, 0,8 % pour lefigaro.fr, 3 % pour le site allemand sueddeutsche.de) à une grande majorité (87 % pour le site russe lenta.ru, 83,1 % pour bbc.co.uk) (Quandt, 2008, p. 731).
Dimitrova (2003, p. 407) fait état de disparités semblables, avec des nombres de liens qui varient de 2 à 1837 selon les publications considérées. Les quatre sites de journaux étudiés par Tsui font « lourdement » usage des liens (Tsui, 2008, p. 78). Mais les proportions varient, en nombre moyen de liens par articles, de 0,3 (pour le L.A. Times) à 10,4 (pour le New York Times).
airs de détail technique, ce passage sous silence a des implications méthodologiques qui ne sont pas discutées. Les archives sont probablement disponibles de manière inégale selon les sites, ce qui est susceptible de créer des distorsions dans le corpus (si plus de pages sont archivées, il est probable qu'on y trouve plus de liens, et au final chaque site est considéré comme une entité unique sans qu'on soit renseigné sur la proportion de ce site effectivement disponible sur Internet Archive).
De plus, Weber ne donne pas de précision sur la profondeur avec laquelle les sites ont été explorés (à l'aide d'un crawler) pour en extraire les liens : les sites d'information contiennent une multitude de pages et de nombreux niveaux, qui peuvent faire augmenter le corpus de manière exponentielle. L'auteur ne précise à aucun endroit le nombre de pages qui ont été analysées (s'agit-‐il uniquement de la page d'accueil ou d'une multitude d'articles ?). Enfin, l'étude est imprécise sur la méthode de sélection des liens qui sont effectivement analysés. Les 76 sites web sur lesquels le crawl a été lancé ramènent un réseau de 11 195 sites web. Parmi ceux-‐ci, les auteurs n'enregistrent une connexion entre deux sites que si l'un a produit au moins quatre liens hypertextes vers l'autre au cours d'une même année, "afin d'éviter les liens au hasard" (la division séquentielle est purement arbitraire). En plus de ce premier filtre, l'auteur élimine du corpus les "spams et contenus sans rapport tels que la publicité", sans préciser sur quels critères ces sites étaient discriminés. Au final, le corpus comporte 1212 sites, soit environ un dixième du réseau original. Les conséquences de cette réduction drastique, après avoir été brièvement
L'approche diachronique adoptée par Barnhurst (2001, 2010) montre quant à elle que la simple présence de liens évolue radicalement au cours du temps : en 2001, près de trois quarts des articles du New York Times, Chicago Tribune, et de l'Oregonian ne contiennent aucun lien. Cette proportion chute à 30 % pour les mêmes publications, étudiées selon la même méthode, en 2005 (Anderson, 2010).
Peu d'études concilient ces différents pôles, et elles sont encore moins nombreuses à tenter d'éclairer les liens extraits des sites d'information par une exploration de leur contexte de production, de manière empirique. Quand elles le font (Coddington, 2012 ; Fortunati et al., 2009), on voit que raisons stratégiques et raisons journalistiques sont indissociables, et qu'elles coexistent notamment dans les discours des journalistes au sujet des liens (Coddington, 2012, O'Sullivan, 2005).