Relever ces défis méthodologiques - Un détour par les link studies

2. Un détour par les link studies

2.4. Relever ces défis méthodologiques

La plupart des recherches évoquées ci-dessus ne gomment pas ces défis méthodologiques, elles tentent de les relever — de manière effective ou en évoquant des pistes pour de futures recherches. La conscience de ces difficultés se traduit donc, pour beaucoup, par un recours à des méthodes mixtes. À l'analyse automatique et à grande échelle de données hypertextes s'ajoutent la qualification souvent manuelle de certaines variables, l'appel à l'expertise du domaine ou le croisement avec d'autres données (en ligne ou hors ligne).

Qualification manuelle

La plupart des travaux évoqués ci-dessus font appel, d'une manière ou d'une autre, à des évaluations manuelles, qualitatives, effectuées par des humains plutôt que par des machines. Hargittai et al. (2008) ont ainsi examiné les liens individuellement qui passaient la frontière entre blogs libéraux et conservateurs, en explicitant comment les blogueurs les utilisent dans leur argumentation. Dans sa cartographie du paysage de l'e-science, Park (2010) a notamment identifié (manuellement) les acteurs institutionnels responsables des

sites étudiés. Les liens entre les participants à la controverse sur la barrière de sécurité israélienne, étudiée par Rogers et Ben-David (2008) ont été passés en revue et qualifiés en fonction de leur nationalité. En d'autres termes, chacune de ses études complète les décomptes de liens en identifiant des variables pertinentes et en qualifiant chaque lien selon celles-ci.

Appel aux expertises « hors ligne »

Certains auteurs insistent particulièrement sur l'importance de faire appel aux experts du domaine qu'on étudie : seuls les spécialistes du domaine peuvent donner du sens aux liens, et c'est le regard des acteurs concernés qui permet de passer des « liens hypertextes » en « connexions sociales » (Ghitalla, 2008 ; Jacomy et Ghitalla, 2007).

La question de l'échelle des phénomènes envisagés devient donc cruciale. Reposer sur l'expertise de spécialistes n'est possible que si on étudie un « domaine » ou un « enjeu » (pour reprendre la terminologie respective de Ghitalla et Rogers) délimité — c'est nettement moins envisageable si on étudie les liens à l'échelle du web entier, ou des sites trop génériques susceptibles de regrouper des interactions de toutes natures.

De tels appels rejoignent des positions plutôt critiques envers les grandes ambitions des « digital methods » (Rebillard, 2011) ou des « big data » (boyd & Crawford, 2012) : le traitement à grande échelle de données massivement collectées ne peut pas se substituer à une démarche de recherche raisonnée et réflexive. Pour pallier les limites « pratiques et théoriques » des approches big data, il faut donc les « utiliser de façon contrôlée » et les « hybrider » dans des traitements semi-automatisés, où interviennent notamment « l'expertise humaine des chercheurs en sciences humaines et sociales » et d'« indispensables volets qualitatifs » (Rebillard, 2011).

Croisement avec des données en ligne

Un autre moyen d'hybridation de l'étude des liens passe par l'extraction et l'analyse — parfois automatisées — d'autres données extraites des sites web, pour les resituer « dans les contextes d’énonciation éditoriale qui lui donnent du sens » (Rebillard, 2012, p. 259). Cela se traduit, par exemple, dans le recours à l'analyse de contenu de textes dans lesquels se trouvent les liens ou jouxtant ceux-ci. Ainsi, Adamic et Adar (2003) se penchent sur les textes des pages personnelles des candidats à l'élection présidentielle, pour mieux cerner leurs stratégies de campagne qui s'expriment notamment dans les liens. Etling et al. (2010) font appel à l'analyse de textes assistée par ordinateur pour classifier les contenus des blogs dont ils étudient les interconnexions. Rogers et Marres (2000) utilisent des outils similaires

automatique de phrases et d'expressions clés permet de détecter comment les acteurs du réseau conversationnel qualifient leurs relations mutuelles.

Croisement avec des données hors ligne

Pour Thelwall (2001), croiser les données obtenues en comptant les liens avec d'autres données extraites des contenus disponibles sur le web ne suffit pas. Il faut compléter l'analyse avec des données « hors ligne ». Ainsi, dans ses recherches sur l'évaluation de la performance académique, Thelwall plaide pour « des calculs hybrides qui combinent l'information trouvée sur le web avec d'autres sources » — c'est-à-dire des données contextuelles propres aux phénomènes sociaux étudiés.

Il s'agit en quelque sorte d'un renversement de perspective, puisque les tenants des digital methods espéraient, à l'origine, que l'étude des terrains numériques les « renseigne sur les pratiques sociales qui les activent » (Rebillard, 2011). Considérées côte à côte, ces études montrent tout le contraire : ce n'est qu'en allant puiser dans les pratiques sociales, dans des enquêtes sur les modalités de production ou de réception, que les données numériques prennent du sens et peuvent échapper à « l’arrière-plan scientiste tenté d’inférer des pratiques sociales à partir d’artefacts techniques » (Rebillard, 2012, p. 259). « Nous pouvons suivre des flux énormes de données, mais ils ne deviennent compréhensibles que si nous savons ce que les phénomènes sous-jacents veulent dire » (Karpf, 2012, p. 655).

Plaidoyer pour les méthodes mixtes

Depuis l'avènement de ce que certains n'hésitent pas à appeler la « société hyperliée » (Turow, 2008), les connexions entre les acteurs incarnés dans les sites web sont explicitement visibles, ce qui offre aux chercheurs en sciences sociales de nombreux terrains d'étude inédits. Le bilan de plusieurs années de recherche en sciences sociales se frottant aux données numériques (Karpf, 2012), esquissé ici sous l'angle des études de liens hypertextes, n'a de cesse de dévoiler des périls méthodologiques. La collecte, le traitement et l'interprétation des liens ne vont pas de soi. Pourtant, l'accumulation des écueils et la façon dont les études citées ici tentent de les contourner montre aussi des pistes de solutions, relativement semblables malgré la grande diversité de sujets et de phénomènes étudiés. Les leçons se résument comme suit : il faut choisir l'échelle de phénomènes étudiés de façon à profiter du potentiel des données numériques sans tomber dans le piège des big data, recourir à des méthodes croisées, s'ancrer dans le contexte environnant — tant en ligne que hors ligne.

Certaines de ces recommandations rejoignent les conclusions des premiers bilans critiques d’environ quinze ans de recherche sur le journalisme en ligne (Steensen, 2011), qui

appellent à pallier les « déficiences méthodologiques » de la recherche à ce jour (qui repose uniquement, dénonce Steensen, sur des analyses de contenus, des enquêtes quantitatives ou des entretiens) en croisant ces méthodes entre elles, et en recourant à des méthodes qualitatives plus diverses (Steensen, 2011, p. 322).

Suivant la suggestion de Karpf (2012), qui tire les enseignements d'une décennie de recherche en sciences sociales « au temps d'internet », il s'agit dès lors d'adopter une double ligne de conduite : la transparence et le bricolage.

L'appel à la transparence vise spécifiquement la collecte et le traitement de données, dont les limites doivent être, plus que jamais, franchement exposées (Karpf, 2012, p. 652). Il s’agit pour le chercheur de « rester maître des procédures d’automatisation » (Rebillard, 2012, p. 259). Les dispositifs techniques et méthodologiques mis en place sont des systèmes de « compromis raisonnables, basés sur les limites d'un environnement de données compliqué, changeant et désordonné » (Karpf, 2012, p. 653). Chaque choix doit donc être explicité, de manière à rendre évident ce que chaque outil peut faire et ne peut pas faire.

Le bricolage, quant à lui, s'exprime dans la nécessité de combiner entre elles des parties de solutions efficaces à un problème — même si cet assemblage semble inélégant par rapport à l'utilisation « pure » de l'une ou l'autre méthode. Karpf plaide en particulier pour le rapprochement de traitement informatique et d'études de cas qualitatives (Karpf, 2012, p. 655), non pas par simple goût du mélange, mais parce que les limitations et forces de ces méthodes respectives peuvent s'équilibrer.

3. Ancrer l'étude des liens dans le contexte de production : approche

Dans le document L'usage journalistique des liens hypertextes. (Page 64-67)