• Aucun résultat trouvé

UNE INSTRUMENTATION NUMÉRIQUE DES SCIENCES SOCIALES

2. Les obstacles des « méthodes numériques »

que l’on tente d’institutionnaliser et d’exporter le plus largement possible via la littérature scientifique et de vulgarisation ainsi que par la formation.

2. Les obstacles des « méthodes numériques »

Parallèlement au fort enthousiasme suscité par la possibilité de traiter des « données sociales massives », aux fondements du programme des « méthodes numériques », on constate une volonté de plus en plus importante de la part de certains praticiens à faire preuve de réflexivité vis-à-vis de leurs propres pratiques. Pour ceux-là, les nouvelles sources de données, les nouveaux terrains et outils apportés par les technologies numériques et l’internet réclament une certaine prudence et une certaine modération dans leur emploi par les chercheurs, et les méthodes qui permettent de s’en saisir requièrent une certaine exigence pour parvenir à des résultats pertinents et en phase avec la culture des SHS. En périphérie d’un discours purement promotionnel visant à asseoir la suprématie des « méthodes numériques » se déploie un discours d’accompagnement réflexif et critique dans lequel les acteurs engagés dans le développement de ces nouvelles pratiques tentent de pondérer leurs effets épistémologiques supposés, de définir leurs limites et de pointer leurs écueils.

Néanmoins, là où les acteurs, des plus optimistes aux plus sceptiques, voient des « malentendus » (Venturini, Cardon et Cointet, 2014), des « limites » (Rebillard, 2011), des « challenges » (Rieder et Röhle, 2012), des « provocations » (Boyd et Crawford, 2011) ou de simples enjeux de « redistribution des méthodes » (Marres, 2012 ; Marres et Weltevrede, 2013), nous voyons plutôt des « leurres » ou des « obstacles », pour reprendre un terme de Gaston Bachelard (Bachelard, 1938), qui risquent de nous détourner d’une réflexion épistémologique de fond. Nous en discernons au moins trois qu’il convient d’explorer avec attention : la question de la « traçabilité sociale » qui renvoie au statut épistémique des « traces numériques » comme matériau empirique, la question de la quantification et ses promesses de positivité, la question de l’instrumentation technique comme support d’objectivité.

2.1. Traçabilité et empirisme

La première problématique, et sans doute la plus fondamentale, à laquelle les « méthodes numériques » sont confrontées concerne le statut incertain des « traces numériques » elles-mêmes. La plupart des chercheurs qui s’intéressent à l’exploitation de ce nouveau type de « matériau » dans le cadre des sciences sociales se voient, en premier lieu, contraints de répondre à un ensemble de

questionnements liés à la représentativité et à l’arraisonnement des données numériques prélevées sur l’internet : à quelles réalités renvoient ces données ? Dans quelle mesure peut-on les considérer comme représentatives de la réalité des pratiques sociales ? Les données numériques sont-elles le reflet du social et permettent-elles d’objectiver, voire de prédire, des comportements socioculturels ? De plus en plus de praticiens des « méthodes numériques » cherchent à se prémunir des promesses du « big data » et, en veillant à ne pas tomber dans leur écueil, s’accordent à reconnaître que le caractère « massif » des données disponibles n’est pas synonyme d’exhaustivité. Ainsi, il ne faut pas céder à la prétention à « substituer le volume des données à la représentativité de leur échantillonnage » (Venturini, Cardon et Cointet, 2014 : 11). Le volume et l’impression d’une accessibilité directe aux données sont des leurres qui peuvent facilement conduire à des abus :

« On voit ici les apports résidant dans les capacités de réaliser des analyses à grande échelle et, en même temps, les limites consistant dans bien des cas à inférer des pratiques sociales à partir de simples agrégats statistiques construits directement à partir du web. » (Rebillard, 2011 : 359)

Les données numériques, malgré leur abondance et leur dimension, sont un miroir illusoire de la réalité sociale dans le sens où elles seraient, tout au plus, représentatives de certains aspects des « usages » des différents médias où on les trouve. Elles sont toujours, en quelque sorte, insuffisantes à décrire l’état de la société. Pour compenser cette insuffisance probante des données numériques, liée à leur non-représentativité et à leur caractère situé, les praticiens méthodologues estiment notamment que pour que leur exploitation soit féconde, du point de vue des sciences sociales, il y a une nécessité à les croiser avec des données issues de méthodes plus traditionnelles, c’est-à-dire fondées selon un principe d’échantillonnage rigoureux, de type enquête par questionnaire (Boyadjian, 2014). De façon de plus en plus univoque, les acteurs des « méthodes numériques » considèrent que les données prélevées sur les réseaux doivent faire l’objet d’un travail primordial d’arraisonnement et de pondération si l’on veut pouvoir en tirer des conclusions de portée générale sur les pratiques sociales, au delà de la simple description des activités des utilisateurs d’un site web.

Une autre incertitude problématique liée à l’utilisation des données numériques concerne leurs conditions de production. En effet, ces données n’étant pas initialement élaborées dans le cadre précis d’une enquête sociologique et n’étant pas exclusivement destinées à la recherche, elles ne bénéficient pas du contrôle préalable de l’enquêteur qui y a recours et leur exploitation réclame une importante vigilance quant à la manière dont elles ont été produites et diffusées. Les praticiens avisés des « méthodes numériques » insistent ainsi fréquemment sur la difficulté d’un travail préliminaire consistant à rendre ces données aptes à être employées dans l’optique d’une recherche scientifique, une démarche jugée indispensable qu’ils comparent à une opération de « nettoyage » : « les données sont souvent sales et leurs catégorisations fragiles » (Venturini, Cardon et Cointet, 2014 : 14). Les

acteurs appellent donc à adopter une approche pragmatique et déontologique qui consiste à reconnaître le caractère construit des données numériques telles qu’on les trouve sur l’internet et à élucider les processus qui président à cette construction : par qui, pour qui, comment et selon quel projet ont-elles été produites ?

« Les données sont là, disponibles et copieuses comme elles ne l’ont jamais été [...], mais avant de les exploiter il faut se poser et leur poser toutes sortes de questions. [...] encore faut-il chercher à savoir comment ces données ont été constituées et saisir les raisons de leur divulgation. » (Venturini, 2012b)

Il s’agit de composer avec la nature « artificielle » des données numériques, au sens où elles résultent toujours d’un ensemble complexes d’« artefacts » que constituent les procédures techniques mais aussi stratégiques qui autorisent leur fabrication. Or, ces modalités de production et de diffusion sur lesquelles le chercheur a peu de prises sont la plupart du temps floues, voire opaques. On a généralement affaire à des données « boîtes noires », c’est-à-dire dont l’artefacture est incertaine ou masquée. Dès lors, ne pas tenir compte de cette incertitude inhérente aux données numériques prélevées sur les réseaux et omettre de s’interroger sur les effets de leur construction sur le donné à voir des réalités sociales dont elles sont censées être la résultante peut mener à des biais interprétatifs majeurs. C’est ce que Franck Rebillard reproche, par exemple, à des enquêtes menées par des chercheurs sur la base de catégories fournies par des sites web, comme les « trending topics » du site de réseautage social Twitter :

« Il faut donc bien comprendre que la catégorisation en trending topics effectuée par Twitter est reprise telle quelle par les chercheurs. Ces derniers n’interrogent pas véritablement les critères d’élaboration de cette catégorie, se contentant de supposer qu’elle est vraisemblablement fondée sur une analyse de fréquence des occurrences verbales au sein des tweets. Ils interrogent encore moins la qualité de la classification opérée par Twitter, la jugeant digne de confiance et la reprenant donc à leur propre compte. […] l’intervention des chercheurs se trouve reléguée au traitement de données, sur la base de catégories et de mesures réalisées par des tiers, très peu interrogées et pas contrôlées du tout. » (Rebillard, 2011 : 365-366)

Nous souscrivons pleinement à cette démarche pragmatique et aux avertissements et recommandations qui en résultent. Toutefois, malgré cette posture réflexive qui s’inscrit dans une critique du « big data » et invite à faire preuve de vigilance et de rigueur dans une exploitation scientifique des données numériques, il nous semble que le fait de considérer ces données comme des « traces de pratiques » pouvant constituer un nouveau matériau empirique pour les sciences sociales demeure problématique en soi. La notion de « trace », abondement employée par les acteurs des « méthodes numériques » pour désigner les objets à la base de leur projet, ne serait-elle pas elle-même une projection a posteriori sur des réalités dont la nature reste peut-être encore à

définir ? Le risque de la notion de « trace » c’est peut-être de confondre la valeur heuristique des concepts mobilisés pour décrire et penser les objets numériques avec la nature ontologique de ces objets. Il convient d’interroger leur « empiricité » : les « traces » numériques peuvent-elles constituer la base d’une connaissance empirique du social ?

Ce que les acteurs des « méthodes numériques » qualifient communément de « trace numérique » se présente comme une « unité automatiquement enregistrée suite à la réalisation d’une action informatisée » (Flon et al., 2009 : 182). Les « traces numériques » se distingueraient des « données » par le caractère « non-intentionnel » de leur production. On distingue ainsi communément les informations communiquées directement par les utilisateurs – informations personnelles délivrées lors de la création d’un profil et contenus créés ou seulement partagés par les utilisateurs – et les informations d’utilisation ou d’activité automatiquement collectées, c’est-à-dire non délibérément produites par l’utilisateur, telles que le temps passé sur un site, les contenus consultés ou les liens hypertextes actionnés, par exemple. D’après la définition de Cléo Collomb :

« Il y a trace numérique dans la mesure où toute action dans un environnement informatisé est aussi une interaction avec des machines. Toute action volontaire comme écrire un courrier électronique, naviguer sur le web ou préparer un diaporama se fait sur un support numérique et avec des outils numériques, elle est médiée par un système technique, “par l’interposition d’un programme informatique” (Bouchardon, 2014). Elle passe par un codage qui en rend certains aspects manipulables. Autrement dit, les activités dont la forme est socialement partageable (poster un commentaire, partager une photographie, enregistrer un son, etc.) se doublent “toujours d’un code traductible en données calculables” (Jeanneret, 2011 : 68). Ainsi, un nombre croissant d’activités laisse des traces – numériques – car “l’informatique exige que les objets et les actes passent par l’inscription pour exister” (ibid). […] Les traces numériques sont donc ces inscriptions qui doublent toujours les activités ayant lieu dans des environnements informatisés parce que ces activités sont des interactions avec des machines computationnelles. » (Collomb, 2016 : 15-16)

Cléo Collomb insiste sur le fait que ce que l’on désigne comme des « traces » doit d’abord être considéré comme un ensemble d’inscriptions réalisées par l’interaction d’un agent humain et d’un programme informatique qui « double », selon des modalités spécifiques, des activités d’utilisation dans un média informatisé et qu’on ne peut donc pas réduire la logique de production de ces « traces » à une logique de « translation » :

« Il est important de noter que ces traces numériques doublent l’activité dans des environnements informatisés. Nous sommes dans une logique de supplément, non de translation – cette dernière véhiculant une conception naturalisante de la trace numérique, comme c’est le cas dans certains discours qui accompagnent le big data ou les digital humanities, laissant supposer qu’il suffirait de déployer un gigantesque dispositif de collecte de traces pour parvenir à produire des « représentations vraiment représentatives » du réel (Jeanneret, 2011 : 65). » (Collomb, 2016 : 23-24)

C’est justement cette conception naturalisante de la « trace », suggérant une « contiguïté physique entre ce qu’un individu fait avec un ordinateur et ce qui se retrouve dans une base de données » (ibid : 21), qui pose problème dans le cadre du projet des « méthodes numériques » et qui nous apparaît comme un obstacle en soi.

D’un point de vue sémiotique, les « traces » telles qu’elles sont envisagées dans le cadre de la justification des « méthodes numériques », appartiennent à la catégorie de l’indice qui est, selon Peirce, « un signe qui renvoie à l’objet qu’il dénote parce qu’il est réellement affecté par cet objet » (Peirce, 1978 : 140). L’indicialité correspond à un rapport de contiguïté très fort entre le signe et la chose qu’il désigne et qui peut être considéré comme le degré zéro de la signification puisqu’elle semble, dans ces termes, échapper à toute pratique interprétative. Le processus d’interprétation étant ici réduit au simple fait de reconnaître l’évidence de la chose dans sa manifestation physique comme trace. Cette conception de la trace comme indice s’inscrit dans une certaine idée du « neutre » (Barthes, 2002), car elle efface la question des énonciations, du caractère motivé et donc situé, subjectif (qui renvoie à un sujet conscient), de la production et de la réception du signe. Il y a ainsi une ambigüité inhérente à cette conception indicielle de trace qui est à la fois un signe, un substitut, quelque chose qui renvoie à autre chose, et qui, en même temps, déjoue les signes puisqu’elle semble s’imposer d’elle-même, puisqu’elle semble « se donner ». Il y a une valeur à la fois causale, monosémique et épiphanique (Jeanneret, 2011) de la trace comme indice, qui s’offrirait au sujet comme la marque évidente d’un phénomène passé dont elle porte le témoignage et qui ne comprendrait qu’une signification unique et non ambiguë. C’est sur cette évidence prétendue que les défenseurs du projet des « méthodes numériques » fondent leur conception naturalisante des « traces numériques » qui leur permet finalement de légitimer une approche empirique basée sur leur exploitation.

Néanmoins, il est possible d’outrepasser cette évidence de la trace en la réinscrivant dans des logiques communicationnelles. Replacer la trace dans le champ de la communication peut paraître paradoxal car la trace, considérée comme indice non motivé, paraît échapper au communicationnel, dans le sens où elle ne procèderait pas d’une intention de communication. Pourtant, elle n’est pas pour autant complètement détachée de la question du sens et de l’interprétation. Nous sommes invités à considérer qu’elle porte malgré tout un message à interpréter. Considérer une trace c’est bien toujours y chercher le signe de quelque chose. Autrement dit, comme tout signe, le sens que l’on attribue à une trace dépend de la mise en rapport entre un fait qu’elle convoque et les modalités de sa réception et de son interprétation (Galinon-Mélénec, 2011). La trace, quoi qu’on en dise, n’échappe pas à la semiosis124, notamment dans l’optique de son exploitation, qui revient à projeter

124 « La sémiosis est l’opération qui, en instaurant une relation de présupposition réciproque entre la forme de l’expression et celle du contenu (dans la terminologie de L. Hjelmslev) – ou entre le signifiant et le signifié (F.

sur elle une interprétation qui la dépasse toujours, en quelque sorte. Dans une perspective communicationnelle, attachée aux « traces numériques » en particulier, il convient de se demander de qui et de quoi ces traces sont-elles la trace et surtout qu’est-ce qui les fait advenir comme traces ? Nous suivons ici le programme d’Yves Jeanneret pour qui « la déconstruction de l’évidence de la trace met en évidence des médiations nécessaires pour passer de pratiques d’écriture et d’inscription multiples à une représentation de ce qu’est un contenu informationnel, une identité sociale, un usage culturel » (Jeanneret, 2013 : 237). Les objets « traces » dont nous parlons ici sont finalement assez éloignés des phénomènes indiciels, mais ils sont de l’ordre d’une construction culturelle qui relève d’une élaboration documentaire : documentation, médiatisation, archivage, profilage, etc. Il convient d’insister sur le fait que ce qui s’impose souvent dans les discours comme des « traces indices », sont en fait des « inscriptions », qu’elles soient intentionnelles ou non. Ce sont des objets sémiotiques, conceptuellement et matériellement, qui relèvent de logiques sociales et culturelles liées à des pratiques d’écriture. La « trace numérique » est donc toujours « prise entre logistique et sémiotique » (ibid) : elle est d’abord le résultat de procédures techniques, computationnelles, souvent automatiques et silencieuses, mais elle procède aussi de processus scripturaux de mise en signe (écriture) et elle est enfin soumise à des opérations symboliques d’interprétation. Si des traces sont collectées de manière automatique, elles sont aussi traitées, c’est-à-dire matérialisées dans un espace qui leur donne sens, les organise, leur assigne une place, et les inscrit dans un projet interprétatif. Il y a donc un problème à considérer les données récoltées sur les réseaux comme des « traces de pratiques sociales » sans interroger les conditions qui les font advenir comme objets « traçables » et « traitables », et il convient d’adopter une définition de la trace qui prenne en compte les médiations à la fois logistiques et sémiotiques qui font advenir certaines productions communicationnelles comme traces d’identité, traces d’usages ou traces de phénomènes sociaux. Ce sont ces logiques complexes de médiations qui font des « traces numériques » des « données » à interpréter, qui les reconvertissent dans le spectacle d’une identité, d’un comportement social, d’un « fragment d’existence quotidienne » (Collomb, 2016 : 149).

Le caractère prétendument indiciel des « traces numériques », aux fondements du projet des « méthodes numériques », renvoie à l’idée selon laquelle, avec elles, on accède à plus d’empirisme : on récolterait des attitudes spontanées en se débarrassant des biais des méthodes d’enquêtes traditionnelles basées sur l’échantillonnage et la parole rapportée. Certains observateurs sceptiques craignent, corrélativement à cette primauté accordée à l’empirisme, un recul du travail interprétatif qui fait la singularité et la valeur des SHS :

Saussure) – produit des signes » (Greimas et Courtés, 1993 : 339). Elle est la relation fondamentale qui unit les deux faces du signe et permet l’opération de signification, mais est aussi indissociable d’un parcours interprétatif (Rastier, 2001).

« Une large partie des usages d’Internet a pour particularité de laisser des traces publiques (liens, statuts, commentaires, contenus produits par les utilisateurs, etc.) permettant d’objectiver les pratiques. Exploiter ce type de données est sans aucun doute utile, mais penser pouvoir analyser les usages sociaux de ces dispositifs techniques en utilisant pour l’essentiel ce type de matériaux peut assez vite faire chavirer la recherche dans l’empirisme. Le fait de pouvoir rendre visibles des interactions et des relations réticulées qui jusqu’alors étaient moins directement et plus difficilement objectivables tend à faciliter l’instauration d’un rapport de transparence au terrain et à dévaloriser le travail d’interprétation. » (Granjon, 2014 : 127)

Les « traces numériques » conduisent à un retour de l’idéal scientifique d’une observation directe et totale du monde. Or, l’empirisme invoqué par la notion de « trace » et qui sert souvent de levier aux promoteurs des « méthodes numériques » pour affirmer la scientificité de leur démarche nous semble en réalité relever de l’« obstacle épistémologique », au sens de Gaston Bachelard. La thèse phénoménologique antiréaliste que le philosophe soutient s’oppose à un « empirisme naïf », considéré comme le premier obstacle qui s’impose à l’esprit scientifique. Rappelons que pour Gaston Bachelard, l’évolution d’un esprit préscientifique vers un esprit scientifique consiste en un arrachement à l’expérience sensible et immédiate du monde pour aller vers une abstraction toujours plus importante de la connaissance, en particulier permise par l’intermédiaire des mathématiques.

« […] pourquoi n’accepterions nous pas de poser l’abstraction comme la démarche normale et féconde de l’esprit scientifiques. En fait, si l’on médite sur l’évolution de l’esprit scientifique on décèle bien vite un élan qui va du géométrique plus ou moins visuel à l’abstraction complète. […] Nous nous proposons, dans ce livre, de montrer ce destin grandiose de la pensée scientifique abstraite. Pour cela, nous devrons prouver que pensée abstraite n’est pas synonyme de mauvaise conscience scientifique, comme semble l’impliquer l’accusation banale. Il nous faudra prouver que l’abstraction débarrasse l’esprit, qu’elle allège l’esprit, qu’elle le dynamise. […] nous n’hésiterons pas à employer parfois un ton polémique en insistant sur le caractère

d’obstacle présenté par l’expérience soi-disant concrète et réelle, soi-disant naturelle et

immédiate. » (Bachelard, 2011 : 8-9)

Paradoxalement, la connaissance empirique accède à la scientificité lorsqu’elle assume de s’abstraire de l’expérience immédiate du réel, lorsqu’elle accepte de passer de la contemplation naïve des « faits » primitifs à l’expérimentation informée des phénomènes. Il s’agit donc de s’opposer aux « prétentions des esprits “concrets” qui croient saisir immédiatement le donné » (ibid : 14). L’esprit, pour devenir scientifique, doit d’abord se débarrasser des postulats, des affects, des mentalités et il