Archiver, indexer et représenter le web - LE MOTEUR DE RECHERCHE WEB ET LES IMAGES

2. LE MOTEUR DE RECHERCHE WEB ET LES IMAGES

2.2 Archiver, indexer et représenter le web

Puisque n’importe quel internaute peut publier presque n’importe quoi de plus en plus facilement sur la Toile, le web se déploie comme un espace documentaire sans processus de sélection éditoriale préalable. Les pages web prolifèrent et composent une archive vivante, à la fois instable et en croissance constante. Pour contrebalancer cette instabilité, lorsqu’on effectue une requête dans un moteur de recherche, celui-ci ne cherche pas dans le web, mais dans son index. Afin de constituer le sien, Google envoie dans le web des programmes informatiques qui sont des robots (crawlers) faits pour ratisser le cyberespace sur une base régulière. Ces robots sont programmés pour « sauter » d’un hyperlien à l’autre afin d’arpenter et de saisir les pages

web pour les archiver dans ses bases de données. Cette phase d’exploration et de collecte précède les requêtes de repérage d’information subséquentes faites par l’utilisateur. Selon le site de Google, plus de trente milliards de pages individuelles sont archivées dans leurs bases de données en 2013. Chaque page est explorée et indexée selon des centaines d’éléments distincts afin d’en déduire le contenu, par exemple grâce à l’URL, le titre, la date de publication, la langue, les termes récurrents, la vitesse de téléchargement, etc. L’archive du web que constitue Google tend ainsi à équivaloir à son index. Ce dernier est une base de données possiblement plus densément hyperliée que le web puisque l’information collectée est découpée en différents modules informationnels codés qui permettent de lier les informations entre elles afin de les repérer.

Ce processus d’archivage et d’indexation accumule non seulement des reproductions qui forment une archive parallèle à la Toile – quoique toujours incomplète –, mais incarne également une remédiation du web dynamique en une archive interrogeable. L’index forme alors une sorte de remédiation du web : il est une archive remédiée en plus de se poser comme supérieur au web – sur lui en l’interprétant a posteriori. Pris dans son ensemble, cela semble donc être de l’ordre de la remédiation35_{plus que de la reproduction puisque le contenu, lorsqu’il est indexé, est} transformé par ce processus. D’ailleurs, selon Google, dans le cadre de maints débats sur les droits d’auteurs qui occupent ses représentants, Google Books ne serait pas une bibliothèque, mais seulement un index (Hillis, Petit et Jarret 2012 : 163). L’indexation plein texte et la recherche qui morcèlent les pages en changeraient le statut. Même si cet argument est tout à fait réfutable en ce qui a trait aux droits d’auteurs puisqu’il demeure possible de lire des ouvrages en entier, il exprime à tout le moins comment la recherche dans l’index est une recherche dans un web transformé. Déjà, dans l’Archéologie du savoir Michel Foucault (2008 [1969] : 179, emphase dans l’original) parlait de l’archive (pré-web) comme d’un « système général de la formation et de la transformation des énoncés ».

Ce déplacement et ce stockage du cyberespace dans les bases de données de Google, afin de faire fonctionner ses outils, entraînent la construction de complexes architecturaux dans l’espace physique, des édifices appelés des sites d’exploitation de données (data centers ou data farms) (fig. 12.1 et 12.2). Ces « fermes de données » sont les lieux où se constitue un pouvoir de

35_{Nous utilisons le terme de remédiation au sens où Jay David Bolter et Richard Grusin le théorisent dans leur}

domination. Elles occupent la fonction des centres de calcul dont parle Latour dans La science en action (1989), c’est-à-dire là où la connaissance s’accumule, là où les données collectées s’agrègent et se calculent. Google les présente sur son site comme les lieux physiques de l’internet : « Là où vit Internet »36. Le moteur supplée ainsi à l’entièreté du web, tout en replaçant ses données dans plusieurs architectures concrètes qui centralisent l’information. Cela ramène l’archive de Google à la définition originale d’une archive en tant que complexe architectural37. Derrida explique, dans Mal d’Archive (1995), que l’origine de la notion d’archive est également intimement liée aux lieux d’autorité et de commandement. Elle est le lieu d’une mémoire collective qui doit être gérée et interprétée. L’index de Google se pose alors comme un clone « amélioré » de la Toile, dessinant à la fois un nouveau graphe de son contenu, le faisant interagir autrement dans ses centres de données. L’idée que Google puisse être le tenant-lieu du web semble encore plus réelle lorsque les internautes disent chercher quelque chose « sur Google » plutôt que dans le web, via Google.

Au-delà de l’index qui tente de rassembler toute l’information du monde, une archive gigantesque doit être interrogeable et accessible afin d’être livrée aux utilisateurs. Une fois que les internautes se sont mis à croire que tout est accessible en ligne, la navigation basée sur l’intention a pris le dessus sur l’exploration. D’une part, on désire explorer et de l’autre, accéder. Il y a une grande différence entre chercher et trouver et la recherche motivée par l’intention permet surtout de trouver. Ce mode d’accès est satisfaisant, puisque lié « à la sensation d’accumulation » (Ippolita 2011 : 196), de même qu’à la gratification immédiate du désir. Les parcours riches et complexes qui sont inhérents à l’action de chercher avant de trouver sont toutefois beaucoup plus longs et le développement des nouvelles technologies nous rend de plus en plus intolérants à l’attente, si enrichissante puisse-elle être. Avec le moteur de recherche, l’accès a réellement remplacé la notion de propriété (Rifkin 2000) puisque le cybermoteur rend accessible des contenus qu’il ne possède pas38.

36_{« Where the internet lives. » Citation tirée du site de présentation des centres de données de Google, accessible au}

http://www.google.com/about/datacenters/gallery/#/, consulté le 4 janvier 2014.

37_{Cela va également à l’encontre de l’idée que les compagnies en ligne demandent peu de responsabilités}

matérielles. « As Google’s lawyer Dana Wagner says, “Competition is a click away.” Of course, that argument relies on the myth that Internet companies are weightless and virtual. It might be valid if Google were merely a collection of smart people and elegant computer code. Instead, Google is also a monumental collection of physical sites such as research labs, server farms, data networks and sales offices » (Vaidhyanathan 2011 : 19).

La sélection et la discrimination documentaires sont également redéfinies par la recherche numérique. Ces procédures étaient autrefois perçues comme indispensables par les archivistes en raison des limitations physiques de l’entreposage analogique. Dans le régime numérique, elles demeurent nécessaires, mais opèrent plutôt comme des filtres de façon à rendre possible la production de sens pour les chercheurs devant trop d’information disponible (Hillis, Petit et Jarret 2012 : 164). Afin de rendre accessible et compréhensible cette surcharge d’information, il faut donc non seulement l’ordonner, mais également la réduire le plus possible en la filtrant. Après la collection de données, la hiérarchisation des contenus et l’association des éléments entre eux par les algorithmes, le moteur est prêt à traiter la requête de l’utilisateur. La liste de résultats équivaut donc à l’étape de représentation où l’utilisateur entre en contact avec l’information cherchée39. Ce qui est visible, c’est-à-dire ce qui est représenté dans les résultats de la première page, tend à équivaloir à ce qui est vrai ou réel. Ce qu’on voit du web est ce que l’on en comprend. Conséquemment, il importe de se demander comment fonctionne cette sélection draconienne qui permet d’accéder plus rapidement aux contenus.

La censure sur les résultats effectuée par Google a fait scandale lorsque la compagnie a fondé une filiale en République populaire de Chine en 2005, là où le gouvernement exigeait une telle censure40_{. En plus de cet épisode médiatisé, les modifications manuelles dans les listes de} résultats de recherche font l’objet de plusieurs études portant sur le moteur de recherche. On apprend entre autres que Google, en souhaitant respecter les lois locales, efface les résultats de pages antisémites des versions françaises (Google.fr) et allemandes (Google.de) de son index, tandis qu’aux États-Unis ils demeurent aisément accessibles (Hinman 2008 : 74). Précisons également que les photographies de torture d’Abu Ghraib que reprennent les Googlegrams ont disparu des résultats du moteur de recherche d’images de Google pendant plusieurs mois sans explications en 2004 (Hinman 2008 : 74). Cette omission inexpliquée (par les représentants de Google) démontre que les résultats « organiques » de Google sont certainement manipulés sciemment. Lorsque de tels reproches leur sont adressés, les représentants de l’entreprise soutiennent que les résultats sont produits « automatiquement » par les algorithmes et qu’il ne

39_{Cette dernière étape peut d’ailleurs être complètement escamotée au profit d’une présentation immédiate,}

actualisant automatiquement la page du premier résultat, en appuyant sur le mystérieux bouton « J’ai de la chance ».

40_{Son retrait de ce même marché, supposément pour défendre les droits humains et la liberté d’expression, a}

peut donc pas y avoir de biais41 : « [i]ls sont idiots et cette idiotie est le meilleur garant de leur “neutralité” » (Cardon 2013b : 83). Ce que Google juge inopportun dans ses résultats peut toutefois être modifié grâce à une tournure mathématique dans les algorithmes afin que les résultats demeurent « automatiques ». En fait, ce n’est pas la censure directe sur le contenu qui semble être le plus grand pouvoir de Google, mais plutôt sa fonction de guide incomparable pour tant de gens sur tant de sujets. Le web se résume bien souvent pour les internautes à la représentation qu’en font les moteurs de recherche et c’est en partie ce que nous montrent les images assemblées dans les Googlegrams, en re-représentant des résultats de recherche. Les œuvres de Fontcuberta nous encouragent ainsi à nous attarder sur la manière dont ces procédures mathématiques se déroulant en coulisse agissent dans le web et sur notre conception de celui-ci.

Dans le document Déployer le réseau en images : les Googlegrams d'Abu Ghraib (Page 56-60)