• Aucun résultat trouvé

Le Web est un flux grandissant d’information tout autant qu’un terri- toire en perpétuelle expansion. Par l’action des crawlers, les archives Web sont arrachées à la temporalité continue du Web vivant pour re- joindre celle figée et discrétisée des corpus collectés (Section 3.1). Les archives, malheureusement, ne peuvent revenir au temps du Web vi- vant, mais, grâce au fragment Web, nous pouvons les faire basculer dans la temporalité du Web tel qu’il a été. Temporalité que nous allons essayer de caractériser ci-dessous.

avions visualisé, dans le temps, la répartition des pages archivées de la section forum du site yabiladi.com, et ce, par rapport à leurs seules dates de téléchargement (Figure 3.16). Maintenant, essayons plutôt de nous focaliser sur les dates d’édition des fragments Web de chacune de ces pages et tentons une comparaison.

Faute de ne pas avoir encore défini clairement la nature d’un frag- ment Web, nous nous contenterons ici de l’approximation suivante : chaque post (un message individuel) publié sur le forum de yabiladi.com sera considéré comme fragment de la page dont il dépend. Un post est écrit par un unique auteur (identifié comme tel) et associé à une date d’édition (Figure 4.6).

D’un point de vue pratique, nous procédons à une extraction focalisée11 11. Cette extraction de données n’est

donc pas générique, voir la Section 4.3

pour une approche plus générale. dans nos archives, afin de ne conserver que les dates d’édition des posts collectés. Ces dernières peuvent être facilement identifiées dans le code des pages Web par un nœud HTML unique, par exemple :

<div class="com-date">17 Novembre 2009</div>

Aussi, nous modifions notre moteur d’exploration au niveau de la jointure entre données et méta-données DAFF (Figure 3.7) et ajoutons un traitement permettant d’extraire les dates d’édition.

date de téléchargement 10000 - 20000 - 30000 - no m b re d e p ag es a rc hi vé es 2008 2010 2012 2014 2006 2004

Figure 4.8: Distribution, pour yabi- ladi.com, du nombre de pages et de fragments archivés par jours et sui- vant leurs dates de téléchargement (bleu) et d’édition (rouge) respectives

Nous construisons ensuite un index dédié dans Solr. Ne reste plus alors qu’à visualiser les deux distributions côte à côte : d’une part la

répartition des pages par date de téléchargement (Figure 4.8, bleu) et d’autre part la répartition des fragments correspondants par date d’édition (Figure 4.8, rouge). Cette dernière (rouge) semble gommer l’artéfact de crawl précédemment observé sur l’année 2013 (bleu). La distribution des fragments est homogène et ne souffre d’aucune cécité remarquable. Détachée de l’influence du crawler, elle n’en subit plus les effets.

Par ailleurs, nos archives Web semblent chargées d’une mémoire plus étendue que celle initialement prévue. Ainsi, partant d’une collecte débutée en Mars 2010, nous voilà maintenant capables de considérer et d’analyser des fragments Web édités 7 années plus tôt, jusqu’en 2003 pour les plus anciens. Les pages archivées contiennent, en elles-mêmes, les traces sédimentaires de publications antérieures.

Par l’extraction et l’étude des fragments Web, nous nous donnons les moyens d’un saut dans le passé considérable. Ces fragments sont potentiellement porteurs d’une mémoire préexistante à chaque collecte et dont nous pouvons dater avec précision l’apparition. En désagrégeant les archives Web, en les fragmentant, nous changeons une nouvelle fois de temporalité pour entrer dans le temps du Web tel qu’il a été. Là ou le temps des archives était figé et fait de séries de captures discrètes d’une même page, le temps du Web tel qu’il a été est un temps fragmenté, c’est-à-dire un temps éclaté, où chaque fragment se voit défini relativement par rapport à lui même.

Nos expérimentations pratiques ne portent que sur les seules dates d’édition. Mais, dans le temps du Web tel qu’il a été, chaque fragment Web suit sa propre temporalité, détachée de celle des autres. Une ligne allant de son apparition sur le Web (date d’édition) jusqu’à sa possible disparition de la toile. Isolées les unes des autres, c’est à l’explorateur d’archives que revient le rôle de naviguer entre ces lignes de temps éclatées. L’explorateur sélectionne, découpe et assemble des fragments pour construire ce que l’anthropologue T. Ingold nomme un trajet, support de nos explorations à venir :

« Dans le cas du trajet, en revanche, on s’engage dans une voie qu’on a déjà explorée avec d’autres, ou qui a été ex- plorée par d’autres, en reconstruisant l’itinéraire au fur et à mesure de sa progression. » — (Ingold et Renaut, 2013, p.26)

Un trajet est fait de détours, de contours et de bifurcations. À mesure qu’il se conçoit, le trajet se développe et s’inscrit dans le temps. Suivant le cours de son analyse, c’est par le montage que le chercheur chemine d’un fragment Web à l’autre, dans le sens et l’ordre qu’il juge perti- nent. En conjuguant les multiples lignes de temps il s’affranchit ainsi des formes classiques et linéaires d’accès aux archives Web. Ouvrant la voie à de nouveaux degrés de liberté, les fragments pourront être

associés sur la base d’un lien hypertexte partagé, d’une présence sur la même page à un instant donné, d’une filiation commune, etc. Ces trajets entre fragments deviennent sous la plume de J. Bashet des lignes processuelles(Baschet, 2018, p.227). L’historien cherche, ce faisant, à rompre avec une vision linéaire de l’histoire dont il faudrait faire éclater la continuité :

« En effet, il ne s’agit en aucun cas de penser l’Histoire tout entière comme un seul processus unifié, mais de saisir, dans l’histoire, un entrelacement complexe de multiples processus. » — (Baschet, 2018, p.227)

En suivant le devenir historique de multiples lignes processuelles, l’écri- ture de l’histoire revient à raisonner autour de moments singuliers où convergent et se croisent temporalités et processus hétérogènes :

« Et on proposera plutôt d’explorer diverses manières de penser l’événement - le surgissement, le nouveau, la rupture mais aussi l’imprévu, l’imprévisible, l’improbable - à partir d’une pensée des processus. Ainsi, outre qu’elle peut naître ou disparaître, une ligne processuelle connaît par elle-même des variations de rythme et des moments singuliers de concentration ou d’expansion des forces à l’œuvre : l’événement tient alors à une étape particulière de maturation ou correspond, peut-être à un seuil d’ébullition ou de cristallisation. » — (Baschet, 2018, p.227-228)

Avec le passage de la page au fragment, nous basculons d’une unité d’exploration à l’autre. Le fragment Web nous invite à un changement d’échelle temporelle et spatiale dans le rapport que nous entretenons aux archives Web. Situé entre la page et l’élément Web, le fragment peut contenir en lui la trace du Web tel qu’il a été : une mémoire jusqu’ici retenue dans les fichiers archivés. Le chercheur associe alors un à un les fragments qu’il juge pertinents et conduit, chemin faisant, son exploration pour saisir l’histoire du Web et ses cristallisations autour de moments singuliers.

Dans notre méthodologie, la place du chercheur est donc centrale. C’est lui qui, par ses choix de montage (basés sur sa propre expertise ou sur des indices qu’il aura recueilli en amont) définit les fragments Web à explorer et la manière de les parcourir. Il peut, dans cette tâche, se faire aider de scripts informatiques pour automatiser certains traitements. Le fragment Web doit ainsi être interprétable par une machine : un programme pourra l’analyser, le manipuler, le stocker, etc. Mais le fragment doit aussi rester compréhensible, en lui même, afin d’être étudié par un chercheur (sociologue, historien. . .). Nous discuterons, en Section 4.3, de l’implication ou non du chercheur dans le choix même de la forme des fragments Web. Nous donnerons, enfin, dans le Chapitre 5, deux exemples d’explorations désagrégées de nos corpus et basées sur le fragment Web.

4.2

Le fragment Web : définition

La définition suivante est intentionnellement générique. Nous souhai- tons par là que d’autres chercheurs puissent se saisir après nous du fragment Web12

. Par ailleurs, la nature des fragments dépendant beau- 12. Notons que le fragment Web ne doit pas être confondu avec la notion de fragments d’URL (https://en.wikipedia.org/wiki/ Fragment_identifier).

coup du contexte de l’analyse et de la sensibilité propre à chaque chercheur, soit qu’il voudra une fragmentation plus ou moins englo- bante, soit qu’il se satisfera d’éléments abstrait, nous ne donnerons pas ici de définition technique précise du fragment. Nous proposerons, dans la Section 4.3, notre propre système d’extraction des fragments Web depuis une page archivée, d’autres approches et stratégies peuvent naturellement exister.

Considérant la page web comme unité de consultation de base du World Wide Web, bâtie sur des modalités d’écriture propre au support numérique et constatant que du point de vue de la perception humaine (Bernard, 2003; Michailidou et al., 2008) une page web est le résultat de l’agencement logique d’éléments sémantiques distincts, nous nommons fragment Web un sous- ensemble sémantique et syntaxique d’une page Web donnée et vérifiant les propriétés suivantes :

1. Il y a une relation d’échelle entre une page Web et ses fragments Web. Ceux-ci peuvent couvrir l’entièreté de la page ou n’être qu’un élément unitaire de cette dernière.

2. Un fragment Web est un assemblage cohérent d’éléments textuels, visuels, sonores ou logiciels extraits d’une page Web. Le fragment Web doit ainsi être compréhensible par lui même.

3. Au sein d’une même page Web, deux fragments Web ne peuvent pas se superposer, même partiellement.

4. Certains éléments d’un fragment Web peuvent faire l’objet d’une catégori- sation lors de l’extraction. Un fragment Web peut ainsi être associé à un titre, à un auteur, à une date d’édition, etc.

5. Le fragment Web capture l’ensemble des dispositifs d’écriture (nœuds HTML, widgets de CMS, éditeurs de texte. . .) et de partage (liens hyper- textes, liens de syndication, liens de publications. . .) utilisés pour publier son contenu sur le Web.

4.3

Scraping et méthodologie d’extraction