• Aucun résultat trouvé

2. L’archivage du Web dans le monde

2.3. Des techniques de collecte diversifiées

Comme cela a déjà été évoqué, il existe plusieurs approches de collectes. Chaque institution adopte et adapte un modèle pour répondre à ses besoins, à sa politique documentaire ainsi qu’au cadre juridique qui encadre sa mission d’archivage. On compte trois

63 Annexe 2 : carte de la répartition des membres de l’IIPC.

64 ILLIEN Gildas, « Une histoire politique de l’archivage du web. Le consortium international pour la préservation de l’Internet », p. 65.

65 CHAIMBAULT Thomas, op. cit., p. 38. ;

https://cordis.europa.eu/project/rcn/43331/factsheet/fr

approches de collecte majeures et quelques autres plus rares et souvent complétées avec une des trois premières.

2.3.1. L’approche intégrale

L’approche intégrale représente un idéal de préservation patrimoniale pour les archives du Web. Avec ce type de collecte, on moissonne l’intégralité du Web sans le moindre regard sur l’origine du document ou du site, ni son intégrité ou encore sa qualité. Cela implique évidemment de ne pas prendre en considération la question du droit d’auteur ou de la protection des données personnelles au titre d’une vision patrimoniale du Web66.

Seul Internet Archive pratique l’approche intégrale. Avec l’application du opt-out, il peut collecter l’ensemble du Web mondial. Si un ayant-droit se manifeste, les éléments collectés sont simplement retirés de l’accès public en ligne mais toujours conservés dans leurs archives.

2.3.2. L’exhaustivité automatisée

L’approche exhaustive permet de collecter en appliquant quelques critères de sélection.

La plupart du temps, il s’agit d’une restriction des noms de domaines pour ne collecter que le Web national. En restreignant ainsi le périmètre de collecte, on peut s’assurer la collecte d’un volume assez important d’URL. Du fait de ce volume, l’automatisation est majoritairement privilégiée, plutôt qu’une collecte manuelle ou semi-automatisée. Cela permet de limiter le coût de la procédure ainsi que sa durée, le crawler étant bien plus rapide.

Le programme KulturarW3 suédois a choisi cette approche. Il peut ainsi moissonner l’intégralité des noms de domaine en .se et ceux édités sur le territoire et ainsi couvrir une grande partie du Web national. La Finlande applique elle aussi cette approche mais va plus loin dans la restriction du périmètre. Elle ne collecte que le domaine national en .fi et ignore les .com par exemple. Un faible échantillon des autres domaines est malgré tout collecté à travers les liens capturés lors du moissonnage, comme les vidéos, les images, les publications liées, etc67.

66 CHAIMBAULT Thomas, op. cit., p. 26. ; GHARSALLAH Mehdi, op. cit., p. 6.

67 CHAIMBAULT Thomas, op. cit., p. 26. ; SCHAFER Valérie, MUSIANI Francesca, BORELLI Marguerite, op. cit., p. 138.

2.3.3. L’échantillonnage semi-automatisé

L’approche par échantillonnage semi-automatisé permet une plus grande finesse dans le résultat final de la collecte. Une pré-sélection de sites à collecter, jugés intéressants pour leur contenu, leur qualité ou encore leur représentativité, est établie par des bibliothécaires.

Cette liste est ensuite collectée automatiquement par le crawler, à intervalles fréquents.

Le projet PANDORA de la Bibliothèque nationale d’Australie est un bon exemple de la mise en pratique de cette approche, avec un protocole bien défini. Le contenu et la structure d’un site sont évalués en amont et si le site est sélectionné, une demande de permission de collecte est envoyée à l’éditeur de la publication. Une fois l’accord donné, la publication est cataloguée dans la base de données de la Bibliothèque nationale d’Australie, notamment pour créer un lien hypertexte afin d’en assurer l’accès. Une requête est ensuite envoyée pour lancer la collecte par le crawler. Une fois le site collecté, on vérifie manuellement si l’archive est conforme au site en ligne pour s’assurer que toutes les pages et informations ont été capturées. Un rapport de vérification est transmis, soit pour confirmer que l’archive est une copie conforme, soit pour signaler les erreurs à corriger. Une fois l’archive validée, on établit une page d’entrée dans le catalogue pour la page archivée et on lui attribue une PURL, Persistent Uniform Ressource Locator, qui assure une meilleure stabilité qu’une URL car elle suit les changements d’adresse URL éventuels, ce qui évite les erreurs 404, entre autres.

Enfin, pour assurer la pérennité de ces archives, on fait une vérification périodique pour vérifier l’état de l’archive et la comparer avec le site encore en ligne et compléter éventuellement s’il y a eu des modifications68.

2.3.4. Autres approches

Il existe d’autres approches que celles précédemment évoquées. Elles sont plus minoritaires car bien souvent elles ne collectent qu’un périmètre très restreint. On parle alors d’approche thématique et d’approche disciplinaire.

L’approche thématique s’inscrit généralement dans une démarche exceptionnelle. Elle concerne une collecte en lien avec un événement particulier par exemple.

Il s’agit alors de faire une sélection de sites s’y rapportant pour constituer une archive plus précise et détaillée autour de cet événement qui aura sans doute été survolé, voir ignoré lors de la collecte exhaustive. La BnF réalise des collectes thématiques à l’occasion des élections nationales par exemple.

L’approche disciplinaire, quant à elle, permet de se concentrer sur une discipline en particulier. La plupart du temps, elle est employée par les institutions universitaires ou de

68 GHARSALLAH Mehdi, op. cit. p 6.

recherche qui réalisent des archives autour de leur domaine. Par exemple, l’université de Heidelberg en Allemagne collecte les sites en rapport avec les études chinoises avec son projet DACHS, Digital Archives for Chines Study. Le projet néerlandais ARCHIPOL s’intéresse de son côté à la politique69.

En pratique, la plupart des programmes d’archivage du Web à l’échelle nationale combine plusieurs approches afin de couvrir le maximum de surface du Web national. La BnF par exemple pratique l’exhaustivité pour sa collecte large annuelle et réalise des collectes sélectives régulières pour approfondir ses collections, tout comme elle réalise des collectes thématiques. La mise en relation des différents programmes à travers le monde a permis de partager toutes ces approches, leurs avantages et leurs inconvénients, pour que chacun puisse affiner son protocole au sein de son propre programme. Cette coopération mondiale a permis à la France de développer progressivement ses procédures de collecte pour être opérationnelle dès la promulgation de la loi DADVSI.

3. L’archivage du Web en France, une répartition