Principes de structuration - Les sources du Mont Saint-Michel

Les sources du Mont Saint-Michel

10.1 Principes de structuration

10.1.1 Identification des fragments

Être en mesure de nommer les éléments constitutifs des textes manipulés de manière univoque est fondamental de plusieurs points de vue.

Tout d’abord éditorialement, il est capital, comme nous l’avons déjà évoqué, de pouvoir faire référence précisément aux textes. C’est particulièrement le cas dans le domaine de l’édition de sources anciennes, puisque les chercheurs doivent pouvoir pointer un passage précis, parfois une ligne d’un texte.

Ensuite, techniquement, pour construire des dispositifs eﬃcaces, qu’il s’agisse d’outils de lecture ou de recherche, il est nécessaire de pouvoir manipuler les textes avec un niveau de précision adapté et avec un degré de certitude absolu.

L’attribution d’un identifiant unique à chaque fragment distingué lors du pro-cessus de structuration, quel que soit son niveau, éditorial ou scientifique, est indis-cutablement la meilleure des solutions pour répondre à ces exigences techniques et éditoriales.

De plus, dans ses principes, l’identification des fragments doit être réalisée d’une manière rationnelle, directement liée à la source traitée, c’est-à-dire en rapport étroit avec l’organisation du texte, et human understandable. En eﬀet, les chercheurs doivent pouvoir explicitement désigner un fragment sans être totalement dépendant d’un ou-til d’assistance. Il s’agit, ni plus ni moins, que de permettre l’échange autour du texte dans les meilleures conditions possibles.

La méthode de calcul des identifiants que nous utilisons s’inspire fortement du système de références absolues utilisées dans le domaine de l’édition de textes

clas-10.1. Principes de structuration siques dans lequel chaque portion de texte, du chapitre à la ligne si nécessaire, est numérotée. Il s’agit de mettre en place une solution pour pouvoir faire référence à un texte indépendamment de ses formes d’édition, bref d’identifier de manière uni-voque chaque fragment constitutif d’un texte. Les solutions aléatoires et l’utilisation de timestamps sont écartées pour l’ensemble de ces raisons.

Chaque fragment est identifié en fonction de sa position dans le flux structuré. Autrement dit, l’arborescence est exploitée pour le calcul auquel elle sert même de base.

Les identifiants se composent d’une base, utilisée comme un préfixe stable à l’échelle du fragment de plus grande ampleur (le chapitre par exemple), suivie d’une série de chiﬀres séparés par des points.

Le préfixe se compose lui-même d’une chaîne de caractères comprenant la langue et éventuellement un fragment du titre, contenu dans l’élément head principal, c’est-à-dire le plus proche de l’élément body de l’arbre TEI ou caractérisé par un attribut d’un type particulier comme les chapitres par exemple. Le présupposé pour établir ce préfixe est la connaissance de la structure textuelle à l’identification de laquelle on souhaite procéder.

Sont ajoutées à cette base des séquences du type .{1-9}*. Le nombre de sé-quences ajouté est directement dépendant du niveau de profondeur d’identification auquel on souhaite parvenir et qui, bien entendu, est lui-même lié au niveau de bali-sage. Dans chacune de ces séquences, le chiﬀre correspond au numéro d’occurrence de l’élément courant dans l’arbre XML. Autrement dit, chaque séquence est en réalité un simple compteur d’éléments d’un type précis : div, p, quote, seg, etc.

L’identification peut être réalisée de manière continue pendant la saisie et la struc-turation en intégrant les dispositifs de calcul aux opérations d’insertion d’éléments, ou faire l’objet d’un traitement dédié global. Notons qu’une fois l’édition finalisée et publiée, ces identifiants ne devront plus être modifiés pour pouvoir être exploités pour le référencement et la citation.

Cette logique de construction systématique des identifiants permet également de simplifer la mise en relation d’éléments intégrés dans des flux textuels diﬀérents mais participant d’une même œuvre. Ainsi, une fois deux flux présentant des organisations logiques identiques identifiés avec cette méthode, les exploitations seront simples à réaliser.

Ainsi, la figure 10.1 donne un exemple du résultat de l’application de cette iden-tification sur deux flux parallèles : une traduction à gauche et une transcription à droite. On peut observer la similarité de construction entre les identifiants des deux

flux. Dans la mesure où il s’agit de la transcription d’un texte et de sa traduction, on retrouve la même organisation dans les deux cas : il s’agit de s’appuyer sur cette iden-tité de construction pour le calcul des identifiants qui vont simplifier la construction d’interfaces de lecture bilingues.

Figure 10.1 – Identification des fragments dans des flux XML TEI.

L’identification des fragments est aussi une étape indispensable pour beaucoup d’opérations relevant de l’exploitation des flux mis en place. Ainsi, pour permettre une annotation scientifique des textes, il est indispensable de disposer d’un moyen d’ancrer les notes dans l’arbre. Identifier chaque fragment permet de simplifier le travail en appliquant des solutions du type : ancrer une note dans tel élément identifié, à telle position.

De la même façon, une étude poussée de l’histoire des textes exige des possibilités de mises en relation qui imposent elles-mêmes de pouvoir désigner les éléments de manière univoque.

10.1.2 Flux de texte et corrections d’auteur

Dans la mesure où le contexte de travail est celui du single source publishing, la question des corrections d’auteur prend une importance particulière dans la mesure où nombre d’entre eux ont pris l’habitude de relire et de contrôler le fond unique-ment au mounique-ment des premières épreuves d’imprimerie. Cet eﬀet pervers des solutions modernes de traitement de texte est aujourd’hui intenable dans un contexte de

mul-10.1. Principes de structuration tiplication des supports de diﬀusion et de lecture. Comment par exemple relire un texte sur le fond quand il n’y a pas de diﬀusion papier prévue, et donc a fortiori, d’épreuves d’imprimerie ?

L’introduction des flux de texte est donc ici lourde de conséquence. Il est indis-pensable de proposer et de mettre en place des solutions permettant aux auteurs de relire, contrôler et corriger les textes sur le fond sans bouleverser totalement leurs méthodes et habitudes de travail, même s’il n’est pas complètement illégitime de s’interroger sur leur pertinence.

Par ailleurs, cette question est l’une des plus récurrentes chez les éditeurs formés à ces techniques de production.

L’expérience des Chroniques latines du Mont Saint-Michel nous a permis d’abor-der ce problème de manière totalement frontale. En eﬀet, les auteurs ont relu l’en-semble des textes (transcriptions et traductions) au terme du travail de mise en forme de la version papier, qui, comme nous l’avons vu, exige tout de même un certain nombre de manipulations, automatisées ou non116. Autrement dit, c’est seulement à la fin de l’opération la plus chronophage que les auteurs ont été en mesure de relire leurs textes dans des conditions proches de celles d’un lecteur. Et, bien entendu, des problèmes de toute nature sont apparus : qualité de l’organisation des textes entre eux, cohérence de traduction d’un texte à l’autre, etc. Au final, ce sont de nom-breuses corrections par page qu’il fallait traiter. . . Le problème réside dans le fait que les délais étaient très courts : l’impression devait débuter sans tarder pour res-pecter le planning. La figure 10.2 présente l’organisation du travail telle qu’elle était en 2009 au moment de l’édition des Chroniques latines du Mont Saint-Michel. Pris par le temps, nous avons privilégié la méthode qui consiste à exporter une version de traitement de texte117 à partir du logiciel de PAO que nous avons pu de nouveau étiqueter correctement pour produire un nouveau flux balisé en XML TEI à partir d’OpenOﬃce dans des conditions acceptables. C’est la solution 2 sur la figure 10.2. Cette option n’est envisageable qu’avec un niveau de balisage simple, ne s’intéressant qu’aux catégories textuelles indispensables pour l’édition, et ne peut être considérée que comme une sorte d’ultime recours.

Si cette première expérience a permis de fixer les bornes d’intervention des dif-férents acteurs dans des conditions de production réelles, il est totalement déraison-nable de construire des bonnes pratiques sur cette solution.

116. Voir p. 181 et suivantes.

117. Le logiciel de PAO utilisé, Indesign, est incapable de gérer des fragments de textes structurés dans les notes de bas de page ; il était donc impossible de récupérer un flux XML complet.

Figure10.2 – La chaîne de production au moment de la production des Chroniques latines du Mont Saint-Michel.

Ainsi, dans le cadre de l’édition sur le modèle du single source publishing, la mé-thode à privilégier pour la gestion des corrections d’auteur est la solution 1 de la figure 10.2 qui consiste à importer le flux de texte une première fois dans une ma-quette de travail spécifiquement destinée à la relecture du fond. Le document ainsi produit doit respecter la longueur de ligne finale mais proposer une hauteur de bloc beaucoup plus importante et laisser des marges latérales confortables pour les com-mentaires. Il s’agit d’un document d’étape qui doit pouvoir être produit rapidement et sur lequel le travail de mise en forme doit être entièrement automatisé avec un minimum d’intervention humaine. Autrement dit, aucun travail de calage précis ne doit être entrepris : ce serait une perte de temps. Il s’agit d’être le plus eﬃcace pos-sible. Le fait d’étendre le texte sur une part importante de la hauteur de page permet aussi de simuler au mieux le flux de texte et de se rapprocher de certaines formes de diﬀusion. Ces épreuves de correction constituent donc une sorte de synthèse entre plusieurs modes de consultation, à la fois proche de la page et proche du flux. . .

Si le principe de ne commencer le travail de préparation et de correction de copie qu’une fois le manuscrit d’auteur complet est bien connu dans le monde de l’édition matérielle, il n’est pas toujours respecté, pour des raisons de calendrier le plus souvent. Cependant, dans le contexte de la convergence numérique, il est indispensable de respecter ce principe car, si le texte évolue trop lourdement, le risque de devoir reporter les corrections d’auteur sur chacun des supports de diﬀusion est réel.

Dans le document Modélisation des sources anciennes et édition numérique (Page 193-198)