Niveaux de balisages - Du modèle de document au modèle de flux

Du modèle de document au modèle de flux

7.3 Niveaux de balisages

Comme nous l’avons déjà évoqué, la meilleure solution technique pour manipuler des données à n niveaux de structure et sans connaissance a priori de la complexité des données et des textes à traiter reste le XML. Les flux et les fragments de texte sont donc le plus souvent encodés en utilisant ces technologies.

La question du niveau d’annotation ou d’encodage, que l’on désigne aussi par la granularité, est centrale dans tout le travail que nous menons ici. Nous proposons de distinguer deux niveaux d’annotation répondant en fait à deux objectifs distincts, même s’ils peuvent parfois se recouvrir comme nous le verrons.

7.3.1 Encodage éditorial

Ce niveau d’encodage correspond au marquage des informations indispensables pour produire des formes intelligibles pour le lecteur. Il s’agit ici de mettre en place un système de balisage permettant à l’éditeur matériel de proposer des formes corres-pondant aux catégories de textes manipulées par les éditeurs scientifiques. Autrement dit, tous les phénomènes textuels indispensables à la compréhension du propos de l’auteur doivent faire l’objet d’un étiquetage spécifique.

Le balisage éditorial se caractérise par sa simplicité. En effet, pour assurer une mise en forme minimale du texte, l’éditeur matériel a besoin de discriminer les pa-ragraphes de textes, les citations, les séquences en italique ou en gras, les différents niveaux de titres, différents systèmes de notes, etc. Bref un ensemble d’éléments re-lativement restreint et bien connu dans le monde scientifique. De plus, cet ensemble peut rester assez descriptif. En effet, pour l’éditeur matériel, en tout les cas pour la production de formes élémentaires, l’important est d’encoder le fait que telle séquence de caractères doit être traitée en italique et pas nécessairement la raison pour laquelle elle est en italique. Précisons dès maintenant qu’il ne s’agit en aucun cas de dire que l’éditeur matériel ne doit pas se préoccuper du sens du texte, bien au contraire. Il s’agit ici uniquement du processus de production technique des formes de diffusion et non des tâches de préparation et de correction des textes qui incombent à l’éditeur matériel. Sur le fond, le travail de préparation de copie n’est pas directement impacté par les changements de techniques de production.

Avec un ensemble de 30 éléments environ il est possible de décrire les textes simples les plus courants dans le domaine des sciences humaines et sociales. Comme nous le voyons, le nombre de catégories de textes reste relativement limité et tout à fait manipulable.

7.3. Niveaux de balisages L’encodage éditorial va permettre de produire des formes de diﬀusion simples, c’est-à-dire dépourvues d’outils avancés. Les formes web par exemple ne disposeront que d’instruments de navigation classiques (tables des matières, circulation appels de notes/notes, etc.). Les outils plus fins permettant, par exemple, la restitution du texte d’un témoin spécifique dans le cadre d’une édition de sources seront impossibles à mettre en œuvre.

En définitive, l’encodage éditorial permet simplement de caractériser les éléments qui devront faire l’objet de mises en forme particulières sur tel ou tel support de diﬀusion.

Ce niveau de balisage, s’il présente une composante formelle forte, ne peut pour autant pas se réduire à l’expression en XML d’une mise en forme. En eﬀet, il est plus juste de le considérer comme une annotation pour des formes de diﬀusion. Il respecte ainsi le principe de séparation du fond et des formes. Cependant, les éléments balisés sont ceux qui devront être traités formellement de manière spécifique sur un support ou sur un autre.

La figure 7.6 donne un exemple de balisage éditorial. En plus de la hiérarchie de base définie par les éléments div, imbriqués sur autant de niveaux que nécessaire, la structure se compose de vers, c’est l’élément l, et de groupe de vers, c’est l’élément lg, ainsi que de notes destinées à être placées en marge et contenant les variantes des vers concernés. Il s’agit donc d’un encodage très simple dont le vocabulaire ne correspond qu’en partie à la complexité du texte manipulé. On ne trouve en eﬀet pas de caractérisation des rapports entretenus entre le contenu textuel de l’élément l et celui de l’élément note par exemple. Une étude poussée sur ce point est donc impossible avec un encodage de ce type. En revanche, cette structure permet sans aucun problème de mettre en place des traitements éditoriaux pour la production de formes de diﬀusion, nous y reviendrons un peu plus loin.

7.3.2 Encodage scientifique

Il s’agit ici, non plus de rendre compte du plus petit dénominateur commun à l’en-semble des formes à produire, mais bien d’annoter avec la précision exigée par la rigueur scientifique l’ensemble des phénomènes textuels en exploitant toute la ri-chesse correspondante dans les recommandations de la TEI. C’est l’encodage mis en place par les communautés de recherche dans le cadre de la plupart des projets menés à l’heure actuelle. Ce type d’encodage est très fortement lié aux types de textes traités et les particularités des objets étudiés ainsi que les objectifs scienti-fiques contraignent souvent les chercheurs à mettre en place des solutions spéciscienti-fiques modulées en fonction de chaque projet.

Toutes les solutions de diﬀusion sont bien entendu envisageables avec un encodage scientifique. Il est ainsi possible de produire aussi bien des éditions simples favorisant une lecture immersive que des applications en ligne richement outillées permettant d’accéder aux textes par un ensemble d’opérations exploitant toute la complexité textuelle rencontrée par les chercheurs.

La figure 7.7 propose une séquence de code correspondant à une granularité scien-tifique. Il apparaît au premier regard que les catégories de texte manipulées sont beaucoup plus nombreuses que dans le balisage éditorial ; il suﬃt pour s’en rendre compte d’observer le rapport de volume occupé par le texte (en noir) d’un côté, et par le code XML de l’autre, en particulier au début de la séquence. Nous avons ici à faire à un paragraphe de texte (élément p) dont le contenu est lourdement struc-turé. Outre l’annotation scientifique catégorisée par l’utilisation de l’élément note avec des valeurs d’attribut type variant en fonction de la nature du commentaire

7.3. Niveaux de balisages

Figure 7.7 – Exemple d’encodage scientifique.

des chercheurs, l’objectif est ici de donner et d’étudier l’histoire du texte. Pour cela, chaque partie du texte se voit enrichie d’un élément bibl qui contient la référence de la source dont provient la zone de texte concernée. La portée de cette référence dépend du contexte d’occurrence de l’élément bibl. Ainsi, l’élément bibl contenu dans l’élément p donne l’origine du texte de l’ensemble du paragraphe tandis que ceux qui sont contenus dans des éléments seg renseignent sur la provenance du texte marqué par le segment. On constate très vite qu’une contradiction semble présente dans le code de l’exemple puisque le paragraphe est attribué à Vincent de Beauvais (VB 17, 29, 1) alors que le segment interne visible est lui attribué à Thomas de Cantimpré (TC 7, 9). Il n’y a là en réalité aucune contradiction. L’explication réside dans la nature du texte traité qui reprend majoritairement un texte de Vincent de Beauvais lui-même emprunté à d’autres textes, et à ceux de Thomas de Cantimpré en particulier. Les deux informations bibliographiques donnant les références des pa-ragraphes et des segments correspondent en définitive à deux niveaux d’identification

des sources : le paragraphe provient de Vincent de Beauvais et les segments qui le constituent sont copiés sur Thomas de Cantimpré. Nous reviendrons précisément sur ce point plus bas106.

7.3.3 Articulation des niveaux d’encodage

Comme nous l’avons vu, l’encodage scientifique est presque systématiquement lié à un type de texte ainsi qu’à une série d’objectifs scientifiques donnés. Il est donc tout à fait déraisonnable de penser pouvoir développer des solutions génériques de traitement formel de telles données, tant la diversité des cas est élevée.

En revanche, l’encodage éditorial constitue une base suﬃsamment simple pour permettre le développement d’outils génériques au moins concernant les besoins les plus couramment demandés et rencontrés, quel que soit le support de diﬀusion concerné.

Il est en eﬀet tout à fait possible de produire des formes de diﬀusion tout à fait satisfaisantes à partir d’un encodage relativement simple. Autrement dit, il est possible d’identifier des éléments de structure logique de textes réguliers dont la forme sera, elle aussi, régulière.

Dès lors, l’articulation de ces deux niveaux d’encodage peut se faire de deux façons qui ne s’excluent pas l’une l’autre.

La première se focalise sur la production des flux et consiste à produire une ver-sion initiale du flux encodé au niveau éditorial en utilisant des solutions de stylage comme celles que nous avons présentées plus haut107. Il s’agit d’une première étape permettant d’obtenir une structuration à gros grain sur laquelle les chercheurs pour-ront travailler et ajouter des informations pour produire, in fine, une nouvelle version du flux manipulé qui sera encodée au niveau scientifique. Dans cette première solu-tion d’articulasolu-tion des niveaux d’encodage, le niveau d’encodage éditorial est donc un point de passage permettant de gagner du temps dans le processus de production d’un flux encodé scientifiquement.

La seconde articulation inverse les deux étapes et traite de l’exploitation éditoriale d’un flux encodé scientifiquement. Il s’agit alors pour l’éditeur matériel d’identifier, dans le système d’annotation scientifique, les éléments qui doivent faire l’objet d’un traitement formel.

106. Voir p. 219 et suivantes. 107. Voir p. 88.

7.3. Niveaux de balisages Ainsi, nous proposons ici d’exploiter la proximité existant entre les catégories tex-tuelles manipulées par les chercheurs et les formes éditoriales qu’il faut leur apporter. En eﬀet, si les chercheurs manipulent une très grande quantité de types de textes, l’éditeur se doit de ramener ces catégories à des groupes de formes intelligibles pour le lecteur. Cette approche se focalise donc sur la production de formes éditorialisées et pas forcément sur l’exploitation de l’ensemble des phénomènes textuels annotés par les chercheurs. Des telles exploitations imposent le plus souvent des développe-ments tout aussi spécifiques que les textes que l’on souhaite exploiter. Nous verrons cependant que les deux démarches peuvent s’articuler.

Nous proposons donc ici de produire l’encodage éditorial à partir de l’encodage scientifique, qui rappelons le, est le plus riche, au moyen le plus souvent d’une feuille de transformation XSL écrite spécifiquement dans le cadre d’un projet de recherche donné. Une fois cet encodage éditorial obtenu, il est alors possible d’exploiter l’en-semble des outils développés pour l’exploiter dans le cadre de la production de toutes les formes de diﬀusion.

Dans cette première approche, il s’agit donc de produire dans un premier temps une structure de base, avec un encodage éditorial qui va servir de socle à l’encodage scientifique. En d’autres termes, l’encodage éditorial est en quelque sorte un premier pas dans la mise en place d’un encodage scientifique.

Dans les deux cas, l’encodage éditorial comme l’encodage scientifique, il s’agit de pratiques de structuration en profondeur des sources concernées, même si ce niveau de profondeur est variable d’un encodage à l’autre. Mais il faut également considérer une autre dimension du travail d’encodage qui vise plus à repérer les sources plu-tôt qu’à les structurer au sens strict du terme. Il s’agit en définitive de l’encodage correspondant à l’inventaire. Si l’on considère que l’encodage éditorial et l’encodage scientifique relèvent de l’annotation verticale des données, il faut alors traiter ce travail d’inventaire comme un encodage horizontal.

L’encodage horizontal est capital car c’est lui qui permet d’organiser des en-sembles de données identifiés sans entrer dans une grande finesse de description structurelle. Il sert en réalité de maillage initial de corpus en proposant une sorte de topographie des textes peuplant un corpus. Prenons l’image d’un repère orthonormé pour se représenter cette articulation. L’encodage horizontal permet de positionner les éléments du corpus, les textes, sur un repère à deux dimensions. Ajouter un ba-lisage éditorial ou scientifique aux textes qui le nécessitent en fonction des objectifs de recherche, revient à ajouter une troisième dimension.

Deux projets du CRAHAM illustrent bien l’articulation entre balisage horizontal et balisage vertical. Il s’agit de Scripta, le site caennais de recherche informatique et de publication des textes anciens, dirigé par Pierre Bauduin et d’E-Cartæ dirigé par Gregory Combalbert.

Le premier, Scripta, se fixe comme objectif de fournir à la communauté un riche choix d’actes médiévaux normands, notamment du Xe au XIIIe siècle. Scripta pro-pose donc le plus souvent des textes peu structurés accompagnés d’un ensemble de métadonnées permettant de réaliser des recherches sur l’ensemble du territoire nor-mand pour la période concernée. C’est une précieuse source d’information pour les chercheurs qui rassemble une grande quantité de données sur plus de 6000 actes, mais qui ne propose pas d’encodage fin des textes (la tâche serait d’ailleurs immense étant donné le nombre d’actes présents dans la base).

Le second projet, E-Cartæ, se focalise à la fois sur une zone géographique pré-cise et sur un type de document particulier puisqu’il traite des chartes des évêques d’Évreux. Il s’agit donc d’un sous-ensemble du corpus traité par Scripta. L’objectif du projet est d’étudier l’ensemble du corpus d’Évreux et d’en fournir une édition. L’ensemble des données est très finement annoté avec en particulier un balisage sys-tématique du discours diplomatique et des variantes.

Les deux projets entretiennent d’étroites relations et sont complémentaires dans leurs objectifs. Toutes les chartes d’Évreux de la base Scripta pointent vers l’édition dans E-Cartæ. En réalité, Scripta se positionne comme un inventaire virtuel avec un grand nombre de documents indexés et permettant d’identifier des ensembles qui pourront faire l’objet d’études spécifiques. E-Cartæ constitue le parfait exemple de l’une de ces études.

Scripta et E-Cartæ proposent donc des textes encodés et indexés à diﬀérents niveaux en fonction de leurs objectifs propres. Cependant, certains textes entrent dans les champs des deux projets ce qui permet de lier les textes des deux projets les uns aux autres. Ces deux exemples permettent de voir émerger les bases d’un réseau de ressources textuelles interconnectées.

8

Réseau de textes

Dans le document Modélisation des sources anciennes et édition numérique (Page 163-170)