• Aucun résultat trouvé

II. Manipulation et représentation des documents

2. Augmentation interactive de documents électroniques

2.2 Le poste de lecture active : principes de conception

2.2.2 Format de codage

Dans notre application, les annotations et transcriptions associées à un fac-similé numérique sont codées au format XML (eXtensible Markup Language) [W3C- XML01].

XML

XML est un descendant de SGML (Standard Generalized Markup Language) [Iso86, Role91, Sandoval94]. Ce sont tous les deux des méta-langages de balisage qui permettent de définir des modèles de documents structurés spécifiques à des domaines d’applications. Chaque modèle correspond à une classe de documents et tous les documents appartenant à une classe sont de même type (la classe des documents de type « livre » par exemple). A partir de la définition d’un modèle (une structure générique), XML et SGML permettent de dériver un langage de balisage qui est utilisé pour décrire un type particulier de documents. Le marquage est de type déclaratif. Les marques (ou balises) délimitent et identifient les éléments de la structure et leurs associent des attributs.

Un modèle de document est décrit au moyen d’une DTD (Document Type

Definition). Une DTD identifie les types d’éléments que l’on peut trouver dans un

modèle de document et donne un nom à chacun d’eux. Elle leur associe éventuellement des attributs qui les caractérisent. Elle décrit les relations structurelles qui lient ces éléments. Par exemple, un chapitre contient un titre obligatoire suivi d’un nombre variable de sections, etc. SGML et XML proposent une sémantique assez riche pour décrire ces relations entre éléments : séquence, choix, optionalité, répétitivité, etc. Les relations entre éléments sont hiérarchiques. Les types d’éléments rencontrés dans une DTD jouent individuellement le rôle d’une classe au sens orienté objet du terme. Les instances de ces classes sont les balises dans chaque document spécifique. Pour chaque type d’élément sont déclarés :

? les sous éléments qu’il peut contenir et leur organisation,

? les attributs qui peuvent lui être associés.

C’est le langage de balisage qui résulte d’une DTD qui est utilisé pour décrire et structurer les documents. HTML est un exemple de DTD SGML développée pour le Web. Un document est une instance de sa classe et donc de sa DTD. Un document

doit respecter la structure du type de document auquel il appartient, c’est-à-dire les règles définies dans sa DTD. Ceci est vérifié de façon automatique à l’aide d’outils que l’on nomme parsers (analyseurs).

XML n’impose aux documents que le respect d’une syntaxe basée sur des règles simples. Des balises de début et de fin encadrent le contenu d’un élément :

<nom_élément> contenu </nom_élément>. XML n’autorise pas de minimisations :

des omissions comme celles d’une balise dans une séquence prédéfinie, d’un attribut obligatoire, d’une balise de fin, etc., ne sont pas permises. La seule exception concerne les éléments qui ne possèdent pas de contenu. Ces derniers peuvent être représentés au moyen d’une balise unique dont la syntaxe est la suivante

<nom_élément/>. Enfin, l’imbrication de balises XML doit correspondre à une

arborescence bien formée. Lorsque cela est nécessaire, XML permet de contrôler la conformité d’un document bien formé avec une DTD, on parle alors de documents

valides.

Les motivations qui ont donné lieu à XML sont de deux types : la communauté du Web voulait un format extensible et propre ; la communauté informatique voulait un standard pour la représentation de données. XML est né de deux observations : l’inflexibilité de HTML et la complexité de SGML. HTML implémente un seul modèle de document (c’est une DTD SGML), bien adapté au Web mais dont les applications sont limitées par une bibliothèque figée et réduite de balises. Il ne permet donc pas de prendre en compte les besoins de domaines d’applications spécifiques. SGML est un méta-langage de balisage normalisé qui permet de définir des DTDs riches en sémantique, mais dont le nombre de caractéristiques le rend relativement lourd à mettre en œ uvre et inadapté au Web.

XML offre la facilité de mise en œ uvre de HTML associée à des fonctionnalités hypertextes étendues. XML est extensible dans le sens où c’est un méta-langage utilisé pour créer d’autres langages. Cette capacité, issue de SGML, permet de mettre en œ uvre une richesse sémantique importante au niveau des DTDs. HTML, au contraire, est un simple langage qui définit de façon rigide comment décrire un certain type de document.

Une autre différence avec HTML concerne la présentation des documents. HTML contient également des balises procédurales (ou de formatages), c’est-à-dire des balises qui n’apportent aucune information à propos de la structure mais qui contrôlent l’apparence du texte balisé (<i> pour italique, <b> pour gras, etc.). En XML, la structure et le contenu sont séparés de la présentation. Le rendu graphique d’un document se définit au moyen de feuilles de style. Cette approche, également adoptée dans SGML, offre plusieurs avantages. Elle permet de libérer les documents d’un dispositif d’affichage particulier (navigateurs Web, imprimantes, téléphones, télévisions, ordinateurs de poches, etc.), de simplifier les modifications de styles et

de partager les styles. Elle facilite aussi l’opération de balisage, les éditeurs se focalisant soit sur la description du contenu soit sur le rendu visuel.

La DTD TEI

Pour le codage des annotations et des transcriptions, nous avons choisi d’utiliser un sous-ensemble de la DTD TEI (Text Encoding Initiative) [Sperberg94, Role96, Fekete00] mise au format XML. Le développement de la TEI a commencé en 1987. L’objectif était de définir un format électronique pour faciliter la représentation et l’échange de documents dans les domaines des sciences humaines et de la linguistique. Les recommandations de la TEI s’adaptent particulièrement bien à la description de sources littéraires. Elles offrent entre autres une puissance d’expression de haut niveau pour décrire des phénomènes para-textuels (insertions, corrections, textes illisibles, etc.), pour associer aux éléments du texte diverses analyses et interprétations, ou encore pour effectuer l’édition critique des documents étudiés. Le fait de disposer d’une telle puissance d’expression tout en restant compatible avec un existant conséquent constitue la principale raison qui a orienté notre choix vers la TEI.

Avantages

Le choix d’un format de codage textuel standardisé comme XML offre plusieurs avantages. Il facilite le partage et la réutilisation des données, et assure la compatibilité avec des logiciels préexistants ou à venir. Il permet également le développement de systèmes basés sur une architecture ouverte. Un ensemble de modules séparés, partageant les données XML, peuvent être développés, chacun prenant en charge une tâche spécifique. L’ajout ou l’évolution des modules ne remet ainsi pas en cause l’architecture du système. Ceci permet aux utilisateurs de choisir l’outil le plus approprié à leur besoin. Ils ne sont plus contraints d’utiliser un logiciel unique pouvant devenir obsolète ou n’étant pas assez flexible pour réaliser un ensemble varié de tâches données.

L’utilisation de balises facilite le repérage et la manipulation des éléments d’information contenus dans le document. Elle permet de simplifier et d’améliorer les traitements informatiques ultérieurs tels que la recherche d’occurrences, la création de tables d’index, le calcul de statistiques ou l’utilisation de moteurs de recherche. En effet, en plus du contenu du document, les balises permettent de stocker un ensemble varié d’informations (des méta-données) sur lesquelles il est possible d’effectuer diverses recherches et traitements. La structure hiérarchique induite par le positionnement des balises fournit également des informations pouvant aider à l’analyse du document (il est par exemple possible d’appliquer un traitement informatique en limitant son exécution aux descendants d’une balise spécifique).

Cette notion de hiérarchie des balises permet dans un logiciel d’édition XML d’indiquer à tout moment aux auteurs les balises admises dans une section du document, assurant ainsi une validation interactive du document dès l’étape de création. Un autre avantage concerne le fait que les données soient représentées sous un format textuel et associées à des informations sémantiques. Elles peuvent donc être lues et comprises par un utilisateur, contrairement aux codes « machines » de la majorité des logiciels de traitement de texte.

Enfin, L’utilisation des mécanismes de pointage offert par ce langage permet d’inclure aux documents XML des liens qui interconnectent les divers éléments en présence (fac-similés ou parties de fac-similés, annotations, transcriptions et documentation annexe). Le codage XML des annotations contient donc, en plus du contenu même des annotations et autres méta-données sémantiques, les hyperliens nécessaires au couplage texte/image.