1.2. Normalisation de la gestion des ressources langagières
1.2.1. Codage des documents structurés
1.2.1.1. SGML (Standard Generalized Markup Language)
SGML (norme ISO 8879:1986, cf. Goldfarb [GOL 91]) est un méta-langage de balisage qui
spécifie des règles permettant la définition de systèmes de balises pour le codage de divers types de
document électronique et d’éventuelles informations associées.
Trois concepts fondamentaux permettent de définir un document SGML :
- Éléments : SGML représente les données textuelles avec des éléments de contenu, de types
différents et encapsulés les uns dans les autres. Le modèle de base pour la représentation de
données au format SGML correspond donc à un arbre hiérarchique. Chaque nœud correspond
à un élément SGML, et chaque feuille correspond ainsi à un contenu élémentaire (cf. Figure
1-18 et l’explication qui la suit). En règle générale, les éléments du texte sont encadrés par des
balises ouvrantes et fermantes, du type <balise> … </balise>. Ces balises peuvent
contenir des attributs fournissant une description de l’élément textuel concerné, et qui se
placent sur la balise ouvrante : <balise attribut = "valeur"> … </balise>.
- Types de documents : SGML impose que toute instance de document soit conforme à une
DTD (Document Type Definition) qui lui est systématiquement associée. Cette DTD précise
les balises autorisées et les agencements légaux et hiérarchiques de ces balises. La DTD
fournit également, pour chaque type d’élément, la liste des attributs qu’il est possible
d’utiliser, ainsi que le type de leur valeur, et éventuellement, une liste de valeurs prédéfinies.
Cela assure la consistance du codage de ressources.
- Entités : Il s’agit de chaînes de caractères nommées qui sont lors de l’interprétation du
document remplacées par leur définition, à la manière des macros ou alias en programmation
informatique. Une entité peut remplacer un seul caractère spécial, mais aussi une chaîne
contenant des éléments SGML complexes (à condition que ces éléments soient entièrement
définis dans la chaîne).
L’exemple de la Figure 1-18 expose la structure logique des documents textuels ordinaires pouvant
être représentés en SGML. En effet, un texte se compose de phrases (noeuds s dans l’arbre), groupées
en paragraphes (noeuds p). Ces paragraphes peuvent être groupés en sections, puis à leur tour, les
sections en chapitres, parties, etc. Ces éléments de texte (section, chapitre, partie, etc.) sont classées
dans un même type d’élément récursif : division (noeuds div dans l’arbre).
Le balisage de documents textuels électroniques en SGML permet d’une part de distinguer
l’interprétation des parties de texte et leur format d’impression, et d’autre part d’extraire facilement
des parties de contenu de texte à la demande. Il assure également l’échange et la pérennité de ces
ressources grâce à un codage explicite de l’information, indépendant de tout périphérique ou
application.
En pratique, la norme SGML est souvent critiquée pour sa lourdeur et sa complexité de mise en
œuvre, principalement en raison de l’exigence de définition rigoureuse d’une DTD et de conformité du
document à celle-ci, ainsi qu’à cause du manque de flexibilité de sa syntaxe. La recommandation
XML, conçue originalement pour la distribution de documents structurés sur Internet, est devenue une
solution alternative largement employée.
1.2.1.2. XML (eXtensible Markup Language)
La recommandation XML (Bray et al. [BRA 98]), dérivée du format SGML, a été développée par
un groupe de travail XML formé sous les auspices du W3C en 1996. Il était présidé par Jon Bosak de
Sun Microsystems avec la participation active d'un groupe d'intérêts particuliers XML (connu
précédemment sous le nom de groupe de travail SGML), également sous l'égide du W3C.
Par construction, les documents XML sont des documents SGML conformes. À la différence de
SGML, un document XML peut ne pas contenir de référence à une DTD, d’où se distinguent les
notions de document valide (respectant un schéma ou une DTD donné) et de document bien formé
(respectant la structure d’un document SGML/XML). Il est donc possible, à partir d’un document
primaire d’origine (validé au regard d’une DTD connue), de n’en transmettre qu’une partie qui soit
pertinente pour un traitement donné ou suite à une requête d’un utilisateur. À l’inverse, des documents
ou parties bien formées de documents issus de sources différentes peuvent être re-combinées pour
former un nouveau document (cf. Romary [ROM 00b]).
Les éléments d’un document structuré, représenté par le format SGML/XML, peuvent être
identifiés grâce aux mécanismes de référencement des applications manipulant les documents
SGML/XML. Cette identification se fait soit directement par des identifieurs uniques spécifiés dans un
attribut porté par l’élément cible ; soit de façon relative en utilisant des localisations dans l’arbre
SGML/XML pour pointer vers des éléments spécifiques en utilisant la structure du document (par
exemple le 2
eparagraphe du 4
echapitre) – Bonhomme [BON 00a].
Le W3C propose également les recommandations annexes de XML qui permettent l’accès à la
structure des documents XML :
- XPath, XPointers et XLink – mécanismes de localisation et de lien de fragments de document
XML
- XSLT – langage de transformation de feuilles de style XSL, permet d’exprimer des requêtes ou
sélections de contenu des éléments.
La force de XML est de devoir son succès à l’Internet et de disposer ainsi d’une communauté
extrêmement vaste d’utilisateurs travaillant avec des conventions terminologiques communes. De
nombreux développements logiciels accompagnent le déploiement de ce standard. Cela permet au
XML de devenir un format puissant, capable de représenter tout type de ressource.
La possibilité de définir des DTD adaptées à chaque tâche particulière est l’une des principales
sources de puissance et de flexibilité des métalangage SGML et XML. Le revers de cette médaille est
la possibilité de multiplication de DTD incompatibles pour représenter les mêmes types de documents.
Ainsi apparaît la problématique de définir des DTD « normalisées » pour chaque usage, permettant
l’échange et la mise en commun d’informations de sources variées. C’est le travail entrepris par la TEI
(Text Encoding Initiative), dont nous présentons maintenant les travaux.
1.2.1.3. TEI (Text Encoding Initiative)
La TEI (Ide et Sperberg-McQueen [IDE 95a]) est un consortium académique international, créé en
1987, dans le but de développer les recommandations pour le codage et l’échange de données
linguistiques et littéraires. En mai 1994, le travail effectué par les différents comités a été publié sous
forme de « Recommandations pour le codage et l’échange des textes informatisés » (Guidelines for the
Encoding and Interchange of Machine-Readable Texts), aussi connues sous le nom de TEI P3,
reposant sur les DTD du SGML.
Ces directives proposent un ensemble de conventions de codage utilisables dans une grande variété
d’applications : publication électronique, analyse littéraire et historique, lexicographie, traitement
automatique des langues, recherche documentaire, hypertexte, etc. Les directives concernent les textes
écrits ou parlés, sans restriction de langue, de période, de genre ou de contenu et répondent aux
besoins fondamentaux de nombreux d’utilisateurs : lexicographes, linguistes, philologues,
bibliothécaires, et de manière générale, de tous ceux qui sont concernés par l’archivage et l’accès à des
documents électroniques.
Trois aspects du codage des textes sont particulièrement mis en avant par la TEI :
- documentation de textes : les documents TEI doivent fournir obligatoirement les informations
bibliographiques sur le texte lui-même et son codage. Ces informations sont balisées dans la
partie en-tête « TEIheader » se trouvant au début de chaque document codé en TEI (cf. Figure
1-19).
- représentation de textes : la TEI propose un système de balises pour coder la description de
structure logique de différents types de document (textes écrits ou parlés, prose littéraire,
poésie, théâtre, dictionnaires, données terminologiques, hypermédia etc.)
- analyse et interprétation de textes : les directives de la TEI contiennent des jeux de balises
pour le codage des références croisées ou des index dans les textes, des analyses linguistiques
et des informations concernant l’étude littéraire.
Figure 1-19 Structure TEI de base de textes courants [BON 00a]
Depuis sont sorties la version TEI P4 en 2002 reposant sur le schéma XML, et récemment la
<TEI.2> <teiHeader> <front> <body> <text> <back> <div> <div> <div>
Dans le document
Outils et ressources linguistiques pour l'alignement de textes multilingues français-vietnamiens
(Page 44-47)