[PDF] Cours d’initiation à XSLT : conditions et fonctions dans le parcoure de l’arbre | Cours informatique

(1)

Extensible Markup Language

Extensible Markup Language

Extension de fichier : .xml

Type MIME : application/xml, text/xml Développé par : _{World Wide Web Consortium [1]} Type de format : langage de balisage

Standard(s) : _{1.0 (5e édition) [2] 1.1 (2e édition) [3]} Spécification : Format ouvert

Un exemple de fichier XML. Le document représente ici une recette de cuisine.

XML (Extensible Markup

Language (en)[4] , « langage

de balisage extensible ») est un langage informatique de balisage générique. Il sert essentiellement à stocker/transférer des données de type texte Unicode structuré en champs arborescents. Le World Wide

Web Consortium (W3C),

promoteur de standards favorisant l'échange d'informations sur Internet,

recommande la syntaxe XML pour exprimer des langages de balisages spécifiques. De nombreux langages respectent la syntaxe XML : XHTML, SVG, XSLT, etc.

Son objectif initial est de faciliter l'échange automatisé de contenus entre systèmes d'informations hétérogènes (interopérabilité). XML est une simplification de SGML dont il retient les principes essentiels comme :

• la structure d'un document XML est définissable et validable par un schéma, • un document XML est entièrement transformable dans un autre document XML. Cette syntaxe est reconnaissable par son usage des chevrons (< >).

Objectif initial

L'objectif initial de XML est expliqué au début de la spécification du 10 février 1998, la phrase est toujours d'actualité : « Its goal is to enable generic SGML to be served, received,

and processed on the web in the way that is now possible with HTML. »(en) [5], « Son but

est de permettre à du SGML générique d'être transmis, reçu et traité sur le web de la même manière que l'est HTML aujourd'hui. »(fr) [6]. SGML est un langage de balisage, employé dans les industries de la documentation et de l'édition. En adoptant cette syntaxe pour HTML, Tim Berners-Lee confrontait une technologie complexe à de plus en plus d'utilisateurs. L'objectif d'→ XML était de définir un langage aussi générique, mais plus simple : « XML has been designed for ease of implementation »(en) [7], « XML a été conçu

(2)

pour une facilité de mise en œuvre »(fr) [8].

Un groupe de travail a réuni au sein du World Wide Web Consortium (W3C) de grands noms dans le monde SGML (dont Jon Bosak, James Clark, etc.) ; il est à l'origine de la spécification signée par :

• Michael Sperberg-McQueen, alors éditeur en chef de la DTD TEI ;

• Tim Bray, qui a notamment conduit l'informatisation du Oxford English Dictionary ; • Jean Paoli (Microsoft).

Tim Bray, dans son Annotated XML Specification (en) [9] « la spécification XML annotée », explique plus longuement le contexte qui a rendu possible ce standard, en mentionnant notamment les contributions décisives de James Clark. À la lumière des années passées, cette spécification a rempli l'objectif qu'elle se fixait, XML a été largement suivi et favorise l'interopérabilité. Plusieurs choix ont contribué à ce succès.

• Unicode - Par défaut, SGML était en ASCII (alphabet latin sans lettre accentuée). Il apportait un système d'encodage pour les autres signes, les entités caractères que l'on trouve encore parfois en HTML (exemple : é pour é). En 1996, apparaît la version 2.0 d'Unicode, → XML adoptera cet encodage par défaut.

• Délimitation explicite du contenu - SGML était orienté pour la saisie humaine de textes structurés, sur des machines moins puissantes qu'aujourd'hui. Il autorisait

beaucoup de raccourcis. HTML conserve par exemple les balises à fermeture optionnelle (exemple : <li>). Ces possibilités compliquaient l'implémentation de la norme. En XML, toute balise ouverte doit être fermée.

• Espace de noms - SGML insistait surtout sur la validation, sur la conformité à un modèle contraignant. XML prévoyait un usage plus souple de l'information structurée, il spécifie un moyen de faire cohabiter plusieurs vocabulaires de balises dans un même document.

Au delà de HTML, le W3C avait d'autres projets pour lesquels une syntaxe plus facilement extensible était nécessaire. Ces directions ont annoncé une très grande plasticité de XML pour de nombreux usages. SGML était une technologie de niche, sa simplification l'a universalisé avec Internet. Il pénètre désormais la plupart des secteurs de l'informatique. Mais avant de détailler ces utilisations, il peut être utile de préciser un peu ce que c'est.

Versions

La version 1.0 d'XML a été publiée le 10 février 1998.

La version 1.1 publiée le 4 février 2004 apporte des améliorations dans le support des différentes versions d'Unicode.

Le W3C recommande aux processeurs XML de reconnaître les deux versions, bien que la première version soit beaucoup plus répandue que la seconde.

(3)

Comparaison à d'autres formats

Pour savoir à quoi ressemble du XML, le mieux est certainement d'en voir. Commençons par un exemple simplifié. Il propose une transposition du début de cet article dans un langage XML appliqué à la documentation technique, DocBook.

<article xmlns="http://docbook.org/ns/docbook"> <title>Extensible Markup Language</title> <para>

<acronym>XML</acronym> (Extensible Markup Language, « langage de balisage extensible »)...

</para> </article>

Dans ce code, chacun peut identifier des portions de texte (exemple : Extensible, XML…) et des mots clés encadrés de chevrons (<, >) : <article>, <title>, <para>… Ce document est ouvert par le mot clé <article>, et clos par </article>. Notez la barre oblique, elle signifie la fermeture de la balise article. En XML, une balise doit toujours être fermée. À l'intérieur de cet article, il y a un titre (<title [10]/>), un paragraphe (<para [11]/>), et un acronyme (<acronym [12]/>).

Ce qui est spécifique à XML, c'est le choix des chevrons pour identifier les balises, et l'obligation de les fermer. Les mots clés ne sont pas définis par la norme XML, mais par le vocabulaire choisi. En XHTML, l'élément racine aurait été <html [13]>, en XSLT, cela peut être <xsl:stylesheet [14]> ou <xsl:transform [15]>. Ceci illustre la nature extensible d'XML. Ce n'est pas un jeu de noms réservés (exemple : echo, for, public, function, class…), mais plutôt des caractères réservés permettant de définir un « langage ».

Cet exemple illustre une autre spécificité de ce format. À part SGML, peu d'autres syntaxes permettent de séparer la définition sémantique de l'information (qu'est-ce qui est titre, lien, section…), de l'apparence qu'on lui souhaite (aujourd'hui un titre est souligné, demain on le voudra peut-être en bleu). Cela fait d'XML un excellent format pour conserver des textes ou des données. Pour s'en convaincre, regardons ce que la même information donne dans d'autres formats.

Formats binaires (un exemple Microsoft Word)

Les logiciels, surtout pour le grand public, aboutissent généralement à des fichiers. Le format se soucie d'abord d'être fiable et performant, mais est-il échangeable ? Le format d'enregistrement natif du traitement de texte Word est l'exemple du format binaire le plus déployé[réf. nécessaire]. Il n'est pas lisible par l'humain. Le texte est difficile à extraire, le lien avec sa structuration (gras, italique…) est difficile à reconstruire. Dans la pratique, un document Word pose beaucoup de problèmes de conservation sur le long terme.

ÐÏ�à¡±�á > � þÿ ! # � þÿÿÿ ÿÿ% � ð�¿ � � a� � bjbj%ç%ç

Extensible Markup Language

XML (Extensible Markup Language, « langage de balisage extensible ») � i � � 8 @ñÿ� 8 � � N o r m a l �

� CJ� _H��aJ� mH��sH��tH��N �@� � N � � T i t r e 1 � � ÿ

(4)

[… beaucoup d'informations binaires supprimées ] ÿ

ÿÿÿÿ� � À F� Document Microsoft Word MSWordDoc � Word.Document.8 ô9²q

L'éditeur, Microsoft, propose désormais un format d'enregistrement en XML.

RTF (Rich Text Format)

Afin de favoriser l'échange avec d'autres traitements de texte, Microsoft proposa RTF Rich

Text Format « format texte riche » (1987). Ce n'est pas un format binaire, les commandes

sont inscrites en texte lisible, mais elles ne sont pas destinées à être écrites par un humain. {\rtf

{\f2\fs36\b Extensible Markup Language}\par {\b XML} (Extensible Markup Language, « langage de balisage extensible »)... \par

}

On retrouve le besoin d'encadrer du contenu avec un marqueur (ici les accolades {}), d'attacher des propriétés à ces groupes. Ainsi, {\b XML} indique que les lettres XML sont en gras, bold : \b. Pour le titre, humains comme logiciels ne peuvent pas l'identifier par "\f2\fs36\b", ce code indique en fait l'apparence du paragraphe (gras, gros…). Ce format a montré qu'il pouvait fonctionner dans des logiciels, mais sa croissante complexité nous instruit sur ses limites. Il est difficilement extensible, et en tous cas, inutilisable pour structurer la sémantique d'un texte.

T

E

X

Donald Knuth, auteur de The Art of Computer Programming « l'Art de la programmation » s'est interrompu en 1977, excédé par la mauvaise qualité d'impression de ses ouvrages. Il développa TEX, une syntaxe très élaborée destinée à l'écriture humaine, spécialement puissante pour les équations mathématiques. On remarquera que RTF lui a repris ses séparateurs (\, {, }), mais pas son système de macros pour factoriser les commandes.

\documentclass[a4paper, 11pt]{article} \title{Extensible Markup Language} \begin{document}

\maketitle \end{document}

TEX reste le standard de l'édition scientifique de qualité, en particulier pour la mise en forme des équations complexes. Toutefois, cela reste un langage de programmation d'apparence, et même avec les macros, il n'est pas conçu dès le départ pour structurer un contenu indépendamment de sa destination.

(5)

wiki

Une syntaxe wiki sait aussi séparer le contenu de la présentation. =={{lang|en|Extensible Markup Language}}==

'''XML''' ({{lang|en|Extensible Markup Language}}, « langage de balisage extensible »)…

Cependant, cette structuration repose ici sur des séquences de caractères particulières (===, '''). Or, le nombre de caractères sans signification n'est pas indéfini. Un tel format peut être approprié pour un seul type de document, mais ce n'est pas une syntaxe générique et facilement extensible.

XML, format textuel, structuré, et extensible

Comparé aux langages plus haut, XML est une syntaxe générique et extensible. Il permet de structurer une grande variété de contenus, car son « langage » (vocabulaire et grammaire) peut être redéfini.

Composants d'un document XML : les nœuds

La plupart des composants d'un document XML[16] peuvent être représentés par un arbre. Ce sont donc des nœuds. Ce modèle fait d'ailleurs l'objet d'une définition très précise (DOM

Document Object Model « modèle objet de document (XML) »), afin de permettre à des

langages de programmation de manipuler du XML. Nous nous limiterons à énumérer les types de nœuds fondamentaux, que l'on peut identifier dans l'exemple artificiel suivant. <?xml version="1.0" encoding="UTF-8"?>

<élément-document xmlns="http://exemple.org/" xml:lang=";fr"> <élément>Texte</élément>

<élément>élément répété</élément> <élément>

<élément>Hiérarchie récursive</élément> </élément>

<élément>Texte avec<élément>un élément</élément>inclus</élément> <élément/>

<élément attribut="valeur"></élément> </élément-document>

(6)

La racine du document /

En informatique, un arbre a généralement une et une seule racine (ce qui n'a pas d'ancêtres). La racine d'un document XML se situe donc derrière tous les nœuds (sauf le prologue, qui n'est pas un nœud). Dans un langage d'accès à un document XML, XPath, la racine du document est notée avec la barre oblique /, comme l'arbre d'un système de fichiers Unix.

Pour être bien formé, un document XML doit avoir un et un seul élément à la racine, parfois désigné par « élément document ». La racine accepte aussi les commentaires, et des instructions de traitement, mais surtout pas de texte.

Les éléments <élément/>

L'élément[17] a un nom, précisément qualifié, et peut porter tous les types de nœuds : attributs, texte, éléments… Le fait qu'un élément puisse avoir des enfants texte et des enfants éléments a beaucoup de conséquences pour en faire un format de données très souple (comparé par exemple à une table relationnelle). La qualification des noms contribue aussi à la précision sémantique des contenus balisés.

Un exemple de notice bibliographique permettra de mieux montrer le potentiel de ce format, il utilise le vocabulaire Dublin Core.

<ex:collection xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns="http://www.w3.org/1999/xhtml" xmlns:ex="http://exemple.org"> <dc:title>[[Astérix le Gaulois]]</dc:title> <ex:livre>

<dc:title>[[Astérix chez les Belges]]</dc:title> <dc:creator>[[René Goscinny]]</dc:creator>

<dc:creator>[[Albert Uderzo]]</dc:creator> <dc:type>Text</dc:type>

<dc:description>

<b>Astérix chez les Belges</b> est un album de

<a href="http://fr.wikipedia.org/wiki/Bande_dessinée">bande dessinée</a> de la série Astérix le Gaulois créée par René Goscinny et

Albert Uderzo.

Cet album publié en 1979 est le dernier de la série écrit par René Goscinny.

</dc:description> </ex:livre>

</ex:collection>

répétable

Une même propriété peut être répétée. L'exemple montre comment indiquer qu'un livre a plusieurs auteurs (dc:creator [18]). Dans un format tabulaire, avec un nombre de colonnes défini, ce n'est pas impossible, mais moins spécifié.

(7)

L'ordre des éléments est conservé. Quel que soit le langage employé, un outil XML doit permettre de distinguer le premier auteur du second (exemple : en XPath, /ex:collection/ex:livre/dc:creator[1] = "[[René Goscinny]]", /ex:collection/ex:livre/dc:creator[2] = "[[Albert Uderzo]]").

hiérarchique

Les éléments XML sont imbricables. Ceci rend ce format particulièrement adapté à représenter des arbres. Ici, on s'est limité à 2 niveaux (/ex:collection/ex:livre), une collection avec un titre (Astérix le Gaulois), et un exemple d'ouvrage de cette collection (Astérix chez les Belges). XML permet une récursivité complète. Par exemple, un livre, ou une thèse, peut être formaté très économiquement avec un élément <section [19]>. La partie 2.3.5 correspondra à une structure d'imbrication XML /section[2]/section[3]/section[5].

mélangeable

Enfin, ce qui fait qu'XML est plus qu'un format de données, c'est la possibilité de

mélanger du texte et des éléments. L'exemple montre comment le texte de la

description (dc:description [20]) est enrichi avec des balises XHTML (du gras <b [21]> et un lien <a [22]>).

Noms qualifiés - Cette souplesse, et l'eXtensibilité de XML est contrôlée par la

qualification des noms. Vous aurez remarqué dans l'exemple de code que la plupart des éléments sont des liens. Comme il s'agit de standards, ils disposent d'une documentation officielle en ligne. Pour une notion commune comme un titre, cela ne semble pas nécessaire. Mais pour des noms beaucoup plus ambigus, comme type, il est très important de déterminer le vocabulaire dans lequel interpréter le mot. Ainsi, Dublin Core est un vocabulaire de métadonnées bibliographiques, type [23] qualifiera des types de document : Text, Image, Sound… Dans un vocabulaire dédié à la documentation informatique comme Docbook, type [24] a le sens de type de données.

xmlns="URI" - En XML, les noms d'éléments devraient toujours être identifiés par une

URI. C'est l'objet des attributs xmlns:* sur l'élément racine de l'exemple (xmlns:dc="http://purl.org/dc/elements/1.1/") et des préfixes sur certains

noms (dc:type est identifié par l'URI de l'attribut xmlns:dc). Il n'est pas nécessaire ici de détailler plus cette syntaxe. L'essentiel est de retenir qu'en XML, le nom d'un élément ne se choisit pas au hasard, qu'il résulte d'un travail de modélisation, qu'il est précisément identifié.

Le texte

Un nœud texte[25] n'a pas d'enfants, il est toujours contenu dans un élément. Par défaut, il sera traité comme de l'Unicode en UTF-8 ou UTF-16. XML permet de spécifier d'autres encodages dans le prologue (ex. : <?xml version="1.0" encoding="ISO-8859-1"?>). Ce simple choix a déjà apporté une énorme simplification aux problèmes d'encodages que l'on rencontre encore en informatique.

Le traitement des espaces et sauts de lignes en XML[26] peut apporter quelques surprises. Sous sa forme texte, un fichier XML sera probablement indenté par son auteur. La recommandation n'oblige pas un processeur XML à conserver ces espaces non significatifs, sauf instructions particulières (exemple : bloc préformaté <pre [27]>). Il en résulte que le texte XML proposé à un processeur peut ne pas revenir à l'identique après traitement, ce qui cause des désagréments dans certaines applications.

(8)

texte mêlé - Dans le cas des textes mêlés (exemple : <p> du texte en <b>gras</b> dans

un paragraphe</p>), l'élément parent a plusieurs enfants texte et éléments qui se succèdent, ce n'est pas le texte qui contient un élément (exemple : p/node()[1]="du texte en ", p/node()[2]="<b>gras</b>", p/node()[3]=" dans un paragraphe"). Cette petite remarque n'a d'importance que dans certaines interfaces de manipulation XML (DOM), elle permet aussi de fixer la définition.

Les attributs, <élément attribut="valeur"/>

Un attribut est un nom et une valeur, la valeur peut être vide <element attribut=""/>, mais pas nulle <s><element attribut> (cette écriture était permise en SGML, on la rencontre encore parfois à propos d'HTML, mais elle n'est pas acceptée en XML). Un nom d'attribut a les mêmes possibilités de qualification qu'un nom d'élément.

La valeur est un texte sans élément (ni autres nœuds). Un attribut est toujours porté par un élément. Un attribut est unique. La répétition d'un attribut de même nom sur le même élément provoquera une erreur du processeur XML. L'ordre des attributs n'est pas significatif, et peut ne pas être conservé dans certains traitements. <element attribut1="valeur1" attribut2="valeur2"/> et <element attribut2="valeur2" attribut1="valeur1"/> sont équivalents pour un processeur XML, même s'ils sont écrits différemment.

Les commentaires

En XML, les commentaires[28] sont délimités par . Le contenu d'un commentaire ne sera pas interprété.

.

La chaîne de caractères « -- », pour des raisons de compatibilité avec SGML, ne peut apparaître dans le contenu du commentaire.

Style - Il est théoriquement possible de traiter le contenu des commentaires XML avec un

processeur. Un exemple où cela peut être utile : transformer de la programmation en XML (exemple : XSLT) afin d'en fournir la documentation. Mais il s'agit d'un cas limite, une application XML ne doit pas s'appuyer sur le contenu des commentaires.

Le prologue

En XML, le prologue[29] est constitué de la déclaration XML <?xml version="1.0"?>, et de la déclaration de type de document (DOCTYPE). La déclaration XML est obligatoire à partir de la version 1.1. La déclaration DOCTYPE avait une grande importance en SGML. Elle attache le document traité par un processeur à son schéma (DTD, Document Type

Definition, « Définition de Type de Document »), afin de le valider, et d'interpréter certains

raccourcis (les entités). Désormais, il existe plusieurs langages de validation, et parfois plusieurs manières de les attacher. La déclaration DOCTYPE n'a plus la même importance.

(9)

Autres nœuds

Afin d'être complet on mentionnera aussi :

• Les instructions de traitement[30] , <?xml-stylesheet href="transform.xsl"

type="text/xsl"?> <?clé valeur?>, des nœuds destinés aux logiciels traitant le XML ; • Les sections d'échappement[31] , <![CDATA[<ceci> ne sera pas considéré comme un

élément ]]>.

Utilisations et langages dérivés

SGML était une syntaxe générique, permettant de définir des langages spécialisés, comme HTML, mais il était surtout dédié au balisage de documents. En simplifiant SGML, les concepteurs d'XML prévoyaient d'élargir l'usage des chevrons (< >) à bien d'autres emplois, comme par exemple, la programmation. Les premiers langages basés sur XML par le W3C dessinent plusieurs directions d'utilisation.

• 1999, RDF Resource Description Framework(en) [32] « cadre de description de ressource »(fr) [33]. Ce modèle abstrait vise à définir un réseau de métadonnées adapté au web, représentable en XML.

• 1999, XSLT eXtended Stylesheet Language Transformations « langage XML de feuilles de style, transformations ». Afin d'employer XML, il faut pouvoir le transformer. James Clark avait écrit un langage équivalent pour SGML (DSSSL, 1996), avec XSLT, il propose une syntaxe XML, permettant par exemple de transformer un contenu XML vers (x)HTML, ou XSL-FO.

• 2000, XSL-FO eXtended Stylesheet Language - Formatting Object « langage XML de feuilles de style - Formatage d'objets ». XSL-FO est un langage de description de

document permettant de composer un livre, ou un document PDF. C'était un complément indispensable à XML pour les industries de l'édition.

• Enfin, il fallait une nouvelle syntaxe schéma tenant compte des espaces de noms pour remplacer les DTDs (ce qui deviendra XML Schema).

Quelques mois après sa sortie, XML est donc utilisé pour encoder des données, programmer des transformations, représenter un objet imprimable, et définir le schéma d'un document XML. Ceci annonce la variété des utilisations de cette syntaxe. Quelques années après, le catalogue est beaucoup plus important, couvrant des usages comme : • langage de balisage de documents,

• format de données,

• langage de description de format de document (DSDL), • langage de représentation (texte, image…),

• langage de programmation, • protocole de communication.

Ces catégories permettent une classification approximative des langages à base XML (ou acceptant une expression XML). La liste des langages plus bas repère quelques spécifications marquantes. Elles ont fait date dans le monde XML. Les succès, ou les critiques, permettent aussi de montrer à quoi XML est bon, et là où il est parfois discuté.

(10)

Balisage de document

Le balisage de document est le métier initial d'XML. Les DTD SGML publiques comme TEI et Docbook l'ont adopté. XML aurait pu permettre l'apparition de nombreux autres schémas. On assiste plutôt à l'apparition de vocabulaires spécialisés, et combinables à l'exemple de la modularisation XHTML[34] :

• XHTML - eXtensible HyperText Markup Language, Langage de balisage hypertexte • Docbook - documentation technique, 1991 à 1997 O'Reilly, 1998 à … OASIS, (Norman

Walsh).

• TEI - Text Encoding Initiative, balisage de textes académiques, 1987, 1994, 1999, 2002, Text Encoding Initiative [35].

• EAD Encoded Archival Description, description archivistique, 1993, 2002, Bibliothèque du Congrès.

• NITF News Interchange Text Format, échange d'articles de presse, 2000, 2002, IPTC. • NewsML News Markup Language, balisage de dépêche de presse, 2000, 2002, IPTC.

Format de données

XML s'est imposé comme format de référence pour l'échange de données, notamment de métadonnées. L'exemple d'un transfert d'informations entre base de données relationnelles permettra d'illustrer les avantages et limites de ce format pour cet usage.

L'exportation d'une table peut se faire en csv. Mais ce format comporte vite des limites à grande échelle (Internet). Il n'est pas auto-documenté (encodage du texte, séparateurs, ordre et nom des colonnes ?). Il demande une documentation externe rarement automatisée entre les partenaires. Que faire lorsque les tables source et destination n'ont pas des structures identiques ? Pour cette raison, on peut préférer des échanges en SQL (à la fois langage de définition de données et langage de manipulation de données). Cependant, malgré de nombreux efforts de normalisation, SQL comporte beaucoup de risques d'incompatibilité entre les implémentations [36]. XML est une solution plus robuste. On peut en constater l'efficacité sur Internet avec la Syndication. Il n'y a pas d'exemple connu d'échange de métadonnées réparties sur autant de « clients » et de « serveurs ».

Verbosité ? - Comparé à l'export CSV d'une table, XML réplique le nom de la colonne pour

chaque cellule (une fois pour un attribut, deux fois pour un élément). Le poids du fichier généré est supérieur à celui d'un fichier CSV. Dans des contextes où la bande passante est coûteuse (exemple : téléphonie mobile), cela n'a pas semblé poser de problème (WML), car ces répétitions se compressent très bien (zip).

Traitement lourd ? - Traiter du XML demande des bibliothèques dédiées (processeur

XML). Cela n'ajoute pas vraiment du temps de développement supplémentaire, du moins pour des équipes formées. Pour des petites tâches, un parseur ligne à ligne est parfois plus simple. Mais si la donnée se destine à se complexifier, à s'échanger plus largement, il vaut mieux choisir XML dès le départ.

XML : données ou document ? - Cette section est l'occasion de marquer la distinction

entre XML données et XML document. Il ne s'agit pas d'une différence dans la syntaxe, mais dans ses usages, ses outils et ses communautés d'utilisateurs. Par SGML, XML vient du document. On lui a reproché par exemple ne pas avoir (nativement) de typage fort. On rencontre un mouvement analogue mais contraire en SQL. C'est originalement un format de données, on lui demande de plus en plus de traiter du texte. (CMS LAMP). En ce qui concerne XML, cette opposition se traduit dans la direction des efforts de spécification

(11)

(types de données XML Schema [37], XPath 2.0 [38], XSLT 2.0 [39]) avec des réactions du monde documentaire (Relax NG).

(principe plus que norme). • Atom - syndication, 2003, IETF. • OWL - Ontologies (W3C)

• GML - Données géographiques (Open Geospatial Consortium) • Dublin Core - bibliographie (dublincore.org [40])

• MODS [41] - bibliographie (Bibliothèque du Congrès, USA)

• METS - échange de collection de fichiers (Bibliothèque du Congrès, USA) • BiblioML - bibliographie (Bibliothèque nationale de France)

• EbXML - commerce électronique (OASIS) • XBRL - Données comptables

• XMI - XML Metadata Interchange

Langages de schéma

Un processus XML complet comporte une étape de validation des documents. C'est le rôle d'un schéma de définir ces règles de validité. Faut-il que ce schéma soit en XML ? La question ne se posait pas en SGML, qui connaissait surtout les DTDs, une syntaxe texte. Les limites rencontrées alors concernaient surtout la documentation des éléments et attributs déclarés(en) [42]. La documentation est très importante pour la réussite d'un standard XML. Celles de Docbook [43] ou TEI [44] constituent des livres complets, avec même des versions imprimées.

Ces communautés ont attendu avec impatience ce que donnerait XML Schema. Les nombreux outils de documentation automatiques qui sont apparus, avec un simple jeu d'XSLTs, prouvent l'intérêt d'XML comme langage de description de format de document. Cependant, pour des choses simples, XML Schema s'est avéré difficile. Est-ce l'effet de trop de concessions ? Toujours est-il que malgré le nombre d'éditeurs derrière le W3C, la communauté est très intéressée par Relax NG, de James Clark. Ce modèle accepte une syntaxe XML, et depuis 2003, propose aussi une forme compacte, textuelle, qui n'est pas XML.

Autrement dit, il n'y a plus de réponse unique. Un schéma XML peut se définir dans un vocabulaire XML, ou autrement. L'évolution actuelle est de pouvoir combiner plusieurs langages de schémas, notamment le typage fort d'XML Schema [45], avec des motifs XPath pour Schematron, dans du Relax NG[46] .

• DTD Document Type Definition « définition de type de document », ISO. • XML Schema langage de Schéma XML, W3C, 2001.

• Relax NG, DSDL acceptant une forme XML et une syntaxe compacte, ISO , 2001. • Schematron, validation par motifs, ISO, 2001.

(12)

Langages de représentation

On vante souvent → XML pour sa faculté de séparer contenu, présentation et traitement. Attention, XML rend cette séparation possible, mais il n'interdit pas de tout mélanger, comme dans certaines pages XHTML sur Internet. En tous cas, ce format extensible a prouvé qu'il pouvait conserver la présentation des documents pour les applications les plus exigeantes. La variété des applications l'utilisant en est la preuve.

• OpenDocument - tous les documents bureautiques, OpenOffice.org, 2001.

• Word - le format natif de Microsoft Word (traitement de texte) est en XML depuis sa version 2003.

• XSL-FO - eXtensible Stylesheet Language - Formatting Objects, langage extensible de stylage - formatage d'objets, W3C, 2001.

• SVG - Scalable Vector Graphics, graphiques vectoriels 2D, W3C, 2003. • MathML - formules mathématiques, W3C, 1999, 2001, 2003.

• SMIL - Synchronized Multimedia Integration Language, Intégration multimédia, W3C, 1998, 2005.

• X3D - 3D multimédia, consortium Web3D.

Langages de programmation

Dans de nombreuses applications, il est parfois pratique de développer un langage spécialisé, à usage local. Avec un schéma, un dialecte → XML dispose d'une grammaire (un peu comme BNF). En guise de compilateur, il suffit par exemple d'une transformation XSLT qui génère du code Java, comme pour une bibliothèque de balises (taglibs). Cet exemple montre comment la syntaxe XML permet de définir des langages de programmation.

En théorie, la structure en arbre d'XML permet de représenter la hiérarchie d'un programme objets, ou l'imbrication des instructions d'un langage impératif. En pratique, les boucles sont le cas limite à partir duquel XML devient trop verbeux. Par contre, cette écriture est remarquablement adaptée aux syntaxes déclaratives (configuration, définition d'interface), et même, popularise les algorithmes fonctionnels (XSLT, logique d'une application web).

Il en résulte que l'on trouve de plus en plus d'XML dans les logiciels. Dans certains frameworks de développement web, il est possible de monter une application complète et complexe, en n'éditant que du XML.

• XSLT - Extended Stylesheet Language Transformations, transformation de document XML, W3C, 1999.

• XML Query - requête et transformation XML, W3C, 2005. • ANT - scripts de compilation, ASF.

• Servlet - serveur d'application Java, configuration et logique fonctionnelle, Sun Microsystems.

• UIML - User Interface Markup Language, définition d'interface, OASIS, 1997. • XUL - XML-based User interface Language, définition d'interface, Mozilla, 2000. • XAML - définition d'interface, Windows Vista, 2006.

(13)

Protocoles d'échanges

Un protocole spécifie l'échange de contenus et d'instructions, entre un client et un serveur. HTTP est un modèle de protocole (qui n'est pas XML mais textuel). XML permet de baliser des contenus et d'écrire des instructions de programmation. L'universalisation de la connexion HTTP comme des processeurs XML explique pourquoi XML devient une solution courante pour créer un nouveau protocole.

• XForms - formulaires web (W3C)

• OAI - Open Archive Initiative Protocole Archives ouvertes, 2000, 2002 (OAI) • SOAP - RPC par HTTP (W3C)

• WSDL - Services web (W3C)

• WebDAV - Lecture/Écriture distante par HTTP (IETF)

• Jabber/XMPP - Messagerie instantanée et présence, multimédia (IETF)

Langages associés

Les langages associés à XML sont des syntaxes qui ne sont pas en XML mais très attachées à XML. CSS illustrera bien la notion. Il peut être contenu dans un attribut (@xhtml:style), dans un élément (<xhtml:style>), ou relié à un document XML par une instruction de traitement (<?xml-stylesheet href="common.css" type="text/css"?>). XPath fournit un autre exemple de spécification entièrement dédiée à XML, mais qui est justement sans éléments ou attributs, afin d'être associé à un langage XML (XSLT).

• CSS (Cascading Style Sheet) • DTD (Document Type Definition) • Espace de noms (Namespace) • SGML

• XPath et XQuery, langages de requête. NB: XQuery possède aussi une syntaxe XML, XQueryX.

Conclusion, étape suivante ?

En 2001, on demandait à James Clark, un expert XML et SGML, What's the next step for

XML? [48] « Quelle est l'étape suivante pour XML » ? Il répondit d'abord que cela revenait à

demander quelle est l'étape suivante pour le texte ASCII ou pour les fichiers à lignes délimitées. XML est en effet devenu un format aussi universel qu'Unicode pour structurer des contenus, comme un esperanto de l'informatique.

Qu'un arbre XML permette de représenter beaucoup de choses ne signifie pas que ce soit toujours la forme la plus adaptée, chaque utilisation a ses cas limites. Ainsi l'arbre bute sur un motif simple : l'intersection. Considérez ce texte tuilé : en gras et en italique. Le et appartient à deux zones, chose simulable mais pas native dans un arbre. On peut en faire une représentation XHTML comme ceci <strong>en gras <em>et</em></strong> <em>en italique</em>, dont on voit d'ailleurs qu'elle n'est pas unique, car la notion d'intersection est perdue. Ce détail se démultiplie dans les applications WYSIWYG qui produisent du XML (traitement de texte, SVG), rendant la source générée de moins en moins lisible par un humain. Ce détail amènera peut-être un nouveau format.

Selon James Clark en 2001, la nouveauté ne viendrait plus du format, mais de l'intégration applicative pour le traiter, c'est encore vrai en 2007.

(14)

Outils et processus XML

XML a désormais prouvé qu'il était une syntaxe très générique de balisage, propre à de nombreux usages. Cette réussite s'explique par des implémentations concurrentes de nombreuses interfaces de programmation (API) précisément spécifiées. Comment entre-t-il dans un processus applicatif ?

Pour détailler ces étapes, considérons le processus le plus simple, accessible depuis quelques années dans Internet Explorer ou Firefox. Ces navigateurs permettent de consulter des fichiers dans un XML sémantique (qui ne contient que des contenus, sans présentation), et de les voir comme des pages accompagnées de couleurs et de navigation. Ils sont transformés par le client, à l'aide d'une feuille XSLT. Prenons par exemple le site de Norman Walsh [49][50] . La source de la page servie ressemble à ceci :

<?xml version='1.0' encoding='utf-8'?>

<?xml-stylesheet href="/style/browser.xsl" type="text/xsl"?>

<title>XProc: An XML Pipeline Language</title> 

</xml>

Ce n'est pas du XHTML (ou du HTML) mais du DocBook. Les navigateurs ne sont pas capables de lire cette grammaire pour lui donner de la présentation. La page apparente est le résultat d'une transformation, signalée au navigateur par l'écriture <?xml-stylesheet href="/style/browser.xsl" type="text/xsl"?>. Le fichier browser.xsl explique comment transformer du DocBook en HTML. Le processus est immédiat, il est intéressant de le détailler, car on le retrouve dans des applications XML plus complexes.

1. produire : le document DocBook doit avoir été produit ou résulter d'un import ; 2. entrée : dans le navigateur, un parser lit le fichier XML pour construire un objet

informatique, et vérifie que le document est bien formé ;

3. transformation : le document DocBook est transformé en XHTML ;

4. inclusions : dans certains contextes, il est possible d'inclure des fichiers qui deviendront des nœuds ;

5. validation : le document peut être validé, pour vérifier que sa structure est conforme au schéma docbook ;

6. sortie : le navigateur s'occupe de rendre le résultat de la transformation en une page pour un utilisateur.

Cette succession canonique d'étapes illustre ce que peut être le tuyau d'un processus XML complet. Elles vont maintenant être expliquées pour montrer comment elles peuvent apparaître dans d'autres contextes applicatifs plus complexes.

(15)

Exporter et Produire

Une organisation qui a déjà son système d'informations qui n'est pas basée sur XML peut se demander comment produire du XML. Il existe de nombreuses manières d'exporter et de produire du XML, afin de rentrer dans une chaîne de processus XML.

• Traitement de texte, la plupart des logiciels bureautiques proposent un export XML, quand ils ne sont pas nativement XML (OpenOffice.org, Microsoft Word). Le plus simple est parfois d'enregistrer en HTML, récupérable moyennant un petit traitement. Il suffit de regarder les formats disponibles avec la fonctionnalité Enregistrer sous de son logiciel habituel.

• SQL, la plupart des SGBD proposent un export XML.

• Un éditeur XML est le meilleur moyen de faire produire par un humain un document correspondant exactement au schéma attendu.

Dans le cas en introduction, Norman Walsh utilise un simple éditeur de texte, emacs.

Parseurs et interfaces de programmation (API)

Avant d'entrer dans un processus XML, un contenu doit être « xmlisé ». Cette opération est effectuée par un processeur XML. Les parseurs les plus répandus sont :

• MSXML - Microsoft Core XML Services, le parseur XML Microsoft, 2000-2006, intégré au système d'exploitation Windows, accessible aux langages Microsoft, notamment en

JavaScript sur le navigateur Internet Explorer.

• libxml2 [51] - Le processeur XML libre du système d'exploitation linux, accessible en C , Python [52], PHP [53], et en Ruby [54]

• Xerces [55] - XML Java Parser, le parseur XML par défaut d'une machine virtuelle Java, accessible en Java

• Expat [56] - Le parseur XML de James Clark, notamment embarqué par les navigateurs mozilla (firefox).

• VTD-XML [57]

Il en existe beaucoup d'autres, en particulier en Java, adaptés à différents cas particuliers : ouvrir une API plus simple, accepter des documents mal formés comme HTML, traitements plus simples (notamment pour les documents longs).

Une fois « xmlisé », un document est accessible à différents langages, selon des interfaces de programmation standardisées. On distingue généralement l'approche DOM, modèle objet en mémoire, et l'approche SAX, génération d'événements.

• DOM, Document Object Model, constitue un objet en mémoire de la totalité d'un document XML. Cette API permet l'accès direct à tous les nœuds de l'arbre (éléments, texte, attributs), pour les lire, ou les modifier. Il est par exemple très utilisé sur les navigateur web avec JavaScript. Cette norme est écrite par le W3C.

• SAX, Simple API for XML, est une alternative intéressante à DOM pour le traitement de documents longs. Quand un document entre dans un processeur XML, du code SAX peut capturer des événements, comme l'ouverture et la fermeture d'une balise, afin par exemple, d'écrire dans une base de données. À l'inverse, il est possible de générer des événements SAX, par exemple à partir de la lecture d'une base de données, afin de produire un document consommé par une autre étape d'un processus XML.

(16)

D'autres API existent, comme JDOM, dom4J (Java), ou StAX. Il n'est toutefois pas nécessaire de « programmer » pour traiter du XML, notamment avec des langages de transformation comme XSLT. Dans le cas en introduction, votre navigateur charge automatiquement le document docbook, et passe le contenu à une transformation xslt.

Transformation

La transformation est l'étape d'un processus XML qui prend un document dans un certain schéma pour le transposer dans un autre espace de noms. L'exemple en introduction permet de bien comprendre l'opération. Soit un document textuel qui ne comporte que du contenu. Il sera nécessaire de lui ajouter au moins de la navigation avant de le diffuser sur Internet ; on en voudra aussi une version imprimée (pdf). La facilité de transformer un document XML, notamment avec XSLT, est une raison importante pour choisir ce format.

Inclusions

Un document XML peut être constitué de plusieurs fichiers. Il y a deux normes actuellement concurrentes.

• les entités externes[58] , issues de SGML, résolues a priori par un parseur validant, avant tout traitement du document.

• xinclude[59] , un élément XML dédié, pouvant être traité comme une étape séparée. Les spécifications et les implémentations privilégient maintenant xinclude, bien que son adoption ait pu être discutée[60] .

Considérons l'exemple d'un catalogue de produits pour voir les effets de l'un et de l'autre. On aura chaque produit sous la forme d'un document XML, et un document maître qui assemble toutes les références. En entités, cela s'explique ainsi.

<!DOCTYPE catalogue [

<!ENTITY article001 SYSTEM "articles/article001.xml">

<!ENTITY article002 SYSTEM "articles/article002.xml">

]>

<catalogue xmlns="http://exemple.net/ns"> <titre>catalogue</titre>

&article001;

&article002;

</catalogue>

On remarquera que les entités sont déclarées en entête de document, puis appelées par une écriture du type &entité;. Cette syntaxe est initialement prévue pour des raccourcis, afin de factoriser l'écriture de variables comme un nom de produit ou une société. Ce mécanisme a été étendu pour résoudre les problèmes d'encodage en ASCII avant l'Unicode. Ce sont les entités caractère comme é=&#E9;=é. Pour le cas d'une inclusion d'un fichier, cela demande deux déclarations, celle du lien, celle de son appel. Ce moyen reste massivement employé par les sociétés qui ont connu SGML, d'autant que son support est beaucoup plus généralisé que celui d'xinclude.

La résolution a priori des inclusions peut avoir des inconvénients, en particulier pour des documents maître très lourds que l'on peut vouloir travailler sans leur dépendances.

(17)

Xinclude [61] permet cela, ainsi que de générer ces relations automatiquement (XSLT). 

<catalogue xmlns="http://exemple.net/ns"

xmlns:xi="http://www.w3.org/2001/XInclude"> <titre>catalogue</titre>

<xi:include href="articles/article001.xml"/> </catalogue>

On retrouve cette évolution vers la modularisation d'XML où l'inclusion devient une étape optionnelle d'un processus.

Validation

La validation est l'opération automatique qui vérifie la conformité d'un document XML à son schéma. Elle a pour but de délivrer des messages comme il n'y a pas de titre au

chapitre 5, ou bien, la date de fabrication est dans le futur. La précision et la convivialité de

cette vérification dépendent de la syntaxe utilisée.

En SGML, la validation s'effectuait toujours avant l'entrée d'un document XML dans un processus. On parlait de parser validant. Il n'y avait alors qu'un seul langage de validation (les DTDs) déclarés d'une seule manière à l'intérieur du document XML (la déclaration

DOCTYPE, Type de document). La pratique a montré que la validation n'est pas toujours

nécessaire, et même, contre performante. Dans d'autres cas, plusieurs étapes de validation peuvent être utiles, par exemple, une pour vérifier la structure de l'arbre XML, une autre pour vérifier les liens. L'évolution va vers une étape de validation distincte, déclarée à l'extérieur du document, et gérée selon les besoins du logiciel.

Les parseurs XML gardent l'ancien usage de conserver les bibliothèques logicielles de validation. Cependant la fonctionnalité peut être débranchée, ou appelée séparément. Il existe aussi des bibliothèques uniquement dédiées à la validation. Le déploiement actuel rend la validation XML nativement accessible à la plupart des systèmes, et dans la plupart des langages de programmation.

• MSXML - Microsoft Core XML Services, validation DTD et XML Schema.

• libxml2 [62] - Validation DTD et Relax NG (le support XML Schema est partiel, surtout pour le typage de données au sein de Relax NG).

• Xerces [63] - XML Java Parser, validation DTD et XML Schema.

• Jing [64] - a Relax NG validator in Java, un validateur qui n'est pas un parseur pour Relax NG et Schematron.

• XSLT - Une transformation XSLT permet une validation très précise sur un type de document, c'est couramment utilisé dans une application web pour rendre à l'utilisateur des messages plus conviviaux, cet outil suffit aussi pour utiliser une implémentation Schematron.

(18)

Sorties

Dans le cas en introduction, le navigateur est le consommateur final de XML, sous la forme de xhtml. Chaque langage XML de représentation (XSL-FO, SVG…) peut être consommé par une application utile à l'utilisateur. Certains formats peuvent être traités par plusieurs bibliothèques logicielles.

• (en) Apache Batik [65], API Java traitant des documents SVG (exemple : export JPG, PNG). • (en) FOP, le sérialiseur XSL-FO d'Apache [66]

• (en) XEP [67], processeur XSL-FO et SVG commercial, RenderX.

« Tuyaux » (XML Pipeline)

Les étapes décrites plus haut sont en cours de normalisation par le W3C (XML Processing

Model Working Group [68]). La terminologie [69] est officialisée. Ces idées ont déjà des

implémentations concurrentes dans plusieurs frameworks (Apache Cocoon, Orbeon Presentation Server…). L'idée de tuyaux XML existe avant d'avoir été spécifiée.

Un tuyau est une entrée (Input Document), une sortie (Output Document), et une chaîne d'étapes (Step). Ces étapes traitent un flux XML (XML Information Set, Infoset [70]). La notion de flux d'information n'est pas spécifique à XML, on la retrouve à grande échelle dans l'informatique réseau, ou très simplement en ligne de commande Unix, avec la barre verticale, pipe en anglais). L'originalité réside dans la structuration propre à XML. Les octets traités par ces tuyaux sont des documents structurés. Les étapes sont standardisées et combinables. Elles sont définies par des composants (components) paramétrables (parameter), le tout en XML.

Conclusion

Les principes de la syntaxe XML s'acquièrent en quelques heures, avec un simple éditeur de texte. Tout utilisateur de traitement de texte gagne à y être sensibilisé, afin de comprendre les principes de la rédaction structurée. Connaître ce formalisme peut motiver à utiliser les styles (exemple : les titres hiérarchiques), afin de produire des documents récupérables, par exemple pour HTML et Internet. Un développeur web ne peut plus ignorer XML. Il en manipule pour rendre son HTML dynamique, sous la forme d'un DOM. Avec le web 2.0 et AJAX, ces standards pénètrent sa pratique quotidienne. Le développement serveur est lui aussi confronté de plus en plus souvent à des composants configurables en XML, particulièrement en Java. Enfin, ce formalisme s'accompagne de pratiques, de motifs de conception (design patterns), complètement adaptés aux architectures MVC (Modèle Vue Contrôleur). XML et les standards attachés pénètrent tous les secteurs de l'informatique. Il y a quelques années, on pouvait se demander, pourquoi XML ? Maintenant, la charge de la preuve est de l'autre côté, il faut de sérieux arguments pour y échapper.

(19)

Notes et références

(en) Extensible Markup Language (XML) 1.0 [71], W3C Recommendation 16 August 2006 : [1] http://www.w3.org/

[2] http://www.w3.org/TR/2008/REC-xml-20081126/ [3] http://www.w3.org/TR/2006/REC-xml11-20060816

[4] Ce nom est une idée de James Clark, elle est très bien expliquée par Tim Bray dans sa spécification annotée (http://www.xml.com/axml/notes/TheCorrectTitle.html). Comme en anglais la lettre X se prononce « eks », elle peut être utilisée dans les sigles pour abréger un ou plusieurs mots commençant par ce même son comme eXtensible ou eXperience (XP). Un bon nombre de langages ont également affiché leur parenté avec XML en s'adjoignant un X, comme XHTML.

[5] http://www.w3.org/TR/1998/REC-xml-19980210

[6] http://pages.videotron.com/fyergeau/w3c/xml10/REC-xml-19980210.fr.html [7] http://www.w3.org/TR/1998/REC-xml-19980210

[8] http://pages.videotron.com/fyergeau/w3c/xml10/REC-xml-19980210.fr.html [9] http://www.xml.com/axml/testaxml.htm

[10] http://docbook.org/tdg5/en/html/title.html [11] http://docbook.org/tdg5/en/html/para.html [12] http://docbook.org/tdg5/en/html/acronym.html

[13] http://www.w3.org/TR/REC-html40/struct/global.html#edef-HTML [14] http://www.w3.org/TR/xslt#element-stylesheet

[15] http://www.w3.org/TR/xslt#element-transform

[16] (en) document (http://www.w3.org/TR/REC-xml/#sec-white-space) [17] les éléments (http://www.w3.org/TR/REC-xml/#sec-starttags) [18] http://dublincore.org/documents/dcmi-terms/#creator [19] http://docbook.org/tdg5/en/html/section.html

[20] http://dublincore.org/documents/dcmi-terms/#description [21] http://www.w3.org/TR/html4/present/graphics.html#edef-B [22] http://www.w3.org/TR/html4/struct/links.html#edef-A [23] http://dublincore.org/documents/dcmi-terms/#type [24] http://docbook.org/tdg5/en/html/type.html

[25] (en) le texte (http://www.w3.org/TR/REC-xml/#syntax)

[26] (en) espaces vides (http://www.w3.org/TR/REC-xml/#sec-white-space) [27] http://www.w3.org/TR/REC-html40/struct/text.html#edef-PRE

[28] commentaires (http://www.w3.org/TR/REC-xml/#sec-comments) [29] prologue (http://www.w3.org/TR/REC-xml/#sec-prolog-dtd)

[30] (en) Instructions de traitement (http://www.w3.org/TR/REC-xml/#sec-pi) [31] (en) sections d'échappement (http://www.w3.org/TR/REC-xml/#sec-cdata-sect) [32] http://www.w3.org/TR/1999/REC-rdf-syntax-19990222/

[33] http://www.la-grange.net/w3c/REC-rdf-syntax/

[34] (en) XHTML Modularization 1.1 (http://www.w3.org/TR/xhtml-modularization/), W3C Working Draft 5 July 2006 [35] http://www.tei-c.org/ [36] http://sqlzoo.net/ [37] http://www.w3.org/TR/xmlschema-2/ [38] http://www.w3.org/TR/xpath20/ [39] http://www.w3.org/TR/xslt20/ [40] http://dublincore.org

[41] http://www.loc.gov/standards/mods/ [42] http://dtdparse.sourceforge.net/

[43] http://www.docbook.org/tdg5/en/html/docbook.html [44] http://www.tei-c.org/release/doc/tei-p5-doc/html/ [45] http://www.w3.org/TR/xmlschema-2/

[46] Eric van der Vlist, RELAX NG, « W3C XML Schema Type Library », O'Reilly & Associates, 2003 (ISBN 0596004214)

[47] http://logging.apache.org/log4j/ [48] http://www.ddj.com/184404686

[49] http://norman.walsh.name/2006/09/28/xprocfpwd.xml

(20)

[51] http://xmlsoft.org/

[52] http://xmlsoft.org/python.html [53] http://fr.php.net/libxml [54] http://libxml.rubyforge.org/ [55] http://xerces.apache.org/xerces2-j/ [56] http://expat.sourceforge.net/ [57] http://vtd-xml.sourceforge.net

[58] entités externes (http://www.w3.org/TR/REC-xml/#sec-external-ent) [59] xinclude (http://www.w3.org/TR/xinclude/)

[60] (en) Norman Walsh (http://norman.walsh.name/), XInclude, xml:base, and validation (http://norman. walsh.name/2005/04/01/xinclude).

[61] http://www.w3.org/TR/xinclude/ [62] http://xmlsoft.org/

[63] http://xerces.apache.org/xerces2-j/

[64] http://www.thaiopensource.com/relaxng/jing.html [65] http://xml.apache.org/batik/index.html

[66] http://xmlgraphics.apache.org/fop/index.html [67] http://www.renderx.com/

[68] http://www.w3.org/XML/Processing/

[69] http://www.w3.org/TR/xproc-requirements/#terminology [70] http://www.w3.org/TR/xml-infoset/

[71] http://www.w3.org/TR/REC-xml/#sec-white-space Autres référénces :

Voir aussi

Articles connexes

Autres technologies et théories intéressant XML : • Langages de balisage • SGML • Norme ISO/IEC 8859 • Norme ISO/IEC 10646 • CSS • XLink • XML Base

Liens externes

Références

• W3C Recommendation: Extensible Markup Language (XML) 1.0 (Fifth Edition) (http:// www.w3.org/TR/2008/REC-xml-20081126/) (en)

• W3C Recommendation: Namespaces in XML 1.0 (Second Edition) (http://www.w3.org/ TR/2006/REC-xml-names-20060816/) (en)

• W3C Recommendation: xml:id Version 1.0 (http://www.w3.org/TR/2005/ REC-xml-id-20050909/) (en)

• W3C Recommendation: Extensible Markup Language (XML) 1.1 (Second Edition) (http:// www.w3.org/TR/2006/REC-xml11-20060816/) (en)

(21)

Divers

• Catégorie XML (http://dmoz.org/World/FranÃ§ais/Informatique/

• Spécification XML 1.1 (fr) (http://www.yoyodesign.org/doc/w3c/xml11/) (en) (http:// www.w3.org/TR/xml11/)

• Spécification XML 1.0 (fr) (http://pages.videotron.com/fyergeau/w3c/xml10/ REC-xml-19980210.fr.html) (en) (http://www.w3.org/TR/REC-xml/)

(22)

Sources des articles et contributeurs

Extensible Markup Language Source: http://fr.wikipedia.org/w/index.php?oldid=40496102 Contributors: 007, 0A0, 16@r, Alkarex, Alno, Amoreau,

Archibald, Auxerroisdu68, BMR, Badmood, BaroqueW, Bayo, BenoitL, Bigor, Billitch, Bob08, Boly38, Bombyx, Brion VIBBER, Brunetton, Bub's, Buzz, Cedric.ch, ChF, ChrisJ, Chtit draco, Citare, ClementSeveillac, Crochet.david, Daniel.bourrion, DanielLemire, Darkoneko, Derwin, Descartes, Didup, Dirac, DocteurCosmos, Ducloy, EDUCA33E, Eamoureux, Elg, Ethaniel, F-fff, FlashX, Flo Ka, Francois 1340, Francois Trazzi, Frédéric Glorieux, FvdP, GLec, GML, GillesC, GitiZone, Glorieux, Gribeco, Guisquare, Herman, Hubert Roksor, Inisheer, JB, Jef-Infojef, Jerome66, JihemD, Jmfayard, Jmh2o, Jpm2112, Kassus, Kelson, Kerflyn, Korg, Koyuki, LLB, Lastpixl, Laurent75005, Leafcat, Leag, Lgd, Litlok, Loup émeraude, Ludovic89, Marc Mongenet, Medhist, Medium69, Meszigues, MetalGearLiquid, Meuble2001, Michel BUZE, Misdre, Mwipliez, Nataraja, Nias, Nicolas Lardot, Nicolas Ray, Nono64, Nyco, Ollamh, Orthogaffe, Pautard, Pelote de laine, Pfv2, Phe, Philias, Philibre, Pierrot106, Rigou, Robert Weemeyer, Romainhk, Roucas, Rpa, Ryo, STyx, Sam Hocevar, Sanao, Selecto, Shawn, Stuart Little, Sweet Million, Sylvain d'Altaïr, Sylvestre, THA-Zp, Tarquin, Tensai, The RedBurn, Titouc330, Tornad, Traroth, Uld, Vargenau, Vberger, Vincent Ramos, W7a, Witoki, Wizad, Xafran, Xmlizer, script de conversion, 196 anonymous edits

(23)

Licence

Version 1.2, November 2002

Copyright (C) 2000,2001,2002 Free Software Foundation, Inc. 51 Franklin St, Fifth Floor, Boston, MA 02110-1301 USA Everyone is permitted to copy and distribute verbatim copies of this license document, but changing it is not allowed. 0.PREAMBLE

The purpose of this License is to make a manual, textbook, or other functional and useful document "free" in the sense of freedom: to assure everyone the effective freedom to copy and redistribute it, with or without modifying it, either commercially or noncommercially. Secondarily, this License preserves for the author and publisher a way to get credit for their work, while not being considered responsible for modifications made by others. This License is a kind of "copyleft", which means that derivative works of the document must themselves be free in the same sense. It complements the GNU General Public License, which is a copyleft license designed for free software.

We have designed this License in order to use it for manuals for free software, because free software needs free documentation: a free program should come with manuals providing the same freedoms that the software does. But this License is not limited to software manuals; it can be used for any textual work, regardless of subject matter or whether it is published as a printed book. We recommend this License principally for works whose purpose is instruction or reference.

1.APPLICABILITY AND DEFINITIONS

This License applies to any manual or other work, in any medium, that contains a notice placed by the copyright holder saying it can be distributed under the terms of this License. Such a notice grants a world-wide, royalty-free license, unlimited in duration, to use that work under the conditions stated herein. The "Document", below, refers to any such manual or work. Any member of the public is a licensee, and is addressed as "you". You accept the license if you copy, modify or distribute the work in a way requiring permission under copyright law.

A "Modified Version" of the Document means any work containing the Document or a portion of it, either copied verbatim, or with modifications and/or translated into another language.

A "Secondary Section" is a named appendix or a front-matter section of the Document that deals exclusively with the relationship of the publishers or authors of the Document to the Document's overall subject (or to related matters) and contains nothing that could fall directly within that overall subject. (Thus, if the Document is in part a textbook of mathematics, a Secondary Section may not explain any mathematics.) The relationship could be a matter of historical connection with the subject or with related matters, or of legal, commercial, philosophical, ethical or political position regarding them. The "Invariant Sections" are certain Secondary Sections whose titles are designated, as being those of Invariant Sections, in the notice that says that the Document is released under this License. If a section does not fit the above definition of Secondary then it is not allowed to be designated as Invariant. The Document may contain zero Invariant Sections. If the Document does not identify any Invariant Sections then there are none.

The "Cover Texts" are certain short passages of text that are listed, as Front-Cover Texts or Back-Cover Texts, in the notice that says that the Document is released under this License. A Front-Cover Text may be at most 5 words, and a Back-Cover Text may be at most 25 words.

A "Transparent" copy of the Document means a machine-readable copy, represented in a format whose specification is available to the general public, that is suitable for revising the document straightforwardly with generic text editors or (for images composed of pixels) generic paint programs or (for drawings) some widely available drawing editor, and that is suitable for input to text formatters or for automatic translation to a variety of formats suitable for input to text formatters. A copy made in an otherwise Transparent file format whose markup, or absence of markup, has been arranged to thwart or discourage subsequent modification by readers is not Transparent. An image format is not Transparent if used for any substantial amount of text. A copy that is not "Transparent" is called "Opaque".

Examples of suitable formats for Transparent copies include plain ASCII without markup, Texinfo input format, LaTeX input format, SGML or XML using a publicly available DTD, and standard-conforming simple HTML, PostScript or PDF designed for human modification. Examples of transparent image formats include PNG, XCF and JPG. Opaque formats include proprietary formats that can be read and edited only by proprietary word processors, SGML or XML for which the DTD and/or processing tools are not generally available, and the machine-generated HTML, PostScript or PDF produced by some word processors for output purposes only.

The "Title Page" means, for a printed book, the title page itself, plus such following pages as are needed to hold, legibly, the material this License requires to appear in the title page. For works in formats which do not have any title page as such, "Title Page" means the text near the most prominent appearance of the work's title, preceding the beginning of the body of the text.

A section "Entitled XYZ" means a named subunit of the Document whose title either is precisely XYZ or contains XYZ in parentheses following text that translates XYZ in another language. (Here XYZ stands for a specific section name mentioned below, such as "Acknowledgements", "Dedications", "Endorsements", or "History".) To "Preserve the Title" of such a section when you modify the Document means that it remains a section "Entitled XYZ" according to this definition.

The Document may include Warranty Disclaimers next to the notice which states that this License applies to the Document. These Warranty Disclaimers are considered to be included by reference in this License, but only as regards disclaiming warranties: any other implication that these Warranty Disclaimers may have is void and has no effect on the meaning of this License.

2.VERBATIM COPYING

You may copy and distribute the Document in any medium, either commercially or noncommercially, provided that this License, the copyright notices, and the license notice saying this License applies to the Document are reproduced in all copies, and that you add no other conditions whatsoever to those of this License. You may not use technical measures to obstruct or control the reading or further copying of the copies you make or distribute. However, you may accept compensation in exchange for copies. If you distribute a large enough number of copies you must also follow the conditions in section 3.

You may also lend copies, under the same conditions stated above, and you may publicly display copies. 3.COPYING IN QUANTITY

If you publish printed copies (or copies in media that commonly have printed covers) of the Document, numbering more than 100, and the Document's license notice requires Cover Texts, you must enclose the copies in covers that carry, clearly and legibly, all these Cover Texts: Front-Cover Texts on the front cover, and Back-Cover Texts on the back cover. Both covers must also clearly and legibly identify you as the publisher of these copies. The front cover must present the full title with all words of the title equally prominent and visible. You may add other material on the covers in addition. Copying with changes limited to the covers, as long as they preserve the title of the Document and satisfy these conditions, can be treated as verbatim copying in other respects.

If the required texts for either cover are too voluminous to fit legibly, you should put the first ones listed (as many as fit reasonably) on the actual cover, and continue the rest onto adjacent pages.

If you publish or distribute Opaque copies of the Document numbering more than 100, you must either include a machine-readable Transparent copy along with each Opaque copy, or state in or with each Opaque copy a computer-network location from which the general network-using public has access to download using public-standard network protocols a complete Transparent copy of the Document, free of added material. If you use the latter option, you must take reasonably prudent steps, when you begin distribution of Opaque copies in quantity, to ensure that this Transparent copy will remain thus accessible at the stated location until at least one year after the last time you distribute an Opaque copy (directly or through your agents or retailers) of that edition to the public.

It is requested, but not required, that you contact the authors of the Document well before redistributing any large number of copies, to give them a chance to provide you with an updated version of the Document.

4.MODIFICATIONS

You may copy and distribute a Modified Version of the Document under the conditions of sections 2 and 3 above, provided that you release the Modified Version under precisely this License, with the Modified Version filling the role of the Document, thus licensing distribution and modification of the Modified Version to whoever possesses a copy of it. In addition, you must do these things in the Modified Version:

1. Use in the Title Page (and on the covers, if any) a title distinct from that of the Document, and from those of previous versions (which should, if there were any, be listed in the History section of the Document). You may use the same title as a previous version if the original publisher of that version gives permission.

2. List on the Title Page, as authors, one or more persons or entities responsible for authorship of the modifications in the Modified Version, together with at least five of the principal authors of the Document (all of its principal authors, if it has fewer than five), unless they release you from this requirement.

3. State on the Title page the name of the publisher of the Modified Version, as the publisher. 4. Preserve all the copyright notices of the Document.