Une extension de TeX incluant UNICODE et des filtres du type Lex

(1)

Cahiers

enberg

GUT GUT GUT

m UNE EXTENSION DE TEX INCLUANT UNICODE ET DES FILTRES DU TYPE LEX

P YannisHaralambous, JohnPlaice Cahiers GUTenberg, n20 (1995), p. 55-79.

<http://cahiers.gutenberg.eu.org/fitem?id=CG_1995___20_55_0>

L’accès aux articles desCahiers GUTenberg (http://cahiers.gutenberg.eu.org/),

implique l’accord avec les conditions générales

d’utilisation (http://cahiers.gutenberg.eu.org/legal.html).

Toute utilisation commerciale ou impression systématique est constitutive d’une infraction pénale. Toute copie ou impression de ce fichier doit contenir la présente mention de copyright.

(2)

(3)

W , une extension de TEX incluant UNICODE et des filtres de type Lex

Yannis HARALAMBOUS^aet John PLAICE^b

Traduction franc¸aise d’Eric PICHERAL(CRI Rennes)

a187, rue Nationale ^bDe´partement d’Informatique 59800 Lille, France Universite´ Laval, Ste-Foy [email protected] Que´bec, Canada G1K 7P4

[email protected]

Re´sume´.Wcomprend un certain nombre d’extensions de TEX qui am éliorent ses possibilit és de traitement multilingue. On peut avoir plusieurs jeux de caract ères en entr ée comme en sortie, et un nombre quelconque de codages internes. On peut d éfinir des automates à états finis en utilisant une syntaxe à la^flexpour passer d’un codage à l’autre.

Dans cet article, on pr ésente à la fois une introduction technique et quelques applications trait ées par l’impl émentation actuelle deW. Ces applications concernent des probl èmes de composition que TEX (et par cons équent aucun autre syst ème connu des auteurs) ne sait r ésoudre. Elles sont vari ées, depuis le traitement des fontes calligraphiques (Adobe Poetica) jusqu’ à la simple composition du n éarlandais, du portugais ou du turc, en passant par l’arabe avec ses voyelles, ou encore un cr énage correct du cambodgien.

On mentionne quelques probl èmes queWne sait pas r ésoudre et qui sont des d éfis pour de futures versions deW^.

Abstract. Wconsists of a series of extensions to TEX that improve its multilingual capabili- ties. It allows multiple input and output character sets, and will allow any number of internal encodings. Finite state automata can be defined, using a^flex-like syntax, to pass from one coding to another.

In this paper both a technical introduction and a few applications of the current implemen- tation ofWare given. The applications concern typesetting problems that cannot be solved by TEX (consequently, by no other typesetting system known to the authors). They cover a wide range, going from calligraphic script fonts (Adobe Poetica), to plain Dutch/Portuguese/Turkish typesetting, to vowelized Arabic, fully diacriticized scholarly Greek, or decently kerned Khmer.

A few problemsW^cannotsolve are mentioned, as challenges for futureW^versions.

Au d épart, l’id ée de base deWconsiste à s éparer les trois principaux composants d’un syst ème de composition :

Interface utilisateur — E´change d’information — Typographie

Ces composants ne sont pas clairement s épar és dans TEX, et cela cr ée de nombreux probl èmes quand il s’agit de traiter d’autres langues que l’anglais. Voici un exemple de

(4)

cette situation, signal ée dans [14] : pour composer le caract ère cyrillique^cen utilisant les macros et les polices de l’AMS (Soci ét é Math ématique Am éricaine) [1], il faut saisir les codesASCIIts. La saisie detsfait partie de l’interface utilisateur de TEX. On obtient^cgr âce au composant typographique de TEX. On n églige le composant échange d’information : un texte cod é en KOI-8 ou enISO8859-5 ne peut être trait é directement en utilisant ce sch éma : il faut utiliser un pr é-traitement ou bien des caract ères actifs pour la translit ération AMS. Mais l’algorithme de c ésure — qui dans le cas de l’anglais d écom- posera la ligature «» en «^f-i» — peut s éparer^cen^t-s, ce qui est inacceptable. Cela survient parce que la c ésure (qui est un processus appartenant clairement au composant typographique de TEX) est activ ée alors que les donn ées sont encore cod ées de la m ême façon que dans l’interface utilisateur :^cn’est pas encore reconnu comme une entit é in- divisible, TEX ne connaıˆt que la paire de codesÂSCIIts^.

Avec W, on évite ce probl ème ; de plus, on peut utiliser n’importe quel codage d’ échange pour saisir le texte, ce qui est possible parce que des processus s épar és convertissent les flux d’information entre les trois composants : dans l’interface utilisateur, on peut tr ès bien taper les caract èrestsqui seront convertis en un caract ère

ISO10646/UNICODEde code0x0446⁽CYRILLIC SMALL LETTER TSE). Un texte cod ´e selon un codage d’ ´echange quelconque, qu’il soit 8 ou 16 bits, sera aussi converti enISO

10646/UNICODE. Enfin, avant de passer la main au composant typographique deW, les caract `eresISO10646/UNICODEseront traduits selon les positions correspondantes des polices de sortie, et alors seulementWactivera l’algorithme de c ´esure.

Cet article comprend deux parties : la premi ère, qui émane de [13], est une introduction technique àW; la deuxi ème, provenant de [8], d écrit quelques applications simples, principalement dans le domaine de la composition multilingue.

1. Une introduction `a W

1.1. Codages et recodages

Si on fait abstraction des probl èmes li és à la mise en page, la composition peut être perçue comme un processus qui convertit une chaıˆne de caract ères en une chaıˆne de glyphes. Ce processus peut être tr ès simple ou tr ès complexe. Le cas le plus simple est sans doute l’anglais ou`, dans la plupart des cas, le codage d’entr ée comme le codage des polices en sortie est l’ASCII; aucune conversion n’est ici n écessaire. À l’oppos é, on pourrait imaginer une transcription latine de l’arabe qui produise un texte en arabe avec toutes ses voyelles et ligatures ; ici il faudra interpr éter la translit ération, puis d éterminer le trac é correct de chaque consonne, et enfin choisir les ligatures et placer les voyelles

— le processus est bien plus complexe.

TEX suppose qu’il y a deux codages de base : le codage d’entr ée et le codage interne, chacun d’entre eux utilisant un maximum de 8 bits. La conversion du codage d’entr ée vers le codage interne se fait par le biais du tableauxord. Un caract ère en entr ée est lu et converti selon le tableauxord. Le codage de sortie est le m ême que le codage

(5)

interne, à la diff érence pr ès que plusieurs caract ères peuvent se combiner pour former une ligature.

Supposons que l’on travaille dans un environnement h ét érog ène et que l’on reçoive r éguli èrement des fichiers utilisant des codages diff érents. Dans ce cas, on se heurte à un probl ème, car la conversion du codage d’entr ée vers le codage interne est faite en dur dans le code de TEX. Pour changer le codage d’entr ée, il faut modifier le code de TEX, ce qui est difficilement acceptable.

Alors comment contourner ce probl ème ? La premi ère possibilit é consiste à utiliser un pr éprocesseur, avant d’appeler TEX. On peut aussi utiliser des caract ères actifs. Au d ébut de chaque fichier, certains caract ères sont d éfinis comme étant des macros. Mais cette m éthode est peu fiable, car d’autres macros peuvent consid érer que ces caract ères sont des lettres ordinaires.

Il serait bien plus int éressant d’avoir une commande d éclarant que le codage d’entr ée a ét é modifi é, et de permettre à TEX de changer de processus de conversion à la vol ée, en gardant le m ême codage interne.

Il serait sans doute relativement facile d’adapter TEX pour qu’il puisse rapidement basculer d’un codage de caract ères sur un octet à un autre. Mais il existe aujourd’hui plusieurs jeux de caract ères multi-octets : JIS, Shift-JIS et EUC au Japon, GB en Chine et KSC en Cor ée. Certains sont de longueur fixe, d’autres ont des codes à état de longueur variable. Le plan de base deISO10646-1.2 (Unicode-1.1) étant maintenant d éfini, on dispose d’un jeu de caract ères 16 bits qui peut être utilis é pour traiter la plupart des langues dans le monde. Pourtant, pour des raisons de compatibilit é, on rencontre souvent des fichiers en format UTF, dans lesquels on peut stocker jusqu’ à 32 bits avec un codage de longueur variable (1-6 octets), mais les octetsASCIIy restent des octetsAS-

CII. En d’autres termes, le processus de conversion du codage d’entr ´ee vers le codage interne n’est pas vraiment simple.

Pour compliquer encore les choses, la nature du codage interne n’est pas évidente du tout. Doit-il être fixe, auquel cas la seule solution raisonnable est l’ISO10646/UNICODE, ou bien variable ? Si le codage interne est fixe, dans la plupart des cas, une conversion du codage interne vers le codage police devra aussi être effectu ée. Certaines polices japonaises sont par exemple cod ées en interne suivant l’unification Han, le principe qui sous-tendISO10646/UNICODE. Le codage interne devrait plut ôt suivre les nombres de Kuten ou l’un des codages du JIS. Si c’est la m ême chose pour le codage d’entr ée, une double conversion, pas toujours simple ni n écessaire, doit être alors r éalis ée.

Pour rendre l’affaire encore plus difficile, l’ éditeur peut tr ès bien ne pas disposer des fontes n écessaires pour une langue particuli ère. Une translit ération est alors indispen- sable, mais elle est compl ètement ind épendante du codage des caract ères ; apr ès tout, on peut utiliser la m ême translit ération de caract ères latins vers le cyrillique, que l’on uti- liseISO646 ouISO10646/UNICODE. Et la translit ération n’a rien à voir avec le codage des polices. En fait, on voudrait utiliser les m êmes fontes arabes, qu’on effectue la saisie en utilisant une translit ération latine enISO8859-1, ou arabe enISO8859-6 ouISO

10646/UNICODE. En plus, l’ordre des caract ères dans un flux d’entr ée peut ne pas cor- respondre à l’ordre dans lequel les caract ères doivent être plac és sur le papier ou l’ écran.

(6)

Par exemple, [4], de nombreuses voyelles cambodgiennes sont scind ées en deux : une partie est plac ée à gauche d’un groupe consonantique, l’autre à droite. Des probl èmes similaires ont surgi avec le cingalais et les autres écritures du sous-continent indien [7].

Finalement, on doit r éaliser que des messages d’erreur et les traces doivent être affi- ch és et qu’ils n’utiliseront pas forc ément le m ême jeu de caract ères que celui du codage d’entr ée ou du codage interne.

1.2. Translite´ration et analyse contextuelle

Il semble clair que le seul codage interne viable soit le codage police. Pourtant, il n’y a aucune raison pour que la conversion du codage d’entr ée vers le codage interne se fasse en une seule étape. De toute évidence, on peut toujours l’effectuer et, si les polices sont assez grandes, on peut toujours faire toute l’analyse au niveau ligature dans la police. Mais ce choix nous emp êche de s éparer des t âches distinctes comme — par exemple pour l’arabe — la conversion initiale de tout le texte enISO10646/UNICODE, puis la translit ération, ensuite le calcul de la forme appropri ée de chaque lettre, et seulement alors l’activation du m écanisme de ligature des polices.

En fait, nous proposons d’autoriser l’ écriture d’un nombre quelconque de filtres, et la possibilit é que la sortie d’un filtre devienne l’entr ée d’un autre filtre, comme pour les pipes d’Unix.

1.3. Processus de translation deW

DansW, ces filtres sont appel és Processus de Translation deW⁽WTPs). ChaqueW^TP est d éfini par l’utilisateur dans un fichier.otp: avec une syntaxe rappelant celle du g é- n érateur d’analyseur lexicalflex, les utilisateurs peuvent d éfinir des automates à états finis de Mealy pour transformer les flux de caract ères en de nouveaux flux de caract ères.

Ces tables de traduction utilisateur ne sont pas directement lues par W^{. Mais} des repr ´esentations plus compactes (fichiers.ctp) sont produites par le programme otptoctp. La lecture d’un fichier.ctpse fait par l’interm ´ediaire d’une primitiveW^(voir ci-dessous).

Voici la syntaxe du fichier de translation :

in: ⁿ;

out: ⁿ;

tables: ^T

states: ^S

aliases: ^A

expressions: ^E

ou`n repr ésente un nombre quelconque. Les nombres peuvent être repr ésent és en notation d écimale, octale à laWEB⁽@'...) ou hexad écimale (@"...), ou encore être des caract èresISO646 affichables inclus entre un accent grave et une apostrophe.

(7)

Le premier (resp. deuxi ème) nombre sp écifie le nombre d’octets dans un caract ère en entr ée (resp. sortie), le d éfaut étant de un dans les deux cas. Ces valeurs sont n éces- saires pour pr éciser quel processus de translation utiliser pour faire la conversion depuis ou vers un jeu de caract ères qui utilise plus d’un octet par caract ère.

Ces tables sont r éguli èrement utilis ées dans les conversions de jeu de caract ères, quand on ne peut pas sp écifier facilement des approches algorithmiques. Voici la syntaxe d’une tableT :

id[ⁿ] = {n; n; : : : ; n};

LesWTP, comme dansflex, autorisent un nombre donn é d’ états. Chaque expression est valide seulement dans un état donn é. L’utilisateur peut sp écifier des changements d’ états. Les états sont souvent utilis és pour l’analyse contextuelle. La syntaxe pour un ensembleS d’ états est :

id, ^id, ^{: : :}, ^id;

Les expressions sont des paires motif-action. Les motifs sont écrits comme des expressions r éguli ères simples, et on peut en d éfinir des alias. La syntaxe d’un aliasA est : id = ^L;

ou`L est un motif.

Si on utilise un seul ´etat, alors une expressionE est compos ´ee d’un motif et d’une action :

L => ^R;

et la syntaxe d’un motif est :

L ::= n

j n–n intervalle

j . ^joker

j LL concat ´enation

j L{^{n; m}} occurrences

j (^L | ^{: : :} | ^L) ^choix

j ^ (^L | ^{: : :} | ^L) choix n ´egatif

j {^id} abr ´eviation ;

alors que la syntaxe simplifi ´ee pour une action est : R ::= string

j n

j nn

j n($^,n)

j n(+n^,n)

j #(^R)

j id[^R]

j RopR arithm ´etique ;

Les motifs sont appliqu és à l’entr ée. Quand il y a correspondance entre un motif et le flux d’entr ée, l’action en partie droite est ex écut ée. Unechaıˆne est simplement

émise en sortie. Le\n correspond au nê caract ère correspondant et le\$ correspond au dernier caract ère appari é.\* correspond à toute la chaıˆne appari ée et\^(*^,n) correspond

(8)

à l’ensemble de la chaıˆne moins lesn derniers caract ères. La recherche dans la table se fait en utilisant des crochets. Toutes les expressions doivent être pr éc éd ées d’un #.

Voici un exemple de translation du codage chinois GB 2312-80 vers ISO

10646/UNICODE: in: 1;

out: 2;

tables: tabgb[8795] = {...};

expressions:

(@"00-@"A0) => \1;

(@"A1-@"FF)(@"A1-@"FF) =>

#(tabgb[(\1-@"A0)*@"64 + (\2-@"A0)]);

.. => @"FFFD;

ou` nous utilisons0xfffd (replacement character)comme caract `ere d’erreur.

Et voici une translit ´eration courante dans les ´ecritures indiennes : {consonante}{1,6} {voyelle} => \$ \(*-1);

La voyelle en fin d’expression est mise avant le flux de consonnes.

La syntaxe compl ète des expressions est plus compliqu ée, car il y peut y avoir plusieurs états de traitements. En outre, on peut empiler des valeurs sur la pile d’entr ée.

Voici la syntaxe compl `ete :

<e´tat> L => ^R <= ^R ^<nouvel_e´tat>

e´tat signifie que si l’WTP est dans cet état, alors cette paire motif-action peut être utilis ée.

nouvel_e´tat d ´esigne le nouvel ´etat si cette paire motif-action est choisie.

Et voici un exemple d’analyse contextuelle de l’arabe :

<MEDIAL>{QUADRIFORM}{NOT_ARABIC_OR_UNI}

=> #(\1 + @"DD00)

<= \2

<pop:>

;

Quand on est dans l’ étatMEDIAL(au milieu d’un mot) et qu’une lettre qui a quatre formes possibles est suivie d’une lettre non arabe, on obtient en sortie la lettre à quatre formes plus la valeur@"DD00. La lettre non arabe est replac ée sur la pile d’entr ée. L’ état courant est alors d épil é et l’WTP revient à l’ état pr éc édent, quel qu’il soit.

1.4. Chargement desW^TP

Le chargement d’unWTP est similaire `a celui d’une police. L’instruction est simplement :

(9)

notpⁿnouveau_nom = nom_de_fichier

Le fichier.ctp nouveau_nom.ctpest lu et stock é dans la m émoireotp info^{, si-} milaire à la m émoirefont info. Une valeur est affect ée à la s équence de commande

\nouveau_nom, comme pour les fontes. On peut ensuite faire r éf érence à cetWTP par l’interm édiaire de cette valeur ou bien gr âce à la commande nouvellement d éfinie.

1.5. Codage d’entre´e

A la lecture d’un fichier d’origine inconnue, utilisant un jeu de caract ères inconnu, il` faut trouver un m écanisme pour d éterminer le jeu de caract ères. Il y a deux possibilit és.

On peut utiliser un jeu par d ´efaut, ou bien trouver un moyen de reconnaıˆtre rapidement de quel jeu il s’agit.

Heureusement, l’ISO646 est un sous-ensemble de la plupart des jeux de caract `eres.

Le jeuISO10646/UNICODE, dans ses versions 16 et 32 bits, a le m ˆeme codage queISO

646 pour les 128 premiers caract ères. Le seul jeu largement r épandu qui ne r éponde pas

`a ce crit `ere est l’EBCDICd’IBM.

Aussi fournissons-nous le moyen de d étecter automatiquement la famille du jeu de caract ères. Il suffit que l’utilisateur place un commentaire au tout d ébut de chaque fichier : le caract ère%est suffisant pour distinguer chacune de ces familles. Un fichier qui utilise une extension 8 bits de l’ISO646 commence avec le code caract ère0x25^{; un fi-} chier avec des caract ères 16 bits commence par0x00 0x25¹. Enfin, un fichier utilisant le codageEBCDICcommence par0x6c^.

S’il n’y a pas de caract ère %, alors on suppose qu’il s’agit du codage d’entr ée par d éfaut (ISO646).

Une fois queWsait comment lire les lettres de base latines, il est possible dede´clarer quelle traduction l’entr ´ee doit subir. Ceci est fait en utilisant la commande

\InputTranslation Par exemple,

\InputTranslation 1

d éclare que tout le flux d’entr ée, commençant imm édiatementapre`s le caract ère « retour chariot » à la fin de cette ligne, devra être trait é par le processusW^TP.

Il est aussi possible de changer de jeu de caract ères à l’int érieur d’un fichier. Ce processus est plus difficile à r éaliser, car il n’est pas toujours évident de savoirexactement ou` la modification doit prendre effet. Supposons que nous passions d’un jeu de carac- t ères 8 bits à un jeu 16 bits. Il est important de savoir quel est ledernier caract ère 8 bits et quel est lepremier caract ère 16 bits.

On peut r ésoudre cette question en choisissant un caract ère particulier pour marquer le changement. Pourtant, pour simplifier les choses, nous supposons que toutes les modifications de traduction en entr ée ont lieuimme´diatement apre`s le caract ère « retour chariot » à la fin de la ligne dans laquelle\InputTranslationâpparaıˆt.

1Un fichier avec des caract `eres 32 bits devrait commencer par^0x00 ^0x00 ^0x00 ^0x25, mais la version actuelle de Wne traite pas les caract `eres 32 bits.

(10)

1.6. Translite´ration

Une fois que les caract ères ont ét é lus, le plus souvent suivant un certain jeu de caract ères universel commeISO10646/UNICODE, l’analyse contextuelle peut avoir lieu, in- d épendamment du jeu de caract ères de d épart. Cette analyse peut n écessiter plusieurs filtres, chacun d’entre eux étant similaire au processus de traduction auquel l’entr ée a

´et ´e soumise.

Puisque le nombre de filtres que nous pouvons vouloir utiliser est arbitrairement grand, il y a deux commandes pour sp ´ecifier des filtres :

\NumberInputFiltersⁿ

d éclare que lesn premiers filtres sont actifs. La sortie du iê filtre devient l’entr ée pour lei+ 1ê filtre, pouri < n.

\InputFilter^{m i}

d éclare que lemê filtre est leiê W^TP.

Les s équences de caract ères compos ées successivement des codes caract ères 5, 10, 11 et 12 traversent lesnprocessus de traduction. Cela signifie que le r ésultat du dernier processus de traduction sera le codage fonte en sortie ; c’est sur ce codage que sera appliqu é l’algorithme de c ésure.

Notre exemple sur l’arabe se pr ´esentera comme suit :

\otp\trans = ISO646toISO10646

\otp\translit = TeXArabicToUnicode

\otp\fourform = UnicodeToContUnicode

\otp\genoutput = ContUnicodeToTeXArabicOut

\InputFilter 0 \translit

\InputFilter 1 \fourform

\InputFilter 2 \genoutput

\NumberInputFilters 3

Le traducteur TeXArabicToUnicodes électionne la translit ération latine et fait la conversion en arabe. Comme pour UnicodeToContUnicode, il effectue l’analyse contextuelle pour l’arabe, c’est- à-dire qu’il prend l’arabe en entr ée (en ISO

10646/UNICODE) et, en utilisant une zone priv ée, d étermine laquelle des quatre formes (isol ée, initiale, m édiale ou finale) doit prendre chaque consonne. Finalement, ContUnicodeToTeXArabicd étermine quel emplacement dans la police correspond

à chaque caract ère. E´videmment rien n’emp êche la police d’avoir aussi son propre m é- canisme sophistiqu é de ligatures.

1.7. Codages de sortie et codages spe´ciaux

TEX ne se borne pas à produire des fichiers.dvi. Il cr ée aussi des fichiers.aux^, .loget bien d’autres, qui peuvent à leur tour être relus par TEX. Il est donc important que le m écanisme de sortie soit aussi g én éral que celui d’entr ée. Pour cela, nous

(11)

introduisons les op ´erations duales :

\OutputTranslation

\OutputFilter

\NumberOutputFilters

avec ´evidemment les arguments appropri ´es.

De façon similaire, TEX peut écrire dans ses fichiers.dvides commandes sp éci- fiques à un pilote de p ériph érique, en utilisant des commandes\special. Comme les arguments de\specialsont eux-m êmes des chaıˆnes, il semble judicieux d’autoriser aussi les commandes suivantes :

\SpecialTranslation

\SpecialFilter

\NumberSpecialFilters 1.8. Fontes de grande taille

TEX limite la taille des fontes à un maximum de 256 caract ères. Pourtant, le besoin en fontes de plus grande taille se fait souvent sentir. Un total de 256 caract ères est évidement insuffisant pour les langues utilisant des id éogrammes. Mais la m ême remarque s’applique aux écritures alphab étiques comme le latin, le grec ou le cyrillique ; pour chacune d’entre elles,ISO10646/UNICODEpr évoit plus que 256 caract ères. Cepen- dant nombre de ces caract ères étant des combinaisons de base « caract ère+signe diacritique », le nombre r éel de glyphes de base est donc plus r éduit. En fait, pour chacun de ces trois alphabets, une seule fonte de 256 caract ères suffit pour les glyphes de base.

Nous avons donc d écid é, dans une premi ère étape, d’offrir le moyen de traiter des fontes virtuelles de grande taille (16 bits), dont les glyphes de base tiendront en fait dans une fonte à 8 bits. Ceci n’est évidemment qu’une premi ère étape, mais elle pr ésente l’avantage de permettre le traitement de fontes de grande taille, y compris leurs m éca- nismes de ligature, sans avoir à r éecrire tous les pilotes de sortie.

En plus des changements à TEX, il faudra aussi modifierdvicopyêtvptovf^{, qui} deviennent respectivementxdvicopyêtxvptovf. Les fichiers .tfm^,.vpêt.vf sont remplac és par les fichiers.xfm^,.xvpêtxvfrespectivement. Les nouveaux pro- grammes peuvent bien suˆr toujours lire les anciens fichiers.

1.9. Fichiers.xfm

Les fichiers.xfmsont similaires aux fichiers.tfm, à la diff érence pr ès que la plupart des valeurs utilisent 16 ou 32 bits, et ont donc doubl é de taille. L’en-t ête comprend 13 mots de quatre octets. Pour distinguer les fichiers.tfmêt.xfm, le premier mot est enti èrement mis à z éro. Les douze mots suivants contiennent les valeurs delf, lh, bc,

(12)

ec, nw, nh, nd, ni, nl, nk, ne et np. Toutes ces valeurs doivent être positives ou nulles et inf érieures à 2³¹. D ésormais, chaque valeur dechar_info est d éfinie comme suit :

width index 16 bits height index 8 bits depth index 8 bits italic index 14 bits

tag 2 bits

remainder 16 bits

Chaquelig_kern_command est de la forme : op byte 16 bits

skip byte 16 bits next char 16 bits remainder 16 bits

Finalement ces extensions prennent deux fois plus de place.

1.10. Fichiers.xvp

Les fichiers.xvpsont simplement des fichiers.vpldans lesquels toutes les restrictions dues au codage des caract ères sur 8 bits ont ét é lev ées. Sinon, tout le reste est identique.

1.11. Modifications mineures

Comme les changements mentionn és ci-dessus ont n écessit é un examen appro- fondi de tout le code de TEX, nous en avons profit é pour supprimer toutes les restrictions dues à un codage sur un seul octet. Par exemple, on peut utiliser maintenat plus de 256 registres (de chaque sorte). De m ême, on peut avoir plus de 256 fontes simultan ément.

2. Applications de W

2.1. Ne´arlandais, portugais, turc : un traitement facile

Ces trois langues (et peut- être d’autres ?) ont au moins une chose en commun : elles ont besoin de fontes ayant une table de ligatures l ég èrement diff érente de celle du codage de Cork. La composition du hollandais utilise la fameuse ligature « ij » (qu’on trouve par exemple dans le nom de personnes connues comme Dijkstra, van Herwijnen, Eijkhout, van Dijk, ou encore celui de la ville de Nijmegen ou du lac IJselmeer) ; cette ligature apparaıˆt dans le codage de Cork (comme dans ISO 10646/UNICODE), mais jusqu’ à maintenant, il n’existait pas de moyens tranparents à l’utilisateur pour l’obtenir.

AvecWil suffit de placer une macro appelant un filtreWTP sp ´ecifique dans l’expansion de la macro qui bascule en hollandais ; en syntaxeW(d ´ecrite dans la section 1.3), on

(13)

peut ´ecrire cetWTP tr `es simplement :

in: 1 out: 2

expressions:

`I'`J' => @"0132;

`i'`j' => @"0133;

. => \1;

ou`0x0132^et0x0133sont les caract `eres « IJ » (LATIN CAPITAL LIGATURE IJ) et « ij » (LATIN SMALL LIGATURE IJ) enISO10646/UNICODE.

Le portugais et le turc n’utilisent pas les ligatures « fi », ... « ffl » (en turc la raison est évidente : l’alphabet turc utilisant les deux lettres « i » et « ı », il serait impossible de savoir si « fi » repr ésente « f » + « i » ou « f » + « ı »). C’est un probl ème majeur pour TEX, car la seule solution qui permettrait de conserver une saisie naturelle serait d’utiliser une nouvelle fonte ; et d éfinir un ensemble complet de fontes (virtuelle ou r éelle), pour

éviter seulement 5 ligatures, pr ésente plus d’inconv énients que d’avantages.W^{r ésoud} facilement ce probl ème ; bien suˆr il est impossible de d ésactiver une ligature, puisqu’elle arrive à la toute derni ère étape, à savoir à l’int érieur de la fonte. Nous devons donc tricher d’une façon ou d’une autre ; le plus naturel consiste à placer un caract ère invisible entre le « f » et le « i » ; dansISO10646/UNICODE, il y a pr écis ément un tel caract ère, dont le code est0x200b⁽ZERO WIDTH SPACE) ; on peut r éaliser cette op ération avec une ligne W^{TP du type}`f'ì' => "f" @"200b "i"pour chaque ligature. Ce caract ère devra ensuite être mis en correspondance avec le caract ère « compound mark » de la table de Cork, qui a ét é d éfini pour cet usage.

Une meilleure m éthode consisterait à d éfinir un second « f » dans la table de la police de sortie, qui ne formerait pas de ligature avec « f », « i » ou « l ». Cela donnerait la possibilit é à la police d’appliquer un cr énage entre les deux lettres, et de compenser l’effet de la ligature manquante (apr ès tout, si une police est dessin ée pour utiliser une ligature entre « f » et « i », une paire « fi » sans ligature paraıˆtrait assez étrange et pourrait n éces- siter une modification).

2.2. Poetica d’Adobe

Poetica est une famille de polices scriptes chancelli ères, dessin ée par Robert Slim- bach et commercialis ée par Adobe Systems Inc. D’apr ès la publicit é d’Adobe, «La police Poetica a e´te´ conçue d’apre`s les cursives manuscrites diplomatiques produites durant la Renaissance italienne. E´le´gante et simple, l’ećriture diplomatique est reconnue comme e´tant a` la base des polices italiques et elle marque le point de de´part de la calligraphie moderne. Robert Slimbach a capte´ la vitalite´ et la graˆce de ce style d’ećriture dans Poetica.

Les caracte´ristiques de l’e´criture diplomatique comprennent l’usage fre´quent de lettres aux formes fleuries, de ligatures et de caracte`res variables permettant d’embellir des manuscrits qui sinon auraient un aspect un peu rigide. Pour capter la varie´te´ de formes et

(14)

Figure 1 – Exemple du caract `ere Poetica

la richesse de cette e´criture, Slimbach a cre´e´ des alphabets supple´mentaires et des jeux de caracte`res en concevant Poetica de main de maıˆtre, qui contient un ensemble varie´

de ces formes de lettres. »

Techniquement, Poetica comprend 21 polices PostScript : Chancery I–IV, Expert, Small Caps, Small Caps Alternate, Lowercase Alternates I–II, Lowercase Beginnings I–

II, Lowercase Endings I–II, Ligatures, Swash Caps I–IV, Initial Swash Caps, Ampersands, Ornaments. Alternate, Beginnings, Endings et Ligatures sont particuli èrement int éres- santes pour nous, carWpeut automatiquement choisir des caract ères dans ces polices.

L’utilisateur saisit simplement son texte, en marquant éventuellement le changement d’alphabet par un symbole. UnWTP convertit l’entr ée en caract ères d’une police 16 bits virtuelle, qui contient les caract ères de tous les composants de Poetica. En utilisant plu- sieursWTP et en les modifiant à la vol ée, l’utilisateur pourra choisir le nombre de ligatures qu’il veut obtenir en sortie. Cela permettra aussi d’aller plus loin qu’Adobe, en d éfinissant le cr énage entre des paires de caract ères de diff érentes polices de Poetica.

Voir fig. 1 pour un ´echantillon de texte compos ´e en Poetica.

2.3. A` propos du grec, ancien et moderne (mais ancien plus que moderne)

2.3.1. Signes diacritiques ou cre´nage ?

Les personnes instruites connaissent en g én éral les lettres grecques. Au coll ège d éj à, ayant utilis é pour les angles, pour l’acc él ération et³ pour calculer la surface d’un cercle de rayon donn é, nous sommes familiaris és avec toutes ces lettres, comme avec l’alphabet latin. Mais pour écrire en grec, en particulier en grec ancien, il ne faut pas seulement des lettres. On utilise deux types de signes diacritiques, les accents (aigu, grave et circonflexe), et les esprits (rude et doux) qui sont plac és sur les voyelles et sur la consonne rho.

(15)

Chaque mot poss ède au plus un accent², et 99.9 % des mots grecs ont effective- mentun accent. Chaque mot commençant par une voyelle a exactement un esprit³. Il y a donc en grec beaucoup plus d’accentuation que dans tout autre langue à alphabet latin,

à l’exception évidente du vi êtnamien.

Comment TEX traite-t-il les signes diacritiques grecs ? En suivant l’approche tradi- tionnelle comme le fait la primitive\accent, nous n’aurions eu pratiquementaucune c ésure (ce qui aurait entraıˆn é de d ésastreux sur/sous remplissages de ligne, car le grec peut facilement avoir des mots de grande longueur tels que²torinolaruggologikìc), aucun cr énage, et une saisie tr ès malcommode, avec une ou deux macros à chaque mot.

La premi ère approche, dont Silvio Levy est l’auteur [11], consiste à utiliser les ligatures de TEX (les plus « b êtes » d’abord, puis les plus « intelligentes »), pour obtenir les lettres accentu ées comme combinaison de codes repr ésentants les esprits (>êt<^{), les} accents (`^,'et =) et les lettres elles-m êmes. De cette façon, on écrit>`hpour obtenir

£. Cette approche r ésolvait le probl ème de la c ésure et de la difficult é de la saisie.

N éanmoins, cette approche ne r ésoud pas le probl ème du cr énage. Prenons le cas fr équent de l’article^tä(lettre tau suivie de la lettre omicron) ; dans presque toutes les polices, il existe une instruction de cr énage entre ces deux lettres, à cause bien suˆr des caract éristiques invariantes de leur dessin. Supposons maintenant que omicron soit accentu é, et qu’on écrivetòpour obtenir tau suivi de omicron avec accent grave. Ce que TEX voit est un « t » suivi d’un accent grave. Aucun cr énage ne peut être d éfini entre ces deux caract ères, car nous n’avons aucune id ée de ce qui peut suivre l’accent grave (un iota par exemple, et en g én éral il n’y a pas de cr énage entre tau et iota). Quand la lettre omicron arrive, il est trop tard ; TEX a d éjà oubli é qu’un tau pr éc édait l’accent grave.

Pour r ésoudre ce probl ème on pourrait écrire les signes diacritiques apre`s les voyelles (« notation post-positive »). Mais cela entre en contradiction avec les caract éris- tiques visuelles des signes diacritiques associ és aux majuscules, puisqu’ils sont plac és

à gauche de ces derni ères : Êarpeut difficilement utiliser la translit érationE>'ar^{. Et} apr ès tout, TEX devrait pouvoir composer le grec correctement, quelle que soit la façon dont sont saisis les lettres et les signes diacritiques.

Wr ésoud ce probl ème en utilisant une suite appropri ée de processus de traduction (WTP), une notion expliqu ée en section 1.3 : à titre d’exemple, consid érons le mot^êar:

1. Supposons que l’utilisateur d ésire saisir son texte enASCII7 bits ; il tapera>'ear^, ce qui est d éj à de l’ISO-646, de sorte qu’aucune traduction en entr ée n’est n éces- saire. Il pourrait aussi utiliser un codage entr ée commeISO-8859-7 ouêlot; l’utilisateur pourra alors aussi bien taper^>'åáòque^>Ûáò.⁴. Le premierWTP transfor- mera ces codes vers les codes 16 bits appropri és d’ISO10646/UNICODE:0x1f14

2Un accent est parfois d éplac é d’un mot vers le pr éc édent :^njrwpìc^ticau lieu de^njrwpoc,^tÐc, de sorte que, typographiquement, un mot peut avoir plus d’un accent.

3Avec une exception : les lettres^rrsont souvent écrites^üû, quand elles sont à l’int érieur d’un mot :^poüûÀ. 4La raison de la complication absurde qui force à taper^>'åou^>Ûpour obtenir^êest que le codage du « grec moderne » a choisi la facilit é en n’utilisant qu’un seul accent, comme si la langue grecque était n ée en 1982, ann ée de la r éforme h âtive de l’orthographe d écid ée pour des raisons politiques.

(16)

pour^ê(GREEK SMALL LETTER EPSILON WITH PSILI AND OXIA),0x03b1^pour^a⁽^GREEK

SMALL LETTER ALPHA) et0x03c1^pour^r⁽GREEK SMALL LETTER RHO).

2. Une fois qu’Wconnaıˆt les caract ères qu’il manipule (le codage interne par d éfaut d’West pr écis émentISO10646/UNICODE), il fera la c ésure en utilisant des motifs 16 bits.

3. Finalement, unWTP appropri é enverra les codes grecsISO10646/UNICODEà une fonte 16 bits virtuelle (voir page 69 la raison pour laquelle nous avons besoin de 16 bits), construite à partir d’une ou de plusieurs fontes 8 bits. Cette fonte contient des instructions de cr énage, appliqu ées d’une mani ère simple, puisque nous nous occupons de trois codes seulement : <^ê>, <â> et <^r>. Aucun code auxiliaire n’interf ère plus.

4. xdvicopy⁵d ´e-virtualisera le fichierdviet produira un nouveau fichierdvi^utilisant exclusivement des polices 8 bits, compatibles avec tout pilotedvi^{digne de} ce nom.

En s éparant les t âches, la c ésure devient plus naturelle (pour TEX, il faut utiliser des motifs incluant les codes auxiliaires'^,`, = etc.). Au passage, on a r ésolu un probl ème suppl émentaire : les primitives\lefthyphenminêt\righthyphenmins’appliquent aux caract ères decatcode 12. Pour obtenir la c ésure entre des groupes comportant des codes auxiliaires, nous devons d éclarer ces codes comme des « caract ères de type lettre ». Par exemple, le mot^êar, qu’on écrit>'ear: Pour autoriser la c ésure, les codes

>êt'doivent être consid ér és comme des lettres (\lccode significative) ; mais ceci signifie que pour TEX,^êara 5 lettres au lieu de 3, et en cons équence, m ême si nous de- mandons\lefthyphenmin=3, le mot sera encore coup é comme^ê-ar!!Wr ésoud ce probl ème en coupantapre`s la fin de la traduction (dans ce cas>^{’e ou}^>'åôu^>Û^!^ê^).

2.4. Dactyles, sponde´es et fontes 16 bits

Les éditions savantes de textes grecs sont l ég èrement plus compliqu ées que les édi- tions ordinaires⁶, l’un des ajouts étant untroisie`me niveau de diacritiques : la longueur des syllabes.

On lit dans [2], p. 254 : «La poe´sie grecque a e´te´ composeé sur un principe entie`rement diffe´rent de celui employe´ en anglais. Elle n’e´tait pas construite en disposant les syllabes accentueés en motifs, ni avec un syste`me de rimes. Les poe`tes grecs utilisaient un certain nombre de me´triques diffe´rentes qui consistaient toutes en un certain arrange- ment fixe desyllabes longues et courtes». Les syllabes longues et courtes sont mar- qu ées par les signes diacritiquesmacron et bre`ve. Ces diacritiques sont plac ées entre la lettre et le signe diacritique normal, s’il existe (sauf dans le cas de lettres majuscules,

5Dans le nom de ce programme, qui est une version ´etendue du^dvicopyde Peter Breitenlohner, « x » signifie

« extended » et non pas « X-Window ».

6Apr ès tout, les érudits étudient les textes grecs depuis plus de 2000 ans

(17)

auquel cas elles sont plac ées apr ès et au-dessus de la lettre alors que les diacritiques normales sont plac ées à leur gauche).⁷

Les fameux deux premiers vers de l’Odyss ´ee

Andra moi ênnepe, MoÜsa polÔtropon, çc mla poll

plgqjh âpeÈ TroÐhc Éerän ptolÐejron êperse;

forment des hexam ètres. Ils comprennent six pieds : quatre dactyles ou spond ées, un dactyle et un spond ée ou un troch ée (voir à nouveau [2] pour plus de d étails). On pourrait

´ecrire le texte sans accents ni esprits pour rendre la m ´etrique plus apparente : Andra moi ennepe, Mousa polutropon, oc mala polla

plagqjh epei Troihc ieron ptoliejron eperse

ou d ´ecider de mettre tous les types de signes diacritiques :

Andra moi ennepe, Mo=usa pol'utropon, Ãoc m'ala pollà pl'agqjh >epeì Tro'ihc <ieròn ptol'iejron eperse

Apr ès avoir d épens é une fortune pour acqu érir la machinerie qui se trouve entre le clavier et l’ écran, on pourrait s’atttendre à ce que la c ésure et le cr énage entre les lettres restent les m êmes, malgr é le nombre toujours croissant de signes diacritiques. En fait, ce n’est pas possible avec TEX : il existe exactement 345 combinaisons possibles entre les lettres grecques et les accents, esprits, longueur de syllabe et iota en indice ; TEX peut g érer un maximum de 256 caract ères dans une police. AussiWest-il n écessaire pour la c ésure de textes grecs, chaque fois que des longueurs de syllabe sont compos ées.

Dans ce cas, les choses ne se passent pas aussi facilement que dans la section pr é- c édente : bien que 345 soit un petit nombre par rapport à 65536 (= 2¹⁶), l’ISO a d écid é qu’il n’y avait pas assez de place pour toutes les combinaisons d’accents, d’esprits et de longueur de syllabe.⁸

Chaque fois queISO10646/UNICODEdevient insuffisant pour nos besoins, nous utilisons lazone priveé. Comme dans la s érie t él é The Twilight Zone, tout peut arriver dans cette zone priv ée. Dans le cas d’Wtoutes les op érations restent internes, de sorte que nous avons toute libert é pour d éfinir des caract ères : enISO10646/UNICODE, la zone pri- v ée est compos ée des caract ères0xe000^à0xfffd(du groupe 0, qui est la partie 16 bits deISO10646/UNICODE), soit un total de 8190 positions.

Wtraitera l’entr ée comme dans la section pr éc édente, mais les lettres avec macron et br ève occuperont des positions internes dans la zone priv ée. Le reste du traitement sera exactement le m ême. Comme pour la translit ération de l’entr ée, on peut prendre ˆ et¯pour noter macron et br ève (apr ès avoir chang é leurcatcode pour éviter toute inter-

7Ces signes diacritiques suppl émentaires sont aussi utilis és avec un autre objectif : en prose, plac és apr ès l’une des lettres alpha, iota ou upsilon, ils indiquent s’il faut prononcer cette derni ère longue ou courte (cette fois nous parlons de lettreset pas desyllabes).

8N éanmoins, ils ont introduit les lettres alpha, iota et upsilon avec macron et br ève, en minuscules et majuscules, pro- bablement pour les raisons expos ées dans la note pr éc édente. Pourtant, la combinaison de diacritiques doit être utilis ée pour coder des lettres avec macron/br èveetdes diacritiques suppl émentaires.

(18)

f érence avec les op érateurs math ématiques), ou n’importe quelle combinaison de codes 7 ou 8 bits.

2.5. Un reˆve quipeut devenir re´alite´

Comme le premier auteur l’a declar é d éj à à Cork en 1990, son r êve était — et de- meure — de dessiner une fonte grecque inspir ée du fameux « Grecs du Roi » de Claude Garamont, grav é en 1544-46 pour le roi FrançoisI. Ce caract ère a ét é conçu d’apr ès un manuscrit deÂggeloc ^Berg kioc, un Cr étois, calligraphe et lecteur de grec à la cour française, au d ébut duXVIsi ècle. Il comprend 1327 caract ères diff érents, la plupart d’entre eux étant des ligatures de deux lettres ou plus (parfois des mots entiers). On peut lire dans [12] que «cette police est la pie`ce la plus prećieuse de la collection [de l’Imprimerie Nationale française] », et ce n’est suˆrement pas le moindre des honneurs ! West la plateforme id éale pour composer avec cette police, puisque seul unW^{TP sup-} pl émentaire sera n écessaire pour introduire les ligatures dans le texte grec ordinaire de l’entr ée.

2.6. L’arabe, ou « l’art de se´parer les taˆches ».

2.6.1. L’arabe ordinaire, rapide, net et e´le´gant.

La composition en arabe est un bon compromis entre les techniques de composition occidentales (nombre fini de caract ères, r ép ét és à l’infini) et la calligraphie arabe (nombre infini de ligatures arbitrairement complexes). Nous pouvons subdiviser les ligatures arabes en deux cat égories : (a) celles qui sont obligatoires : liaison de lettres (

ª

+

¢

^!

¤«

) et la ligature sp ´eciale l ¯am-al¯ıf (

⁺

,

^!

¾

), et (b) celles qui sont optionnelles, utilis ´ees pour des raisons esth ´etiques.

La deuxi ème cat égorie de ligatures correspond à nos bons vieux « fi », « fl », etc.

Elles d épendent du dessin de la police et du degr é de qualit é artistique du document.

Nous avons fait une classification approfondie des ligatures esth étiques de la casse égyp- tienne [3], republi ée dans [6]. Voici un exemple du processus de ligature du mot

¡mÍ

^,

en suivant les traditions typographiques ´egyptiennes :

— (lettres disjointes) ;

— mH(ligatures obligatoires seulement, lettres reli ´ees) ;

— mÆÀ(ligature esth ´etique entre les deux premi `eres lettres) ;

— ^tô(ligatures esth étiques entre les trois premi ères lettres) ;

Pour produire toutes les ligatures possibles (plus de 1500) de deux, trois ou quatre lettres, il a fallu trois tableaux de 256 caract ères. Chaque ligature est construite par su- perposition de petits él éments. Une fois que TEX sait quels caract ères prendre, et dans

(19)

quelle fonte, il lui suffit alors de les superposer (aucun d ´eplacement n’est n ´ecessaire).

Le probl ème est de reconnaıˆtre l’existence d’une ligature et de d écouvrir quels sont les caract ères n écessaires. Ce processus d épend fortement des fontes. Une fonte diff é- rente — par exemple en style Kuffic ou Nastaliq — peut avoir un ensemble de ligatures compl ètement diff érent, ou aucune ligature (comme la police de base, dans laquelle sont

´ecrits les deux mots

µr` , @y

, et qui est largement utilis ée en composition élec- tronique gr âce à sa lisibilit é) ; n éanmoins, les ligatures obligatoire restent exactement les m êmes, quelle que soit la fonte utilis ée.

Jusqu’ `a maintenant, il existe trois solutions au probl `eme des ligatures arabes obligatoires :

— La premi ère, par K. Lagally [10], consiste à utiliser des macros TEX pour d étecter et appliquer les ligatures obligatoires (dans notre terminologie : « faire l’analyse contextuelle »). Ce processus est malcommode et long. Il d épend beaucoup du codage de la fonte et les macros utilis ées peuvent interf érer avec d’autres macros TEX. Tout compte fait, ce n’est pas la façon naturelle de traiter un ph énom ène qui est une caract éristique fondamentale de l’ écriture arabe.

— La deuxi ème, par le premier auteur [5], consiste à utiliser les ligatures propres à TEX (coupl ées avec TEX--XET, la version bidirectionnelle de TEX) ; sur le fond, ce processus est plus naturel, puisque l’analyse contextuelle est faite « dans les cou- lisses », au plus bas niveau, à savoir celui des fontes lui-m ême. Il ne d épend pas du codage de la police, puisque chaque fonte peut utiliser son propre jeu de ligatures. L’inconv énient r éside dans le nombre de ligatures n écessaire pour r éaliser la t âche : environ 7000 ! La situation devient dramatique quand on veut utiliser une douzaine de polices arabes sur la m ême page : TEX chargera 7000 ligatures pro- bablement strictement identiques pour chaque police. Vous aurez besoin de bien plus qu’un BigTEX pour cela.

— La troisi ème, également par le premier auteur [5], utilise un pr éprocesseur. L’in- t ér êt en est que l’analyse contextuelle est r éalis ée par un utilitaire d édi é à cette t âche, avec plusieurs fonctionalit és suppl émentaires (par exemple l’ajout de jonc- tions de longueur variable, aussi appel ées « keshideh ») ; c’est une m éthode rapide qui utilise tr ès peu de m émoire. Cette m éthode pr ésente malheureusement les inconv énients classiques des pr éprocesseurs traitant un document avant TEX : un fichier peut en inclure un autre (\input), depuis un endroit quelconque de votre r éseau, et vous ne pouvez pas savoir à l’avance quels fichiers seront lus, et donc devront être pr étrait és ; les directives du pr éprocesseur peuvent interf érer avec les macros TEX ; il n’y a pas d’imbrication entre elles, ce qui peut facilement entraıˆner des erreurs par rapport aux op érations de groupage de TEX, etc.

Aucune de ces m éthodes ne peut être appliqu ée à une production à grande échelle d’arabe dans la vie r éelle : dans tous les cas, l’ écriture arabe est trait ée comme un

« puzzle à r ésoudre » et, in évitablement, les performances de TEX en ressentent.

Nous utilisons desWTP pour fournir une solution naturelle au probl `eme ; consid ´erons

`a nouveau l’exemple du mot^t^o:

(20)

— D’abord,

¡mÍ

^{est lu par}W, en translit ération latine (tHml^{) ou en}ÎSO^{8859-6, ou} en ASMO, ou en codage Macintosh arabe, ou en un quelconque codage d’entr ée arabe acceptable.

— Le premierWTP convertit cette entr ´ee en codesISO10646/UNICODEpour lettres arabes : 0x062a ⁽^, ARABIC LETTER TEH), 0x062d ⁽^, ARABIC LETTER HAH), 0x0645⁽^,ARABIC LETTER MEEM),0x0644⁽^,ARABIC LETTER LAM) ;

— ISO10646/UNICODEétant une façonlogique de coder les lettres arabes, et pas une façon graphique, il n’y a pas d’information sur leur forme contextuelle (isol ée, initiale, m édiale, finale). Le deuxi èmeWTP envoit ces codes à la zone priv ée, ou` nous avons (de façon interne) r éserv é des positions pour la combinaison de caract ères arabes et de formes contextuelles. Une fois que c’est fait,Wconnaıˆt la forme de chaque caract ère.

— Le troisi èmeWTP traduit simplement ces codes dans un codage police TEX standard 16 bits (c’est une op ération mineure : la zone priv ée étant situ ée à la fin du tableau 16 bits, nous d éplaçons tout le bloc au d ébut du tableau).

— Si la fonte n’a pas de ligatures esth ´etiques, c’est fini : Wva envoyer les r ´esultats du dernierWTP au fichierdvi, et produire

¡mÍ

. D’un autre c ôt é, s’il y a encore des ligatures esth étiques — comme dans^tô— alors elles seront ins ér ées dans la fonte, en tant que ligatures intelligentes (“smart ligatures”). Puisque les tables des fontes peuvent contenir jusqu’ à 65536 caract ères, on a toute la place n écessaire pour mettre les petites parties caract ères à combiner.⁹

Ce que nous avons r éalis é consiste à ce que le processus fondamental d’analyse contextuelle soit trait é par une machinerie en arri ère-plan (exactement comme TEX fait la c ésure et divise les paragraphes en lignes), et que les raffinements esth é- tiques éventuels soient exclusivement g ér és par les fontes (par analogie avec les fontes romaines qui ont plus de ligatures que celles pour machine à écrire, etc).

2.6.2. L’arabe voyellise´ (les choses deviennent plus difficiles)

Dans l’arabe contemporain ordinaire, on écrit seulement les consonnes et les voyelles longues ; le lecteur doit deviner les voyelles courtes, en utilisant le contexte (les m êmes consonnes avec des voyelles courtes diff érentes peuvent être comprises comme verbe, comme nom ou adjectif etc.). Quand il est essentiel de sp écifier des voyelles courtes, on ajoute de petits signes diacritiques au-dessus ou au-dessous des lettres.

A c ôt é des voyelles courtes, il y a aussi des diacritiques pour les consonnes doubles,` pour indiquer l’absence de voyelle, et pour le coup de glotte (comme dans « Oh-oh ») : en comptant toutes les combinaisons, nous arrivons à 14 signes. Ces diacritiques peuvent

9Si ces ligatures esth étiques sont utilis ées dans plusieurs polices, on pourrait rencontrer le m ême probl ème de sur- charge de la m émoire fonte deW; dans ce cas, on peut toujours écrire un quatri èmeWTP, qui ferait syst ématiquement l’analyse « esth étique » ind épendamment des codes d’analyse contextuelle.

(21)

rendre la vie difficile à TEX, car ils doivent être cod és entre les consonnes, et interviennent ainsi dans l’algorithme d’analyse contextuelle : supposons par exemple que TEX doive composer la lettrex, derni ère lettre d’un mot, suivie d’un point. Apr ès la lecture du point, TEX sait que la lettre doit être sous forme finale (l’une des 7000 ligatures doit être<^{x sous} forme m édiale> + <.>^!<x sous forme finale><.>). Supposons maintenant que la lettre soit imm édiatement suivie d’une voyelle courte, qui dans notre cas est forc ément plac ée entre la lettrex et le point. Les ligatures intelligentes de TEX ne peuvent revenir deux positions en arri ère ; quand TEX d écouvre le point apr ès la voyelle courte, il est trop tard pour convertir lex m édial en un x final.

Heureusement, lesWTP sont suffisamment ing ´enieux pour d ´eterminer la forme des lettres, quelles que soient les diacritiques qui les entourent (ce qui est exactement l’at- titude d’un typographe humain, qui compose d’abord les lettres, puis ajoute les diacritiques correspondantes).

N éanmoins, lesWTP ne sont pas parfaits, et il y a des probl èmes impossibles à r é- soudre m ême avec lesWTP les plus efficaces : le positionnement des diacritiques par exemple. Nous savons tous que TEX (et par cons équentW, qui n’est rien de plus qu’une humble extension de TEX) place tous les él éments sur la page en utilisant des boıˆtes. Mal- heureusement, le positionnement des diacritiques n écessite plus d’informations que les seules hauteur, largeur, profondeur et correction d’italique d’un caract ère ; dans certains cas, un v éritable examen de la forme du caract ère lui-m ême et des caract ères adjacents est n écessaire (pensez aux ligatures construites verticalement à partir de quatre lettres, chacune ayant sa propre diacritique).

Ce probl ème peut facilement être r ésolu pour une fonte sans ligature (esth étique) : en comptant toutes les lettres possibles (sans oublier le farsi, l’ourdou, le pashto, le sindhi, le kirghiz, l’ouigoure et d’autres langues utilisant des variantes des lettres arabes), dans toutes les formes possibles, on peut arriver à un nombre ne d épassant pas 1000 glyphes. En combinant ces glyphes avec les 14 signes diacritiques, on atteint moins de 14 000 positions, un chiffre bien en-dessous de la limite de 65 536 caract ères. Puisque la zone priv ée deISO10646/UNICODEn’est pas assez grande pour g érer autant de caract ères, nous utiliserons unWTP suppl émentaire pour envoyer des combinaisons de

<consonnes ou voyelles longues analys ées contextuellement>êt<diacritique>^{vers des} codes du codage fonte en sortie. L’avantage de cette m éthode est de permettre de placer individuellement chaque diacritique (en comptant une minute pour trouver la position id éale d’un signe diacritique, la fonte peut être termin ée en quatre semaines de travail r égulier), mais on peut utiliser des m éthodes QDTEXVPL pour placer automatiquement les diacritiques, puis faire les corrections n écessaires.

Malheureusement le nombre de positions n écessaires dans les fontes croıˆt de fa- çon astronomique quand nous consid érons des ligatures de 2 ou 3 lettres. Un des futurs d éfis du projetWsera d’analyser les caract ères manuscrits arabes et de trouver les pa- ram ètres n écessaires pour d éterminer le positionnement des diacritiques, exactement comme D.E. Knuth l’a fait pour la composition math ématique. Il faut noter que malgr é l’immense complexit é de cette t âche, nous restons dans le strict domaine de latypo-

(22)

graphie arabe, qui n’est apr `es tout rien de plus qu’une version re´duite et simplifie´e de la calligraphie arabe.

2.7. Langues a` plusieurs syste`mes d’e´criture (« savez-vouslire le vietnamien ? ») Les Occidentaux comme les Arabes ont eu l’habitude — pas vraiment d ´emocratique

— d’imposer leur alphabet aux nations dont ils faisaient la conqu ête (de façon militaire, religieuse, culturelle ou technologique). Aussi arrive-t-il que nous puissions lire le vi êtna- mien (mais sans le comprendre) tout comme n’importe quel Arabe peut lire le malais et le sindhi, et ne pas en comprendre un mot (sauf peut- être quelques mots arabes qui ont accompagn é l’alphabet dans ses voyages).

Dans certains cas, plusieurs écritures sont rest ées en usage pour la m ême langue et des efforts sont faits pour éclaircir et standardiser les équivalences entre les lettres de ces diff érentes écritures, en vue de fournir un algorithme efficace de translit ération.

Le premier auteur a travaill é sur deux cas qui concernent l’ écriture arabe : le berb ère et le comorien.

2.8. Le berbe`re : une langue a` trois syste`mes d’e´criture et deux directions d’e´criture

La langue berb ère (les Berb ères l’appellent le « tamazight ») peut être écrite en arabe, en latin ou en écriture native (« tifinagh »). Le premier auteur a d évelopp é, sous la di- rection de Salem Chaker, directeur du d épartement d’ études berb ères de l’Institut Na- tional de Langues Orientales à Paris, une police tifinagh en^METAFONT. Voici un petit exemple de texte berb ère, écrit en tifinagh, de gauche à droite.

Tifina, d_tira timzwura n Imazin. Lant di tmurt_n dat tira n tarabt d_tlainit. Nulfant_dd dat imir n uglid Ma- sinisn. Imazin n imir_n, ttarun_tnt f ira, dgg ifran, f igdurn, maca tig g ti f ikwan : ttarun fl_asn ism n umt- tin, d wi_t_ilan, d wayn yxdm di tudrt_is akkn ur t ttttun inafarn.

Le m ˆeme texte en tifinagh, mais de droite `a gauche :

tad n_trumt id tnaL .nizamI n aruwzmit arit_d ,anifiT

-aM dilgu n rimi tad dd_tnafluN .tinialt_d tbarat n arit

f ,narfi ggd ,ari f tnt_nuratt ,n_rimi n nizamI .nsinis

-tmu n msi nsa_lf nuratt : nawki f it g git acam ,nrudgi

nutttt t ru nkka si_trdut id mdxy nyaw d ,nali_t_iw d ,nit

.nrafani

(23)

et en ´ecriture arabe :

" ,rÿ ÿi\ V, ¼_V=um\ ^#ü .$ÿ ÿ~am " ,=í`zÿ ÿmi\ ,ri\_ ,aÿ ÿnifi\

.$ÿ ÿsiniOa di¹` " rim V, í_^ÿ ÿ#afu¼ .^ÿ ÿiniû\_ ^,ra\

aÿÿa ,"=`dg ,",rf í ,,= ^ÿÿn\_"`=aÂ ,"_rÿÿim " $~am

$,` ,"û_V_` ,$ÿÿiÃ` " ÿÿs $ÿÿO,_í "`=aÂ : ",w ÿÿ tÛi\

."=aÿÿfan "uÿÿÃÂ V =` $ÿÿ¶, P_V=u\ dx

Le codage de ces fontes est conçu de sorte qu’on puisse traiter la m ême entr ée TEX en translit ération latine, en tifinagh de gauche à droite, de droite à gauche ou en arabe.

Il suffit de changer une macro au commencement du traitement. R éaliser cette fonc- tionnalit é a ét é plus ou moins simple pour le latin et le tifinagh, mais pas autant pour l’arabe. Malheureusement, cette police pr ésente tous les probl èmes des fontes arabes ordinaires : il faut plus de 7 500 ligatures pour faire l’analyse contextuelle, et elle est sur- charg ée : il n’y a plus la place d’ajouter un seul caract ère, un inconv énient pour une langue qui est encore en train d’ être standardis ée.

Une autre source de difficult és r éside dans le fait que les équivalences entre l’ écriture latine, tifinagh et arabe ne sont pas imm édiates. Certaines voyelles courtes sont écrites dans le texte latin, mais pas dans celui en arabe ou en tifinagh. De plus, les consonnes doubles sont écrites explicitement en latin et tifinagh, mais comme une consonne simple en arabe. Et peut- être le probl ème le plus difficile à r ésoudre est de faire en sorte que chaque écrivain berb ère se sente « chez lui », quelle que soit l’ écriture qu’il utilise : il ne doit pas avoir l’impression qu’une écriture est privil égi ée par rapport aux deux autres !

Finalement, le dernier probl ème (qui n’est pas le moindre quand il se pose dans le monde de la production) est que nous avons besoin d’une police arabe sp éciale pour le berb ère, à cause de la diff érence de translit ération en entr ée : par exemple, alors qu’avec la translit ération arabe ordinaire nous utilisons « v » pour

et « sh » pour

^

, en berb ère nous sommes oblig és d’utiliser « g » pour le premier et « c » pour le dernier. Il y a deux lettres suppl émentaires utilis ées pour le berb ère en écriture arabe :et; ces lettres sont aussi utilis ées en sindhi et pachtou, de sorte que les glyphesexistent d éj à dans le syst ème TEX standard arabe ; mais en berb ère, ils doivent être transform és par transli- t ération en « j » et « z », à cause des équivalences avec l’alphabet latin. Ceci nous force

à utiliser un sch éma de translit ération diff érent de celui pr évu pour l’arabe ordinaire, et donc — en raison de l’incapacit é de TEX à s éparer clairement les codages entr ée et sortie

— d’utiliser une fonte de sortie TEX cod ée diff éremment. Supposez que vous soyez en train de composer un livre à la fois en berb ère et en arabe ; vous aurez besoin de deux polices graphiquement identiques pour chaque style, corps, graisse et famille, chacune d’entre elle ayant plus de 7 000 ligatures. Et nous ne parlons que de fontes sans ligatures esth étiques !

W r ésoud ce probl ème en utilisant les m êmes fontes en sortie pour l’arabe ordinaire et le berb ère. Nous devons simplement remplacer le premierWTP de la chaıˆne

(24)

de traduction : celui qui convertit l’entr ée brute en codesISO10646/UNICODE. Les lin- guistes berb ères sont libres d’inventer/introduire de nouveaux caract ères ou signes diacritiques ; pour peu qu’ils soient inclus dans le tableauISO10646/UNICODE, il nous suffit de changer l ég èrement le premierWTP (et si ces signes ne sont pas encore dansISO

10646/UNICODE, nous utiliserons la zone priv ´ee).

2.9. Le comorien : e´criture latine africaine ou arabe

La situation est similaire dans les petites ıˆles des Comores, entre Madagascar et le continent africain. Les alphabets latin (avec quelques adjonctions venant de langues afri- caines) et arabe sont utilis és. À cause des nombreux sons qu’il faut diff érencier, on utilise des diacritiques accompagnant des lettres arabes. Ces diacritiques ressemblent aux diacritiques arabes (pour des raisons pratiques) mais elles ne sont pas utilis ées de la m ême façon ; en fait, elles font partie des lettres, exactement comme les points font partie des lettres de l’arabe ordinaire.

Une fois encore, la situation peut facilement être g ér ée par unWTP. Alors que les pro- positions d’insertion dansISO10646/UNICODEne sont pas encores claires (la proposition faite par Ahmed-Chamanga, de l’Institut des Langues Orientales à Paris, circule maintenant entre minist ères et institutions éducatives et religieuses), les Comoriens peuvent d éj à utiliserWpour faire la composition et faire progresser le sch éma de translit ération à la vol ée.

2.10. Le cambodgien

Comme not é dans [4], l’ écriture cambodgienne utilise des groupes consonantiques, des consonnes souscrites, des voyelles et des signes diacritiques. A l’int érieur d’un` groupe, TEX doit d éplacer les diff érents composants pour les positionner correctement.

Il en r ésulte que TEX doit utiliser des commandes\kernentre chaque composant d’un groupe. Aussi n’y a-t-il plus de cr énage : supposons que les caract ères^Bet^kdoivent être cr én és ; et supposons que la consonne^Best (logiquement) suivie de la consonne souscrite , qui est (graphiquement) plac ée sous cette lettre : ^B^k. Pour TEX,^kne suit plus imm édiatement^B, et ainsi il n’y aura aucun cr énage entre ces lettres ; n éanmoins, graphiquement elles sont toujours adjacentes, et doivent donc être éventuellement cr é- n ées.

Wutilise une m éthode marteau-pilon pour r ésoudre ce probl ème : nous d éfinissons une « grande » fonte cambodgienne (virtuelle), contenanttous les groupes actuellement connus. Comme nous l’avons d éj à mentionn é dans [4], à peu pr ès 4 000 codes devraient suffire. On peut évidemment encore utiliser les m éthodes traditionnelles de TEX pour former des groupes consonantiques exceptionnels, non contenus dans cette police.

Comme en arabe, nous venons à bout de la complexit é du cambodgien en s éparant les t âches. Un premierWTP enverra la m éthode d’entr ée que l’utilisateur a choisie vers les codes cambodgiens d’ISO10646/UNICODE(en r éalit é) il n’existe encore aucun code cambodgienISO10646/UNICODE, mais le premier auteur a soumis une proposition de

Une extension de TeX incluant UNICODE et des filtres du type Lex

Cahiers

enberg

GUT GUT GUT

m UNE EXTENSION DE TEX INCLUANT UNICODE ET DES FILTRES DU TYPE LEX

W , une extension de TEX incluant UNICODE et des filtres de type Lex

1. Une introduction `a W

2. Applications de W

ª

¢

¤«



,

¾

¡mÍ

µr` , @y

¡mÍ

¡mÍ

tad n_trumt id tnaL .nizamI n aruwzmit arit_d ,anifiT

-aM dilgu n rimi tad dd_tnafluN .tinialt_d tbarat n arit

f ,narfi ggd ,ar i f tnt_nuratt ,n_rimi n nizamI .nsinis

-tmu n msi nsa_lf nuratt : nawk i f it g git acam ,nrudgi

nutttt t ru nkka si_trdut id mdxy nyaw d ,nali_t_iw d ,nit

.nrafani

" ,rÿ ÿi\ V, ¼_V=um\ ^#ü .$ÿ ÿ~am " ,=í`zÿ ÿmi\ ,ri\_ ,aÿ ÿnifi\

.$ÿ ÿsiniOa di¹` " rim V, í_^ÿ ÿ#afu¼ .^ÿ ÿiniû\_ ^,ra\

aÿÿa ,"=`dg  ,",rf í ,,=  ^ÿÿn\_"`=aÂ ,"_rÿÿim " $~am

$,` ,"û_V_` ,$ÿÿiÃ` " ÿÿs $ÿÿO,_í "`=aÂ : ",w ÿÿ tÛi\

."=aÿÿfan "uÿÿÃÂ V =` $ÿÿ¶, P_V=u\ dx



^