• Aucun résultat trouvé

Saisir des textes en caractères non latins

Dans le document (Xe)LaTeX appliqué aux sciences humaines (Page 36-40)

érer les langues avec Xunicode et Polyglossia

4.2 Saisir des textes en caractères non latins

Ce qffe noffs allons effipliqffer maintenant n’a en réalité pas grand chose à fioir afiec LATEX. Il s’agit en fait d’ffn problème plffs général à l’informatiqffe : comment écrire dans des caractères non latins ? Noffs allons ici effipliqffer la mafffiaise méthode, pffis la bonne méthode.

Noffs commencerons par ffn peff d’effiplications techniqffes très simpli ées : qffe les pffristes noffs pardonnent.

4.2.1 Les jeux de caractères : ou comment se servir de nombres

pour autre ose que des mathématiques

Aff départ, ffn ordinateffr ne manipffle qffe des nombres. Mais les ordinateffrs serfiant affffi hffmains, ceffffi-ci leffrs ont appris à  stocker  des caractères, en associant des leres à des nombres.

Cependant les premiers ordinateffrs afflant été défieloppés par des Anglo- Saffions, on n’a aribffé des nombres qff’à 127 caractères, ce qffi sff sait lar- gement poffr écrire en anglais et ajoffter des caractères spéci qffes, comme les accolades informatiqffes6. Le jeff de caractères connff soffs le doffffi nom d’ASCII7 a ainsi fiff le joffr.

6Celles dont fioffs fioffs serfiez poffr les commandes LATEX. 7American Standard Code for Information Interchange.

Chapitre 4 Gérer les langffes afiec Xunicode et Polyglossia Un joffr d’afftres peffples qffe les Anglo-Saffions ont fiofflff écrire afiec ffn or- dinateffr et ont soffhaité frapper leffrs propres caractères. Par effiemple les Effro- péens occidentaffffi ont fiofflff taper des accents, des cédilles, des trémas et afftres joffleffsetés. On a donc créé ffn nofffieaff sfflstème de codage poffr représenter les caractères latins occidentaffffi, en aribffant des nombres à d’afftres caractères. On a ainsi formé le jeff de caractères ISO-8859-1.

D’afftres ont fiofflff pofffioir frapper dans leffr alphabet, et c’est ainsi qffe fffrent infientés des jeffffi de caractères comme ISO-8859-5 poffr le cfflrilliqffe. En offtre certaines entreprises infientèrent leffrs propres manières de stocker des caractères : ainsi Apple infienta MacRoman et Microso Windofls-12528.

Mais certaines personnes soffhaitaient mélanger des caractères de difiers al- phabets : par effiemple écrire tantôt en grec, tantôt en cfflrilliqffe, tantôt en carac- tères latins. Comment faire ? Pendant longtemps,la techniqffe fftilisée9consistait à écrire dans ffn jeff de caractères donné, tfflpiqffement ISO-8859-1, mais en ffti- lisant ffne police qffi a chait le teffite dans ffn afftre alphabet.

Par effiemple, poffr écrire le caractère grec  α  on écrifiait le caractère latin  a  et on le faisait a cher dans la police SPIonic. Cee méthode posait — et pose encore — de nombreffffi problèmes :

– elle nécessitait qffe la police soit présente sffr tofftes les machines de tra- fiail ;

– ne stockant pas l’information effiacte sffr le caractère, pffisqff’elle fftilise ffn code poffr désigner afftre chose qffe ce qff’il defiait désigner, elle ne permeait pas de faire aisément des recherches ;

– afiec LATEX, étant donné qffe noffs ne sommes pas dans ffn sfflstème WYSI- WIG, elle rendait la rédaction et la relectffre effitrêmement pénible ; – elle était ffn non-sens informatiqffe et logiqffe.

Une métaphore simple effipliqffe le problème : sffpposons qffe fioffs fioffliez ffne maison en briqffe roffge. e diriez-fioffs si fiotre entreprise de maçonnerie fioffs posait dff parpaing, pffis le peignait en roffge poffr faire croire qffe c’est de la briqffe ? Voilà le problème fondamental de cee méthode : elle fait prendre dff parpaing (la lere  a ) poffr de la briqffe (la lere  α ) en se serfiant d’ffne peintffre (la police de caractères).

Heffreffsement petit à petit ffne solfftion a émergé : elle a consisté à infienter ffn jeff de caractère qffi pffisse stocker toffs les caractères présents sffr la terre, ffl compris dans le passé, tofft en laissant de la place poffr les caractères des ci- fiilisations effitra-terrestres qff’ffn joffr, éfientffellement, noffs rencontrerions. Ce jeff de caractère s’appelle Unicode.

8D’où le fait qffe pendant longtemps les accents  safftaient  régfflièrement lorsqff’on enfiofflait

ffn email d’ffn ordinateffr Apple fiers ffn PC soffs Windofls off vice-versa.

9i malheffreffsement est encore pratiqffée, fioir apprise, par des personnes peff aff coffrant des

Saisir des textes en caractères non latins  4.2 Afiec ce jeff de caractères, il est donc possible de mélanger allègrement de l’arabe, dff fiietnamien, de l’hébreff et dff cfflrilliqffe dans ffn même chier. Toff- tefois, histoire de compliqffer les choses, plffsieffrs implémentations de ces jeffffi de caractères ont été infientées, chacffne présentant des afiantages et des incon- fiénient difiers10. La plffs coffrante de ces implémentations est UTF-8.

C’est celle qffe fioffs fftilisez depffis qffe fioffs lisez ce lifire, si dff moins fioffs afiez lff le chapitre 2.

En ffn mot : Unicode dans sa fiariante UTF-8 est affjoffrd’hffi la meilleffre méthode poffr écrire des chiers mêlant plffsieffrs familles de caractères11.

Le lecteffr narqffois fera remarqffer qffe le même problème se pose qff’afiec la méthode de la police : à safioir qffe chaqffe ordinateffr de tra- fiail defirait implanter Unicode et UTF-8 chez lffi.

L’affteffr fera remarqffer qff’affjoffrd’hffi toffs les ordinateffrs possèdent en natif ces possibilités, et qff’il est possible très facilement de l’installer sffr des ordinateffrs ffn peff anciens. En offtre, afiec Unicode on stocke dff sens, et non pas de la forme, ce qffi permet ffne plffs grande soffplesse.

4.2.2 Concrètement

Fort bien, fort bien, stockons en UTF-8. Mais comment écrit-on en UTF-8 ? Afiec les clafiiers des ordinateffrs fiendffs en Effrope occidentale12, noffs n’afions pas les caractères grecs à portée de main.

Il fafft ici distingffer le sffpport phfflsiqffe : le clafiier afiec ses toffches bien concrètes, et le sffpport logiqffe : le fait qffe telle toffche appfffflée donne tel off tel caractère.

Poffr reprendre notre cas, il sff t de dire à notre ordinateffr qffe la toffche A correspond aff caractère α. Les ordinateffrs récents proposent plffsieffrs pilotes de clafiier en standard13. Tofftefois ces pilotes de clafiier sont généralement des- tinés affffi langffes contemporaines, et rarement adaptés affffi langffes anciennes — par effiemple poffr les accents sffr le grec14. Heffreffsement on trofffie aisément sffr Internet des pilotes de clafiier poffr d’afftres langffes15.

10Par effiemple sffr le fiolffme des chiers et les temps de recherche.

11L’affteffr pense même qffe, étant donné la baisse des coûts de stockages et de transferts, on

ne defirait plffs fftiliser qffe ce jeff de caractères, ce qffi affrait poffr mérite de permere bien plffs facilement à toffs les peffples de s’effiprimer dans leffr langffe. Malheffreffsement son effipérience per- sonnelle lffi profffie qffe cela n’est pas encore toffjoffrs le cas.

12Le lecteffr militant fioffdra bien pardonner cet ethnocentrisme.

13Soffs Macintosh, cela se règle dans les Préférences Sfflstèmes, panneaff  International , soffs

Windofls cela se règle dans les panneaffffi de con gffration, panneaff  options régionales et lingffis- tiqffes  ; soffs Linffffi, on trofffie le réglage dans les Paramètres Sfflstèmes, panneaff  Paffls et langffe , onglet  Agencements .

14 l’effiception notable de GNU/Linffffi, qffi propose des dispositions de clafiier poffr le grec polffl-

toniqffe et l’hébreff bibliqffe.

Chapitre 4 Gérer les langffes afiec Xunicode et Polyglossia

4.2.3 Et les angements de sens d’écriture ?

Certaines langffes s’écrifient de droite à gaffche, d’afftres de gaffche à droite. On soffhaiterait qffe les alignements de paragraphes, les positions des titres et d’afftres éléments correspondent aff sens de la langffe. Comment signaler cela à LATEX ? L’indication des changements de langffe (☞ p. 34, 4.1.3) sff t.

Poffr ce qffi concerne l’écritffre en boffstrophédon, on fftilisera le pa- ckage bidi. Celffi-ci possède des commandes qffi permeent d’indiqffer des changements de sens.

proposés par Michael Langlois : Michael L , Archives pour la catégorie « Informatique », :

http://michaellanglois.org/category/it/lang/fr; off encore, poffr le grec, les pilotes de l’École

Normale Sffpérieffre Département des sciences de l’antiqffité É N S  , Pilotes de clavier Unicode, :http://www.antiquite.ens.fr/ressources/outils- logiciels/article/ pilotes-de-clavier-unicode.

Chapitre 5

Mettre en sens son document

Dans le document (Xe)LaTeX appliqué aux sciences humaines (Page 36-40)