Enjeux de la normalisation internationale de la numérisation des écritures et langue française, appropriation d’Unicode

(1)

de la numérisation des écritures et langue française, appropriation d’Unicode

Sylvie Baste

Pilote du groupe « problématique de l’internationalisation » de l’Association des informaticiens de langue française

sylvie@baste.info

RÉSUMÉ. La langue française a toujours évolué dans des environnements plurilingues, en France et dans le monde. Être en contact avec d’autres langues n’est pas une situation linguistique exceptionnelle mais le français permet à un large ensemble de personnes de procéder à des échanges culturels, économiques et politiques internationaux. De ce fait le français est une langue de réseau. Le standard Unicode et la norme ISO/CEI 10646 sont le fruit d’un consensus sur le codage des caractères graphiques mais leur mise en application est coûteuse et complexe.

En général, seul un sous-ensemble est implémenté sur un ordinateur selon les besoins des utilisateurs. Les écritures dont les usagers ont les moyens de développer la numérisation, sont les plus présentes dans les TIC. Il pourrait être profitable d’utiliser l’expérience de la langue française en matière d’échanges multilingues pour élaborer un sous-répertoire d’Unicode qui ne serait pas simplement lié à une situation géolinguistique ou économique mais à une communauté multiculturelle. L’étude du cas particulier des usages d’Unicode en France et dans la francophonie permet de saisir à quel point l’approche culturelle est essentielle à l’appropriation d’Unicode, donc au processus d’informatisation des écritures.

ABSTRACT

.

The french language always evolved in multilingual environments, in France and in the world. To be in contact with other languages is not an exceptional linguistic situation but french allows a broad whole of people to carry out cultural, economic and political international exchanges. French is a language of network. The Unicode standard and ISO/IEC 10646 are the fruit of an assent on the coding of the graphic characters but their implementation is expensive and complex. In general, only a subset is implemented on a machine according to the needs of the users.The writings whose users have the means of developing digitalization, are most present in the information technologies. It could be advantageous to use the experiment of the french language in regard to multilingual exchanges to work out a sub-directory of Unicode which would not be simply related to a linguistic or economic situation but at a multi-cultural community. The study of the particular uses of Unicode in France and in the francophonie makes it possible to understand how the cultural approach is essential to master Unicode, so for the process of writings computerization.

MOTS-CLÉS : Unicode, ISO/CEI 10646, informatique multilingue, normalisation, langue française, SEM, sous-répertoire francophone, approche multiculturelle

KEYWORDS: Unicode, ISO/CEI 10646, multilingual data processing, standardization, french language, MES, french-speaking community sub-directory, multi-cultural approach.

(2)

1. Introduction

La norme ISO/CEI 10646 et son sous-ensemble Unicode proposent un jeu universel de caractères codés doté des particularités suivantes :

– sauf exception, on attribue un code et un seul à un caractère et différents caractères ne peuvent posséder le même code,

– on code un caractère et non ses glyphes potentiels¹.

Par conséquent, le codage est assuré sans ambiguïté, ce qui représente un avantage dans la mesure où jusqu’alors aucun système n’a su dispenser la diversité des caractères d’une manière simple donc facilement gérable. Pour la première fois la quasi-totalité des écritures est prise en charge par un principe unique et rationnel applicable à un ensemble de méthodes en vigueur dans le traitement de l’information.

Une analyse des besoins en matière d’écritures fait apparaître que l’informatisation de celles-ci ne peut être réalisée par la simple mise à disposition de caractères. L’écriture existe et est utilisée sous différentes formes. Elle est encore manuscrite, imprimée ou dactylographiée tout en faisant l’objet de transcriptions numériques de plus en plus nombreuses.

À cette diversité de formes graphiques s’ajoute le problème de la diversité de langues écrites que tente de résoudre Unicode et ISO/CEI 10646. Le jeu universel de caractères prend en charge les trois grands groupes de systèmes d’écriture (systèmes idéographique, syllabique et alphabétique) pour différents groupes linguistiques.

Rappelons brièvement qu’il faut faire la distinction entre langue et écriture.

Évidemment les deux notions sont liées. Sans entrer dans une réflexion sur les liens entre le langage et l’écriture et sur une éventuelle prépondérance de l’un sur l’autre on peut admettre que la structure de la langue induit l’usage d’un système d’écriture que l’environnement culturel où les possibilités d’échange jouent un rôle important, finit d’entériner. Pour éviter des confusions nous parlerons de langue écrite dans cet article qui ne se limite pas au sujet des systèmes d’écriture.

La diversité des langues écrites implique des difficultés en informatique qui ne sont que partiellement résolues par Unicode et ISO/CEI 10646. Ces codes de caractères sont certes la pierre angulaire de l’informatisation des écritures mais il faut pour dispenser le texte et le traiter, respecter des règles d’écriture (sens, disposition des caractères, césure des mots…) qui ne sont pas à ce jour répertoriées d’une manière universelle.

Les écritures sont aussi l’objet de translittération² et de transcription³ qui sont, en partie, aujourd’hui des pratiques uniformisées par des normes. Mais dans la

1. Glyphe : forme visuelle. Pour plus d’information, se reporter aux articles de Jacques André, Olivier Randier et Yannis Haralambous du présent numéro de la revue.

2. Passage d’un système alphabétique à un autre système alphabétique.

(3)

réalité cette uniformisation n’est pas encore en usage. L’hétérogénéité, sur ce point, des notices bibliographiques d’une bibliothèque à l’autre est une réalité⁴.

L’élaboration de systèmes d’information locaux et internationaux est en plein essor dans le secteur public autant que privé. En France, même si elle a pris un certain retard à ses débuts, la rapidité de cette évolution n’en est pas moins grande.

Le travail de conception en amont tient-il compte de la complexité des problèmes posés par l’informatisation des écritures, problèmes qui ne sont pas seulement informatiques mais enjeux socioculturels, économiques et politiques ?

Dans cet article nous tenterons de mettre en évidence de tels enjeux afin de comprendre comment ils sont appréhendés et d’évaluer si la prise de conscience est suffisante pour une véritable appropriation des écritures numérisées. Le sujet est trop vaste pour l’aborder ici dans son entier. Nous proposons donc de le développer à travers un thème particulier concernant la numérisation des langues écrites : les usages d’Unicode en France et dans la francophonie. Au préalable nous décrirons succinctement quelques aspects de la logique d’organisation des codes de caractères d’écriture supervisée par la normalisation et la standardisation. Puis nous placerons la langue française dans ce contexte. En somme, après avoir fait le lien entre Unicode et les langues écrites en général, nous poserons la question de ses liens avec la langue française.

2. Logique(s) de présentation des jeux de caractères graphiques dans Unicode et ISO/CEI 10646

L’informatique est basée sur un processus de codage qui fait la correspondance entre des impulsions électroniques et deux entités abstraites symbolisées par les chiffres 0 et 1. Le code numérique ainsi établi est organisé de telle manière que les séquences de 0 et 1 représentent des données traitées et restituées par l’ordinateur sous forme d’action ou d’informations accessibles à l’usager. Les premières données correspondaient à des calculs. Lorsque l’information textuelle est apparue, elle n’était disponible qu’en anglais c’est-à-dire en alphabet latin non accentué. Cet alphabet informatisé a été l’objet d’un standard, l’ASCII⁵ qui est aussi devenu une norme internationale, ISO 646.

Le domaine du codage des caractères graphiques a vu naître une multiplicité de normes nationales et de standards privés qui ont eu et ont encore une certaine efficacité dans un environnement donné. La volonté des industriels de capter des marchés ainsi que de nombreuses revendications pour que soient présentes les langues écrites nationales dans les codes informatiques sont à l’origine du

3. Notation de la prononciation d’une langue donnée au moyen du système de signes d’une langue de conversion.

4. Voir l’article de Henri Hudrisier dans ce même numéro.

5. American Standard code for Information Interchange.

(4)

foisonnement de jeux de caractères spécifiques. En parallèle, les outils et les pratiques informatiques ont rapidement évolué vers l’échange d’informations notamment sur réseaux. Or la restitution de l’écrit subordonne une grande part de leur utilisation. La mondialisation des échanges a entraîné une légitimation de l’informatique multilingue.

Devant l’insuffisance du code ASCII, face aux besoins culturels de disposer de systèmes d’écriture autres que l’alphabet latin non accentué, après quelques tâtonnements et une succession d’anecdotes, un consensus autour d’un jeu universel de caractères s’est imposé comme solution aux problèmes d’interopérabilité et de portabilité entre systèmes. Un caractère dans cette table est représenté par un nom et un numéro hexadécimal (U+ 05DE, par exemple) correspondant tous deux à une séquence de bits. Or pour rendre la multitude de caractères proposés disponible, cela ne suffit pas. Nous proposons d’analyser ici comment cette dernière est proposée.

La naissance des TIC (technologies de l’information et de la communication) a conduit des industriels à abandonner leurs tentatives d’imposer leur codage des caractères au profit du développement de nouveaux outils prometteurs. En outre, dans l’attente d’améliorations favorables des techniques informatiques, celles concernant notamment les capacités de mémoire de stockage des machines et la vitesse de lecture des processeurs, Unicode [UNI 00] et ISO/CEI 10646 [ISO 93] sont nés. Les caractères y sont codés sur plusieurs octets. Jusqu’alors la codification des caractères se faisait sur un octet la plupart du temps ce qui limitait le nombre de caractères disponibles ou obligeait à utiliser des méthodes complexes pour passer d’un jeu de caractères à un autre. Dans les deux cas (norme et standard), le codage est basé sur un système logique comportant des codes de commande. De plus, la convertibilité est un principe de base permettant la compatibilité avec des jeux de caractères existants. Sont associés des formats de sérialisation (UTF-8, UTF-7, UTF-16), sortes d’extensions d’Unicode et ISO/CEI 10646. Pour la première fois toutes les écritures sont prises en charge par un même système de codage numérique clairement défini rendant tous les caractères accessibles électroniquement de la même manière. De ce fait, on parle de jeu universel de caractères ou JUC⁶.

En effet, les enjeux liés au traitement du texte sont à tel point cruciaux que la normalisation dans ce domaine n’a pas simplement organisé une production de qualité et encouragé les innovations en fonction de l’offre et de la demande. Des demandes précises de l’ISO et du consortium industriel informatique Unicode ont insufflé pour une grande part les logiques fonctionnelles de la normalisation et standardisation du codage des caractères. Ces dernières n’ont pas joué uniquement un rôle de veilleur et de régulateur mais un rôle d’instigateur vis-à-vis de ce qui n’est qu’un aspect mais est la base de l’informatisation des langues écrites. On peut s’étonner de les voir remplir cet office mais concernant l’écriture le fait est courant.

L’histoire de l’écriture du français est jalonnée par ce type d’événements. On peut citer pour exemple la progressive harmonisation de l’orthographe à partir de la

6. UCS en anglais pour universal character set.

(5)

Renaissance jusqu’au XIXe siècle. Les liens entre normalisation et écriture sont étroits.

Aujourd’hui, il existe une différence notable entre ISO/CEI 10646 et Unicode qui contiennent pourtant exactement les mêmes positions de code. Le consortium développe un travail plus dynamique autour de la publication du standard visant à implémenter Unicode dans toutes sortes de systèmes d’information et à résoudre les problèmes d’écriture en plus de la simple disponibilité des caractères. On peut remarquer par exemple que la première version d’Unicode met en évidence des groupements linguistiques (définis par les systèmes d’écriture qu’ils utilisent) à travers des « allocations Unicode » (voir la figure 1) alors que la norme ne le fait pas⁷.

Unicode 3.0 présente les différentes écritures dans différents chapitres : les écritures alphabétiques européennes, les écritures du Moyen-Orient, de l’Asie du Sud de l’Afrique, les écritures dites supplémentaires. Cette classification qui n’est pas le codage en lui-même mais une représentation de celui-ci est principalement géolinguistique. Un caractère est codé, en principe, indépendamment de la notion de langue mais on se rapporte à la langue pour le « ranger ». Cette tendance n’est pas une simple technique d’ordonnancement. On peut le constater dans ce que l’on peut définir comme étant deux sous-répertoires d’Unicode et du JUC : le CJC et le SEM⁸. Le CJC correspond à un ensemble d’entrées de codes attribués aux idéogrammes unifiés chinois, japonais, coréen. Le CJC est la solution adoptée pour coder un fonds partagé de caractères han. Aujourd’hui on parle de CJCV car ces idéogrammes sont également présents dans le patrimoine scriptural vietnamien. L’emploi d’une même écriture fait ici l’objet d’une reconnaissance qui peut être perçue comme facteur favorable d’échanges et d’intercompréhension entre des pays où on ne parle pas la même langue. Un tel avantage est d’autant plus conséquent que le sous-répertoire unifié est clairement nommé, défini et normalisé. On peut penser qu’il aura des impacts culturels, économiques et politiques dans la région où il va le plus circuler mais aussi dans le monde entier.

Le SEM (sous-ensemble européen minimal) est un sous-répertoire moins connu et reconnu. Tout d’abord, il n’est pas défini dans Unicode ni dans le JUC. Il fait l’objet d’une norme expérimentale [CEN 96] publiée par le Comité européen de normalisation (CEN) et l’Association française de normalisation (AFNOR). Le SEM répond à un manque de spécification cohérente des écritures de l’Europe : alphabets latin, grec, cyrillique, arménien et géorgien. Il fonctionne comme un guide

7. Les dernières versions de la norme et du standard se distinguent probablement de la même façon. Malheureusement nous n’avons pas pu le vérifier car la norme ISO/CEI 10646-2 : 2001, n’est pas consultable en ligne, ni à l’AFNOR.

8. Nous utilisons les abréviations ou sigles français, même si trop souvent on trouve les sigles anglais dans des textes français. Ici donc : CJC pour Chinois Japonais Coréen au lieu de CJK Chien Japanese Korean, JUC pour Jeu Universel de caractères au lieu de UCS Universal Character Set, etc. Voir l’index à la fin de ce numéro.

(6)

d’implémentation local et doit satisfaire des exigences administratives commerciales, orthographiques (concernant en premier lieu les noms de personnes) des informations traitées dans les équipements informatiques européens.

Figure 1. Attributions Unicode (d’après [UNI 00])

(7)

La diversité linguistique des langues parlées européennes n’est pas du même ordre de grandeur que la diversité des systèmes d’écriture associés à ces langues. Si on se limite aux langues officielles des pays de la communauté européenne et aux pays candidats, seuls l’alphabet grec et l’alphabet latin accentué sont employés. La codification des caractères des langues écrites européennes ne paraît pas insoluble⁹ d’autant plus qu’il s’agit d’alphabets donc d’un nombre relativement restreint de signes. Au total le SEM répertorie 926 caractères dans ses jeux partiels européens.

Ce répertoire peut être implémenté selon divers niveaux correspondant à des besoins plus ou moins larges en matière d’échange multilingue européen et des possibilités des utilisateurs à rendre leurs postes compatibles :

– le SEM 1 pour les langues écrites officielles de l’Union européenne, plusieurs langues minoritaires, correspond à l’alphabet latin étendu dans Unicode et ISO/CEI 10646 (333 caractères) ;

– le SEM 2 pour les autres langues écrites minoritaires sauf le géorgien et l’arménien la bureautique, le traitement de texte correspond aux lettres latines de base, grecques et cyrilliques, signes de ponctuation et symboles ;

– le SEM 3 pour la translittération, la transcription, l’édition, la recherche en milieu universitaire, l’industrie, le gouvernement, propose les codes de toutes les écritures européennes et l’API.

Le SEM ne jouit pas de la même reconnaissance internationale que le CJC, sans doute parce qu’il n’a pas été très employé. Et rappelons qu’au contraire du CJC, il n’est pas défini dans Unicode ni dans la norme ISO/CEI 10646. Il leur est associé par une norme supplémentaire qui pour l’instant garde un statut expérimental qui n’en a pas moins une valeur normative. Cela signifie que les travaux de normalisation à ce sujet sont en cours ou en dormance.

La notion de sous-ensemble est définie depuis longtemps dans la norme ISO/CEI 10646 et dans le standard Unicode puisque la convertibilité, c’est-à-dire la compatibilité avec d’autres jeux de caractères y est une règle de base. Ainsi, les toutes premières positions de code du jeu universel correspondent à l’ASCII. Un sous-ensemble de caractères d’Unicode adopté en fonction de jeux de caractères existant est dit « limité ». L’élaboration d’une liste de caractères choisis dans Unicode est un sous-ensemble dit « sélectionné ».

La répartition des caractères en liaison avec des groupes d’écritures est visible dans Unicode et le JUC car les positions de codes sont présentées sous forme de table correspondant généralement¹⁰ à des jeux standardisés et normalisés nationaux et internationaux. La liste des répertoires sources est donnée dans la norme ISO/CEI 10646 et le standard Unicode. De plus, l’évolution de ces documents a consisté à

9. Malgré tout, certaines langues régionales n’ont pas tous leurs caractères (le CH du breton, par exemple) dans Unicode.

10. Exceptions : API, les symboles mathématiques, le khmer, le chéroki, la musique occidentale, le mongol, le CJC, etc.

(8)

ajouter des tables en fonction de demandes linguistiques précises. Par exemple, les dernier et avant-dernier jeux intégrés sont ceux utilisés dans l’écriture en langue mongole et en langue syriaque respectivement. Le tout peut être assimilé à une table unique organisée de telle manière à faciliter l’accès aux caractères selon les besoins des utilisateurs qui peuvent se reporter aux blocs scripturaux qui les intéressent où retrouver un caractère donné dans une liste de noms (définitions) de caractères rangés par ordre alphabétique. Les normes de codage ne sont pas destinées à un usage courant. En général, celui qui cherche un caractère dans ces jeux de caractères, possède une bonne connaissance de l’informatique. La plupart du temps, il doit répondre à une demande émanant d’un utilisateur qui n’aura pas accès, théoriquement, aux tables de code. Pour ce faire, il doit s’assurer que les caractères utilisés dans la langue écrite de l’utilisateur sont bien répertoriés dans le jeu universel. L’intérêt de la table est qu’il n’y a pas de programme particulier à écrire pour passer d’un groupe de caractères à l’autre puisqu’ils appartiennent tous au même système. Il suffit de connaître et intégrer les positions de code pour faire le lien entre les applications ou les différents niveaux d’« apparition » du caractère – un lien avec une table de police, par exemple. La référence numérique du caractère spécifie la position de code de celui-ci. Si on veut intégrer un caractère à une application il faut donc disposer de cette valeur. On peut évidemment à l’inverse vouloir vérifier la correspondance d’une référence avec un caractère.

Il existe plusieurs façons de chercher un caractère dans Unicode. Il est possible de se reporter directement au jeu universel présenté sous forme de sous-tables (plus de 120). Un ensemble de sous-tables correspond à un système d’écriture en général.

Les différents ensembles sont appelés blocs. Nous donnons un exemple de cheminement suivi pour accéder à un caractère dans la figure qui suit (page suivante).

La répartition formelle des codes selon la trentaine de systèmes d’écriture existant répond à une logique techno-linguistique. Il s’agit d’un rangement simple (succession de codes) qui n’a pas vraiment de répercussion sur l’utilisation mais peut faciliter les programmations. Une langue écrite est basée sur un système d’écriture, dont les éléments constitutifs (les caractères) sont codés. Aujourd’hui la plupart des écritures bénéficient d’une attribution de codes. Il subsiste quelques controverses (et c’est l’objet de ce numéro), pourtant, on peut convenir que l’évolution du codage des caractères lève une part des obstacles qui entravent le multilinguisme informatique.

La classification des groupes de caractères suit souvent une logique géoinguistique en parallèle de la logique qui lie les caractères aux systèmes d’écriture. Nous l’avons souligné, le standard organise les tables de caractères dans cet esprit plus que la norme ne le fait. On peut en déduire que le travail de la standardisation tente davantage de suivre les réalités économiques et politiques afin de suivre au mieux les tendances du marché.

(9)

Recherche du ō (014D) :

010 011 012 013 014 015 016 017

Ā ā Ă

ă Ą

ą Ć ć Ĉ ĉ Ċ ċ Č č Ď ď

Ē ē Ĕ ĕ Ė ė Ę ę Ě ě Ĝ

ĝ Ğ

ğ Ġ

ġ Ģ

ģ Ĥ

ĥ '

( Ĩ ĩ Ī ī Ĭ ĭ Į į

İ ı Ĳ ĳ

Ĵ ĵ Ķ

ķ 8 Ĺ ĺ Ļ

ļ Ľ

ľ

?

@ Ł ł Ń

ń Ņ

ņ Ň

ň ŉ Ŋ ŋ Ō

ō Ŏ

ŏ Ő

ő Œ

œ Ŕ ŕ Ŗ

ŗ Ř

ř Ś ś Ŝ ŝ Ş ş

Š š Ţ

ţ Ť

ť

! Ũ

ũ Ū

ū Ŭ

ŭ Ů

ů Ű

ű Ų

ų Ŵ

ŵ Ŷ ŷ Ÿ Ź ź Ż ż Ž ž ſ

0100

0101

0102

0103

0104

0105

0106

0107

0108

0109

010A

010B

010C

010D

010E

010F 0110

0111

0112

0113

0114

0115

0116

0117

0118

0119

011A

011B

011C

011D

011E

011F 0120

0121

0122

0123

0124

0125

0126

0127

0128

0129

012A

012B

012C

012D

012E

012F 0130

0131

0132

0133

0134

0135

0136

0137

0138

0139

013A

013B

013C

013D

013E

013F 0140

0141

0142

0143

0144

0145

0146

0147

0148

0149

014A

014B

014C

014D

014E

014F 0150

0151

0152

0153

0154

0155

0156

0157

0158

0159

015A

015B

015C

015D

015E

015F 0160

0161

0162

0163

0164

0165

0166

0167

0168

0169

016A

016B

016C

016D

016E

016F 0170

0171

0172

0173

0174

0175

0176

0177

0178

0179

017A

017B

017C

017D

017E

017F

0 1 2 3 4 5 6 7 8 9 A B C D E F

Figure 2. Repérage de la lettre minuscule o macron (d’après [UNI 00])

0101 LETTRE MINUSCULE LATINE A MACRON 0102 LETTRE MAJUSCULE LATINE A BRÈVE 0103 LETTRE MINUSCULE LATINE A BRÈVE 0104 LETTRE MAJUSCULE LATINE A OGONEK 0105 LETTRE MINUSCULE LATINE A OGONEK 0106 LETTRE MAJUSCULE LATINE C ACCENT AIGU 0107 LETTRE MINUSCULE LATINE C ACCENT AIGU 0108 LETTRE MAJUSCULE LATINE C ACCENT CIRCONFLEXE 0109 LETTRE MINUSCULE LATINE C ACCENT CIRCONFLEXE 010A LETTRE MAJUSCULE LATINE C POINT EN CHEF 010B LETTRE MINUSCULE LATINE C POINT EN CHEF 010C LETTRE MAJUSCULE LATINE C CARON 010D LETTRE MINUSCULE LATINE C CARON 010E LETTRE MAJUSCULE LATINE D CARON 010F LETTRE MINUSCULE LATINE D CARON 0110 LETTRE MAJUSCULE LATINE D BARRÉ 0111 LETTRE MINUSCULE LATINE D BARRÉ 0112 LETTRE MAJUSCULE LATINE E MACRON 0113 LETTRE MINUSCULE LATINE E MACRON 0114 LETTRE MAJUSCULE LATINE E BRÈVE 0115 LETTRE MINUSCULE LATINE E BRÈVE 0116 LETTRE MAJUSCULE LATINE E POINT EN CHEF 0117 LETTRE MINUSCULE LATINE E POINT EN CHEF 0118 LETTRE MAJUSCULE LATINE E OGONEK 0119 LETTRE MINUSCULE LATINE E OGONEK 011A LETTRE MAJUSCULE LATINE E CARON 011B LETTRE MINUSCULE LATINE E CARON

011C LETTRE MAJUSCULE LATINE G ACCENT CIRCONFLEXE 011D LETTRE MINUSCULE LATINE G ACCENT CIRCONFLEXE 011E LETTRE MAJUSCULE LATINE G BRÈVE

011F LETTRE MINUSCULE LATINE G BRÈVE 0120 LETTRE MAJUSCULE LATINE G POINT EN CHEF 0121 LETTRE MINUSCULE LATINE G POINT EN CHEF 0122 LETTRE MAJUSCULE LATINE G CÉDILLE 0123 LETTRE MINUSCULE LATINE G CÉDILLE 0124 LETTRE MAJUSCULE LATINE H ACCENT CIRCONFLEXE 0125 LETTRE MINUSCULE LATINE H ACCENT CIRCONFLEXE 0126 LETTRE MAJUSCULE LATINE H BARRÉ

0127 LETTRE MINUSCULE LATINE H BARRÉ 0128 LETTRE MAJUSCULE LATINE I TILDE 0129 LETTRE MINUSCULE LATINE I TILDE 012A LETTRE MAJUSCULE LATINE I MACRON 012B LETTRE MINUSCULE LATINE I MACRON 012C LETTRE MAJUSCULE LATINE I BRÈVE 012D LETTRE MINUSCULE LATINE I BRÈVE 012E LETTRE MAJUSCULE LATINE I OGONEK 012F LETTRE MINUSCULE LATINE I OGONEK 0130 LETTRE MAJUSCULE LATINE I POINT EN CHEF 0131 LETTRE MINUSCULE LATINE I SANS POINT 0132 DIGRAMME SOUDÉ MAJUSCULE LATIN IJ (ligature IJ) 0133 DIGRAMME SOUDÉ MINUSCULE LATIN IJ (ligature ij) 0134 LETTRE MAJUSCULE LATINE J ACCENT CIRCONFLEXE 0135 LETTRE MINUSCULE LATINE J ACCENT CIRCONFLEXE 0136 LETTRE MAJUSCULE LATINE K CÉDILLE 0137 LETTRE MINUSCULE LATINE K CÉDILLE 0138 LETTRE MINUSCULE LATINE KRA 0139 LETTRE MAJUSCULE LATINE L ACCENT AIGU 013A LETTRE MINUSCULE LATINE L ACCENT AIGU 013B LETTRE MAJUSCULE LATINE L CÉDILLE 013C LETTRE MINUSCULE LATINE L CÉDILLE 013D LETTRE MAJUSCULE LATINE L CARON 013E LETTRE MINUSCULE LATINE L CARON 013F LETTRE MAJUSCULE LATINE L POINT MÉDIAN 0140 LETTRE MINUSCULE LATINE L POINT MÉDIAN 0141 LETTRE MAJUSCULE LATINE L BARRÉ 0142 LETTRE MINUSCULE LATINE L BARRÉ 0143 LETTRE MAJUSCULE LATINE N ACCENT AIGU 0144 LETTRE MINUSCULE LATINE N ACCENT AIGU 0145 LETTRE MAJUSCULE LATINE N CÉDILLE 0146 LETTRE MINUSCULE LATINE N CÉDILLE 0147 LETTRE MAJUSCULE LATINE N CARON 0148 LETTRE MINUSCULE LATINE N CARON

0149 LETTRE MINUSCULE LATINE N PRÉCÉDÉE D'UNE APOST 014A LETTRE MAJUSCULE LATINE ENG (Sami)

014B LETTRE MINUSCULE LATINE ENG (Sami) 014C LETTRE MAJUSCULE LATINE O MACRON 014D LETTRE MINUSCULE LATINE O MACRON 014E LETTRE MAJUSCULE LATINE O BRÈVE 014F LETTRE MINUSCULE LATINE O BRÈVE

0150 LETTRE MAJUSCULE LATINE O DOUBLE ACCENT AIGU 0151 LETTRE MINUSCULE LATINE O DOUBLE ACCENT AIGU 0152 DIGRAMME SOUDÉ MAJUSCULE LATIN OE (ligature OE) 0153 DIGRAMME SOUDÉ MINUSCULE LATIN OE (ligature oe) 0154 LETTRE MAJUSCULE LATINE R ACCENT AIGU 0155 LETTRE MINUSCULE LATINE R ACCENT AIGU 0156 LETTRE MAJUSCULE LATINE R CÉDILLE 0157 LETTRE MINUSCULE LATINE R CÉDILLE 0158 LETTRE MAJUSCULE LATINE R CARON 0159 LETTRE MINUSCULE LATINE R CARON

(10)

Outre la nécessité d’organiser la diversité des caractères pour permettre leur utilisation cohérente, il faut admettre que de telles répartitions rendent compte de relations entre groupes linguistiques. Le sujet des langues ne peut ignorer cette composante essentielle de la communication interlinguistique. Il est normal qu’elle apparaisse dans l’élaboration des normes fondatrices de la numérisation des langues écrites (le SEM et le CJC en témoignent) et révèle le rapport entre les langues. Les écritures des pays industrialisés ont été les premières codées, les moins influentes (surtout celles non liées à la culture américaine) ont été incluses en dernier lieu.

Le codage des caractères est un canevas qui rend compte des réalités économiques, politiques et culturelles, en somme de réalités concernant les rôles fonctionnels et sociaux des langues. Ce n’est que le premier maillon d’une chaîne de processus qui va des caractères aux règles d’écriture. Les sous-ensembles sont utiles et intéressants car la norme ne peut être appliquée immédiatement dans son ensemble. Les ressources matérielles et humaines pour y parvenir sont lourdes. Il faut du matériel disposant de mémoires suffisantes, il faut prévoir les coûts de licence, le temps de travail pour le développement, le temps d’apprentissage des méthodes parce que le rendu d’une écriture exige un minimum de programmation destinée à appliquer les règles d’écriture qui sont nombreuses et variées mais le sous-ensemble comporte un risque. Celui de retomber dans la profusion incohérente des jeux de caractères et le morcellement du codage des caractères graphiques.

En ce qui concerne l’Europe on peut espérer toutefois une harmonisation des solutions techniques en passant par les SEM de l’ISO/CEI 10646. Or si la solution des sous-ensembles est intéressante il ne faut pas croire qu’ils feront taire ce qui a souvent ralenti les processus de cohésion en matière de codage des caractères, la difficulté de consensus sans doute parce que les problèmes linguistiques sont fortement liés à des politiques nationales. En République populaire de Chine par exemple, le standard GB 2312 appelé table Guobiao contient les caractères du CJC dans un ordre différent. Une table de correspondance résout facilement ce problème de compatibilité avec Unicode. En revanche, l’absence de nombreux caractères européens dans la table Guobiao conduit à une véritable incompatibilité.

Il serait intéressant de suivre l’évolution des SEM. On peut espérer que la présence d’interlocuteurs de plusieurs nations pourra aboutir à une coopération efficace. La France pourrait tirer parti d’un tel assentiment mais aussi s’y intéresser plus sérieusement. Sur le plan économique il semble essentiel à l’échange de données informatisées. Mais la langue française n’a-t-elle pas d’autres réseaux à explorer ? Nous allons aborder la question dans la section qui suit.

3. Langue française et Unicode

Notre sujet nous conduit à parler de la langue française écrite mais nous ne nous contenterons pas de l’aspect systémique de la langue écrite, c’est-à-dire des caractères graphiques et des règles d’utilisation de ces caractères. Nous

(11)

considérerons la langue française écrite comme véhicule d’expression, facteur de communication. Dans le processus d’informatisation des langues, il est intéressant de comprendre où elle se situe. Dans cet article nous ne développerons pas le thème particulier de la défense de la langue française, nous essaierons simplement de comprendre, à l’aide de ses particularités ce que les liens qu’elle entretient avec d’autres langues peuvent engendrer comme conséquence et peut enseigner en terme d’appropriation de l’informatique multilingue. Pour procéder à cette analyse il convient d’exposer un état des lieux abordant l’histoire de la langue française, son informatisation et sa place dans Unicode et ISO/CEI 10646.

3.1. Langue française : point commun et diversité

L’histoire, des relations économiques, culturelles et politiques ont fait du français, une langue qui appartient selon différents critères à plusieurs groupes : celui des langues européennes, des langues d’origine latine, des pays industrialisés, de la francophonie, des langues de communication internationale… Il est rare qu’une langue occupe autant de champs. Certains regroupements comme celui de la francophonie et de l’Union latine¹¹ font état ou sont à l’origine d’une prise de conscience que la donne linguistique est essentielle. Puisque cette dernière est à la base de la communication, les TIC ne peuvent être conçues sans ancrage dans des réalités linguistiques parfois complexes. Si on considère chaque langue écrite isolément on ne dira pas certains aspects des phénomènes linguistiques. Sur ce plan, le cas du français présente l’intérêt d’être en relation avec beaucoup d’autres langues sur le territoire français mais aussi à l’extérieur. Il en résulte une expérience linguistique de la confrontation et du réseau, qu’est amenée à vivre dans le contexte particulier de la mondialisation des technologies de l’information, toute langue informatisée.

Le cas de la langue française ne sera pas uniquement abordé ici sous l’éclairage de la francophonie mais nous y attacherons une attention particulière parce que tout en étant construit sur une logique linguistique et historique¹², le dynamisme de la francophonie s’articule sur plusieurs axes, « un espace politique défini par les relations étroites créées et maintenues entre un certain nombre de ces pays et par l’activité des institutions nationales et internationales qui en ont émané ; un espace économique, dont l’activité est favorisée par le partage d’une même langue comme

11. L’Union latine est une institution vouée à la promotion et à la diffusion de l’héritage commun et des identités du monde latin.

12. Petite chronologie : naissance de la francophonie à la conférence de Niamey en 1969 ; institution : Haut Comité de la langue française en 1966 ; Agence de coopération culturelle et technique, création de l’Alliance française en 1883 ; 1984 création du Haut Conseil de la francophonie ; 1989 Délégation générale à la langue française ; Agence de la francophonie ; 1986 : premier sommet des chefs d’État et de gouvernement ayant en commun l’usage du français, instauration d’un secrétariat d’État chargé de la francophonie.

(12)

instrument de communication ; un espace de coopération, surtout culturel et interculturel où la langue française tient le rôle à la fois de vecteur de valeurs culturelles universelles (droits de l’homme et des peuples…) et instrument de diffusion des identités particulières » [DAL 85]. Le monde francophone est un terrain favorable à l’étude de la diversité culturelle. La diversité linguistique en est un des aspects lié à tous les autres. L’ambition culturelle de la francophonie oblige ses acteurs à prendre le recul nécessaire pour entreprendre les projets qui mettent en œuvre la diffusion des savoirs, l’harmonie des relations interculturelles.

L’histoire de la langue française montre qu’elle a su s’adapter aux différences culturelles dans un territoire pour devenir « la langue de la République »¹³ qu’elle est aujourd’hui.

Elle émerge de façon institutionnelle avec les Serments des fils de Louis le Pieux (842) dans un contexte de bilinguisme puisqu’elle côtoie la langue germanique. En 1539, l’ordonnance de Villers-Cotterêts édictée par François 1^er donne un statut particulier au français [LONG 99] en l’imposant comme langue des actes judiciaires.

Après la Révolution française, l’enseignement primaire obligatoire achève de l’établir comme langue maternelle pratiquée par la quasi-totalité des Français¹⁴.

Le français est né dans un contexte plurilingue, de la transformation radicale du latin. Sa base lexicale est gréco-latine et compte quelques emprunts à des langues celtiques. Cette particularité fait de lui une langue riche et vivante et persiste aujourd’hui puisqu’il a connu des événements historiques conduisant à différentes situations sociolinguistiques, selon les pays où il peut être :

– langue maternelle de la majorité ou d’une minorité importante de la population et officielle ;

– langue officielle unique en présence d’autres langues maternelles ; – langue officielle conjointe ;

– langue « favorisée » sans statut officiel¹⁵.

13.Révision de l’article 2 de la constitution de 1958 : loi du 2 juin 1992.

14. Dates récentes importantes pour le français : décret n° 84-171 du 12 mars 1984 instituant un Haut Conseil de la francophonie, réunion de personnalités françaises et étrangères pour définir le rôle de la francophonie.

Décret n°89-403 du 2 juin 1989 instituant un Conseil supérieur de la langue française et une Délégation générale à la langue française.

Décret n° 94-665 du 4 août 1994 (dite « loi Toubon ») prévoit des sanctions pénales lorsque la langue française n’est pas employée dans les cadres prévus par la loi, par exemple « le fait de ne pas employer la langue française pour toute inscription ou annonce destinée à l’information publique ». Cette loi symbolise une réaction défensive par rapport à la mise en place de l’Europe. La langue de rapport à l’État doit rester le français. Les langues régionales sont enseignées mais ne peuvent faire valoir leur droit sans s’opposer à la constitution.

15. Classification établie à partir du classement des états selon [DAL 85, p. 14].

(13)

Le nombre de locuteurs du français s’élève à 130 millions environ si on ne compte pas les personnes maîtrisant la langue dans un pays où elle n’est ni langue officielle, ni langue maternelle, ni langue d’enseignement¹⁶. Il est parlé dans 47 pays, sur cinq continents différents et il est la langue officielle de 33 pays et de presque tous les organismes internationaux.

Ces différentes caractéristiques induisent une constante évolution du français. Le phénomène existe aussi en France où la langue est l’objet de changements de générations en générations parce qu’elle cohabite avec d’autres langues parlées (langues régionales, langues locales des anciennes colonies et langues d’origine de populations immigrées) et parce qu’il existe des variantes du français parlé selon les aires géographiques et les divisions sociales. Sa position de langue seconde, langue technique dans certains pays, donne à la langue française un rôle d’outil de travail et d’atout pédagogique dans des situations socio-économiques parfois difficiles.

Mais plus encore, à des niveaux de pratique différents, la langue française suscite un attachement culturel qui a su faire naître l’idée d’une francophonie multilingue et multiculturelle.

Fort d’une expérience presque traditionnelle du plurilinguisme, le français saura- t-il s’adapter au multilinguisme¹⁷ informatique ?

3.2. Ingénierie linguistique et langue française

L’écriture électronique du français ne pose pas de problème en France, pourtant l’échange international de données textuelles numérisées sur les réseaux et entre plates-formes n’est pas toujours satisfaisant. Lorsqu’on envoie un message électronique, il arrive encore souvent que les accents, trémas, cédilles et « œ » ne soient pas restitués. Pourtant, les solutions existent et sont abordables.

Écrire en français à l’aide d’un traitement de texte n’est pas le seul problème posé, mais il est élémentaire pour proposer des solutions en vue du traitement automatique de la langue orale et écrite manuscrite ou numérisée. La numérisation de la langue écrite est un chaînon essentiel de nombreuses technologies : la reconnaissance vocale, la synthèse vocale, la traduction automatique, l’aide à la

16. Voir l’étude réalisée par l’Agence de la francophonie – Union latine- FUNREDES – octobre 1998 : http//www.funredes.org, http//www.unilat.org,

http//www.agence.francophonie.org

17. La nuance entre multilinguisme et plurilinguisme apparaît selon nous ici dans le fait qu’il s’applique particulièrement à une informatique qui saurait rendre plusieurs langues mais assurerait également les échanges entre ces langues. Le terme plurilinguisme définit une situation où les langues en présence dans un même environnement, un pays, une région, un document. Les définitions des deux termes subissent quelques variations selon les domaines où elles s’appliquent, les points de vue.

(14)

rédaction et à l’apprentissage des langues, l’aide à la recherche d’information sur internet¹⁸.

Pour respecter le système d’écriture français, il faut disposer de plus de 130 caractères graphiques :

– les 26 lettres de l’alphabet en majuscules et en minuscules (52 caractères), – les signes de ponctuation et symboles (une quarantaine de caractères), – les 10 chiffres,

– les lettres accentuées majuscules et minuscules (14 caractères), – et les digrammes collés.

Aujourd’hui, le matériel informatique répond à ces exigences car il assure l’accès à un répertoire (autre que l’ASCII, jeu de caractères latins non accentués) permettant d’écrire la plupart des langues utilisant l’alphabet latin. Il s’agit de l’alphabet latin n^o1 ou ISO/CEI 8859-1 [ISO 99-2]. En général, les codages standards basés sur des jeux de caractères à 8 bits remplissent la même fonction. Il subsiste pourtant une lacune dans le répertoire international latin n^o1 : il ne contient pas la ligature « œ »¹⁹. La plupart du temps ce défaut est corrigé par un programme du traitement de texte qui reconstitue la ligature (pour être plus précis, qui remplace les deux caractères par un seul) en fonction de la présence du « oe » dans un mot.

Remarquez que dans Word par exemple, les deux lettres écrites séparément ne sont pas liées. En somme, elles ne le sont que dans un mot « reconnu ». La solution est simple et logique puisqu’un « o » suivi d’un « e » n’est pas a priori lié à lui si on considère toutes les langues écrites. Cette solution est utilisable parce que le français ne possède pas d’ambiguïté sur ce plan et elle a l’avantage de permettre d’écrire sur une même page des mots dans une autre langue écrite où les lettres « o » et « e » ne seraient pas systématiquement liées. Cet exemple donne un aperçu de la difficulté que peut représenter la confrontation des langues au cas où deux événements pourraient s’exclure dans deux langues écrites différentes. L’intégration des règles d’écriture sous forme de programmes est une nécessité logique.

Pour ce qui est de la forme des caractères, rappelons qu’il n’existe pas de norme de codage de format de glyphes, mais plutôt des standards privés tels que True Type, OpenType, etc. Les difficultés se situent au niveau des échanges de données lorsqu’on utilise les polices correspondantes. Lors de la construction d’un site diffusé sur internet, il faut s’assurer que la police utilisée pourra être lue et imprimée par le plus grand nombre de visiteurs. Cela signifie que l’on ne peut pas employer

18. Ces enjeux sont répertoriés par la Délégation générale à la langue française : http://www.culture.fr/culture/dglf/rifal/enjeux.htm

19. Voir l’article de Jacques André paru dans Cahier GUTenberg définissant ce caractère et expliquant pourquoi il ne figure pas dans l’alphabet latin – 1 :

http://www.gutenberg.eu.org/pub/GUTenberg/publicationsPDF/25-andre.pdf

Le caractère « œ » est présent dans le répertoire latin n° 9. Voir l’article de Jacques André paru dans Document numérique, vol. 2, p. 231-240.

(15)

une police trop originale. L’utilisation des imprimantes est un autre problème qui soumet le rendu des accents et des caractères particuliers à la diversité des codes sur lesquels fonctionnent les machines. L’utilisation de standards comme PDF et l’envoi de polices avec le document sur internet sont des solutions à ces problèmes.

La limite de jeux tels que l’ISO 8859-1 apparaît clairement dans un contexte multilingue. La présence simultanée du français et du vietnamien écrit en quôc-ngu, par exemple, n’est pas supportée par l’alphabet latin nô1 alors que ces deux écritures utilisent les lettres latines. En fait la norme 8859 se décline en une quinzaine de versions chacune capable de dispenser les caractères nécessaires à l’écriture de plusieurs langues selon des rapprochements linguistiques ou géographiques, voire politiques comme cela a été le cas pour l’alphabet latin nô5 réclamé par la Turquie se sentant proche économiquement de l’Europe occidentale. Le tableau suivant illustre la capacité de codage des différents alphabets latins en fonction des langues. Les caractères nécessaires à l’écriture de la langue française sont intégralement présents dans la table de l’alphabet latin nô9. Les alphabets indiqués entre parenthèses ne couvrent que partiellement cette langue écrite.

Si on utilise un logiciel de messagerie où l’alphabet latin n^o1 est table unique de codes de caractères, l’usage de la langue française et de la langue polonaise (par exemple) simultanément peut poser problème. Il faut faire appel à l’alphabet latin n^o2 pour disposer de tous les caractères polonais. Or, il faut des techniques informatiques particulières d’extension ou d’échappement parfois compliquées lorsqu’il s’agit d’envoyer dans un même message un texte codé avec deux codages différents.

L’écueil est encore plus grand dans un contexte où on utilise des systèmes d’écriture très différents. Le traitement des problèmes liés à des nuances à l’intérieur d’un alphabet, n’est pas équivalent au traitement des problèmes posés par deux alphabets différents. Entre deux écritures alphabétiques, il peut exister des logiques de fonctionnement complètement opposées comme il en existe entre un alphabet et un système idéographique ou syllabique. Les difficultés en matière d’ingénierie linguistique et typographique multilingues émanent principalement de ces divergences. Les situations de bilinguisme dans lesquels la langue française peut se trouver mettent en évidence un certain nombre d’obstacles. Il suffit d’imaginer quelques exemples simples mettant en présence le français et une autre langue de France ou une langue alliée à la francophonie ou encore une langue européenne :

– le français et le polonais écrits utilisent tous deux l’alphabet latin mais certains caractères ne sont pas communs aux deux écritures, comme le « ć » polonais correspondant à la prononciation de « ts » en français ;

– le français et l’arabe écrits sont basés sur deux alphabets distincts mais là n’est pas le problème qui réside davantage dans des particularités scripturales tels le sens de l’écriture, la nécessité d’une analyse contextuelle pour rendre la forme d’un caractère en arabe, la présence de ligatures en arabe également ;

(16)

Langue

Couverte(s) par l’alphabet

latin n^o Langue

Couverte(s) par l’alphabet

latin n^o

Albanais 1, 2, 5, 8, 9 Groenlandais 1,4,5,8,9

Allemand 1,2,3,4,5,6,8,9 Hongrois 2

Anglais 1,2,3,4,5,6,7,8,9 Islandais 1,6,9

Basque 1,5,8,9 Italien 1,3,5,8,9

Breton 1,5,8,9 Lapon (same) 4,6

Catalan 1,5,8,9 Latin 1,2,3,4,5,6,7,8,9

Cornique 1,5,8 Letton 4,7

Croate 2 Lithuanien 4,6,7

Danois 1,4,5,6,8,9 Luxembourgeois 1,5,8,9

Espagnol 1,5,8,9 Maltais 3

Espéranto 3 Néerlandais 1,5,9

Estonien 4,6,7,9 Norvégien 1,4,5,6,7,8,9

Féroïen 1,6,9 Polonais 2

Finnois (1),4,(5),6,7,(8),9 Portugais 1,3,5,8,9

Français (1),(3),(5),(8),9 Romanche 1,5,8,9

Frison 1,5,9 Roumain (2)

Gaélique de l’île de

Man 1,5,8 Slovaque 2

Gaélique écossais 1,5,8,9 Slovène 2,4,6

Gaélique irlandais (ancienne orthographe)

8 Sorbe 2

Gaélique irlandais (nouvelle orthographe)

1,5,6,8,9 Suédois 1,4,5,6,8,9

Galicien 1,5,8,9 Tchèque 2

Gallois 8

Tableau 1. Couverture des langues par les alphabets latins normalisés (ISO/CEI 8859 : 1999 Technologie de l’information – Jeux de caractères graphiques codés sur un seul octet – latin-1 à latin-9.)

(17)

– le français et le chinois écrits semblent incomparables car l’écriture idéographique se caractérise par une profusion de caractères qui rendent la saisie problématique ;

– la présence du français et de certaines langues africaines ne devrait pas être une situation exceptionnelle étant donné que dans beaucoup de pays africains, la langue française est langue seconde mais les codes de caractères ne sont pas encore réellement disponibles dans les normes et standards ainsi que les méthodes d’entrée de ces caractères qui de ce fait s’échangent difficilement.

La confrontation du français et d’autres langues écrites montre concrètement à quel point les problèmes sont multiples et variés. En nous livrant à cet exercice nous avons décomposé pour partie l’enchevêtrement des composantes du multilinguisme informatique. Les technologies sont opérationnelles en ce qui concerne l’informatisation du français même s’il subsiste quelques lacunes. En revanche, au contact d’autres écritures, les déficiences apparaissent. L’informatisation d’une langue isolée est essentielle pour la langue elle-même mais aussi pour les autres langues. Dans le contexte de mondialisation une écriture qui n’est pas numérisée peut faire naître une situation de manque au niveau de certains échanges conduisant à leur inefficacité.

La complexité de l’informatisation réside principalement dans le fait que l’écriture d’une langue ne fait pas seulement intervenir des caractères graphiques mais un ensemble de phénomènes qui ne sont pas uniquement techniques. Les études en ingénierie linguistique font d’ailleurs la synthèse des aspects techniques certes mais aussi financiers et sociaux. Le multilinguisme coûte cher et il ne peut se réaliser sans le respect de règles linguistiques, donc fonctionnelles mais aussi culturelles. Différentes expertises et expériences concourent au rendu des langues écrites : la typographie, la linguistique descriptive, les conventions de présentation (date, heure, ordre alphabétique …), les conventions d’usage, les règles de traitement (césure des mots…), la terminologie²⁰. La communauté électronique francophone existe et est très active également en ce qui concerne la défense du graphisme, de la syntaxe et du bon usage du français²¹. Cette stratégie techno- linguistique est un avantage pour les langues partenaires du français comme pour le français lui-même qui est l’une des langues de communication les plus importantes.

Et plus encore l’une des rares à justifier seule l’existence d’un groupe qui n’a pas d’ancrage géographique précis et qui génère une certaine expérience de la diversité

20. Pour plus de détail, on peut se référer aux documents normatifs sur le sujet : cadre pour l’internationalisation [ISO 93], Procédures pour l’enregistrement des éléments culturels [ISO 99-1].

21. Nous reviendrons sur ce point dans le paragraphe consacré à l’internet et l’usage du français. Il faut noter l’existence à un niveau national et international d’un grand nombre de regroupements et d’associations de professionnels et de consommateurs en faveur du multilinguisme et de l’internationalisation des logiciels dans le domaine des TIC : AILF (association des informaticiens de langue française), AFUL (association francophone des utilisateurs de Linux et des logiciels libres)…

(18)

culturelle. Or le processus d’informatisation des écritures qui suit des dynamiques économiques et une représentation géolinguistique du monde aurait beaucoup à gagner en s’inscrivant dans une logique multiculturelle qu’entretient déjà depuis de nombreuses années, la francophonie. Il semble essentiel de dépasser certaines catégorisations ou d’en créer d’autres si on veut brasser les langues sur les réseaux.

Les outils technologiques imposent encore des compromis. Mais l’avènement d’Unicode, du JUC et de polices correspondantes devrait résoudre bien des problèmes. Le nombre de produits qui s’y conforment sur le marché ne cesse de croître, ce qui est de bon augure. De plus, l’alphabet latin n^o1 trouve sa correspondance dans le codage sur 2 octets. Le passage d’un système à l’autre n’en sera que plus aisé d’autant plus que le format UTF-8 assure le relais.

Grâce à Unicode, le traitement automatique du français et de ses langues partenaires ne subira plus de manque. Mais il faut se rendre à l’évidence, on ne peut utiliser Unicode entièrement d’emblée. Cela demande un travail long et coûteux qui n’est pris actuellement que par morceaux et selon la demande. L’appropriation d’Unicode n’est pas organisée. On peut souligner la tentative que représente la norme expérimentale SEM formalisant des sous-répertoires européens. Sans demander que soit conçu un « Unicode francophone », il serait opportun d’envisager un sous-répertoire pour les usagers francophones qui souhaiteraient notamment traiter des informations textuelles bilingues.

À partir de l’analyse des problèmes rencontrés, une harmonisation pourrait naître par la mise en commun d’expériences possibles et réalisables et envisageables avec Unicode car les cadres sont posés par une sorte de tradition francophone.

Quelle est la réalité de ces usages aujourd’hui ?

4. Appropriation d’Unicode en question : usages en France et dans la francophonie

L’appropriation est un terme que l’on retrouve dans le domaine juridique (en ce qui concerne la propriété), dans des questions socioculturelles (touchant les acquis sociaux, parmi eux l’écriture), dans le domaine de l’art… D’une façon générale le terme correspond à l’action de faire sien quelque chose.

Cette notion est une question essentielle des recherches en information scientifique et technique. Dans le domaine de la science de l’information on s’interroge beaucoup sur la façon dont les TIC entreront dans les usages professionnels et sociaux ou comment elles en créeront d’autres. Normalisation et standardisation proposent une technologie consensuelle de la maîtrise de la numérisation de l’écrit. Elles ont choisi dans ce domaine de prendre en considération les intérêts du plus grand nombre. En s’annonçant dès leur titre, comme universels, Unicode et ISO/CEI 10646 s’engagent, a priori, à n’exclure aucune écriture du

(19)

codage numérique. En revanche, la question du chemin que chaque individu doit parcourir pour écrire dans la langue de son choix reste entière.

Les concepteurs de la norme et les destinataires de l’objet de cette norme sont deux groupes qu’il faut distinguer. Il est difficile de le faire actuellement parce que, nous l’avons observé dans la dynamique du fonctionnement de la standardisation organisée par le consortium Unicode, les solutions techniques apportées par les informaticiens sont pratiquement élaborées simultanément à la demande émanant souvent de personnes proches des secteurs informatiques. Mais qu’en est-il de la réalité des usages ?

Il semble nécessaire à l’heure de la mise en application de ces codes d’engager des réflexions théoriques afin de conceptualiser au mieux les systèmes d’information multilingues et d’imaginer quels impacts ils auront sur les sociétés. La veille dans ce domaine ne doit pas seulement être technologique mais scientifique.

Dans le paragraphe suivant, nous proposons une brève synthèse des réflexions issues de la mise en place d’un observatoire des usages français et francophones de la norme ISO/CEI 10646 et du standard Unicode sous la forme d’un séminaire de recherche²² intitulé « Unicode et après ?! ». Nous mettrons ensuite l’accent sur des exemples d’usages satisfaits ou non satisfaits dans des domaines d’activité importants pour la langue française : l’enseignement, la recherche, l’industrie, la gestion du patrimoine, les bibliothèques. Nous terminerons par une analyse de la situation du français dans l’internet.

4.1. Veille scientifique et normalisation du codage des caractères

Il est clair que nul ne peut à la fois connaître toutes les écritures du monde (anciennes et modernes), connaître les codes musicaux, chorégraphiques, mathématiques et comprendre de surcroît les conséquences techniques et informatiques du passage de 1 à 4 octets. Le travail collaboratif autour d’un document normatif abordant tous ces sujets est primordial. Pendant plusieurs années consécutives se sont rencontrés aux réunions du séminaire, non seulement des chercheurs spécialisés dans les domaines déjà cités, mais aussi des informaticiens, des enseignants, des professionnels usagers de l’informatique multilingue, des étudiants, etc.

Nous nous sommes inscrits dans une démarche de veille scientifique permettant d’observer dans le détail et dans son ensemble, l’activité de codification des écritures. Au départ de cette veille, nous nous sommes fixés l’objectif de mobiliser un nombre important d’acteurs dans le but de constituer un réseau où collecter des

22. Depuis 1996, sous la direction de Henri Hudrisier (Université Paris 8, département documentation), de Nadine Lucas (CNRS) et sous l’égide de l’Agence universitaire francophone, et la coordination de Sylvie Baste.

(20)

renseignements mais surtout où en échanger. Nous avons formulé quelques conclusions que nous donnons ici dans les grandes lignes.

On peut être rassuré de constater que le codage au fondement de la numérisation des écritures a fait l’objet d’un accord mais on ferait une erreur en croyant que ce domaine échappe totalement aux différends qu’il a toujours suscités. La norme ISO/CEI 10646 existe aujourd’hui avec la possibilité de fonctionner sur plusieurs octets, pourtant sa mise en application prend du temps à cause de divergences. Le consortium Unicode a investi énormément d’argent et de temps dans la fabrication du standard. Il peut difficilement accepter de prendre le risque d’être à présent dépassé et prévoit déjà de faire fonctionner le codage sur 4 octets en le transformant en un système fonctionnant sur 2 octets.

Chez les producteurs de logiciels libres, on rencontre aussi une forte tendance à préconiser l’adaptation multilingue, puisque l’essence même de ces produits est d’être utilisables par le plus grand nombre, à court et à long terme. Un logiciel de traitement de texte aux multiples fonctionnalités comme Emacs prend en charge le codage Unicode-utf8. Les stations de travail Linux sont également élaborées dans ce sens.

Les efforts d’aménagements de l’informatique comme outil pédagogique ne doivent pas ignorer les possibilités d’écrire dans plusieurs langues, dans des pays comme la France et beaucoup de pays de la francophonie où le plurilinguisme est une réalité. Les bibliothèques, les centres de recherche archéologique et ethnologique, les musées sont aussi concernés. Dans la francophonie, le bilinguisme est un atout à ne pas négliger pour l’éducation et la formation.

Les supports informatiques et le codage qui les accompagne sont les nouveaux supports de l’écriture. Ils apportent des changements et imposent des choix dans les manières d’écrire et d’éditer les textes qu’il faut comprendre et gérer d’une façon universelle.

Préserver la diversité linguistique dans les modes de communication actuels, c’est avoir l’ambition de préserver la diversité culturelle. L’étape historique d’une informatique unilingue est dépassée. Promouvoir l’informatisation des langues évitera la mort de certaines d’entre elles. Unicode et la norme ISO/CEI 10646 sont les outils de cette informatisation. Mais leur existence seule ne suffira pas à réaliser le codage universel des écritures. Une langue écrite ne peut se résumer à une table de caractères aussi complète soit-elle.

L’usage que l’on fera et que l’on fait de ces standard et norme doit faire l’objet d’accords nationaux et internationaux dans des champs disciplinaires différents en matière de méthodes de saisie, de définitions de fontes, conception de traitements de texte multilingues. Une prise de conscience au niveau des États et des grandes institutions sera nécessaire pour contrebalancer les prises de position du consortium Unicode. Le multilinguisme informatique représente un intérêt économique certain qui n’a pas laissé indifférent les grands concepteurs de matériel informatique, de

(21)

systèmes d’exploitation et de logiciels. Plutôt que de laisser progresser une incohérence entre tables de caractères et systèmes de codage conduisant à des incompatibilités gênantes, ils se sont regroupés. L’appartenance à ce groupe permet d’assurer une veille sur ce qui se fait dans le domaine de l’informatisation des écritures. En fait, le consortium Unicode constitue un groupe de pression fort puisqu’il est à la base de la conception du standard et qu’il fabrique les produits qui le supportent.

À quoi servent les applications élaborées par les linguistes et les informaticiens pour rechercher de l’information si cela ne concerne que quelques langues ? Faut-il se priver de ces applications dans l’étude de corpus en langues anciennes et langues minoritaires ?

Des mesures d’ordre technique dans les pays du Nord ont permis, suivant des progressions différentes de se doter des moyens d’accéder à l’information. Le problème est que ce moyen a été construit à partir d’une seule langue. L’anglais étant une langue d’échange économique et scientifique internationale, il a fallu un certain temps pour que l’on pose le problème de l’informatique multilingue.

Grâce à Unicode, on peut espérer que le traitement automatique du français et des langues partenaires ne subira plus de manque. On peut imaginer l’existence simultanée de plusieurs versions linguistiques d’un même texte scientifique numérisé. Ces versions auront la même crédibilité. Les informations scientifiques seront accessibles et brassées par un plus grand nombre de personnes. La communauté scientifique gagnera beaucoup dans ce type d’échange puisque la confrontation des théories et des pratiques est un élément essentiel pour ses avancées.

Parmi les langues partenaires de langue française, il nous a semblé essentiel de poser des pistes de réflexion sur les langues africaines dans la mesure où le thème est peu abordé²³. Nous avons appris au séminaire que ce type d’absence en ce qui concerne la normalisation est préjudiciable. Même si les besoins en matière de numérisation ne sont pas clairement formalisés, ils existent. Nous les avons repérés au cours de nombreuses conversations avec des chercheurs, des étudiants, des chefs de projet informatique. Les aborder, dès à présent pourrait éviter une perte de temps à l’avenir quand certaines langues réclameront une présence sur les réseaux, par exemple.

La présence d’une norme universelle de codage des caractères a au moins une incidence. Elle oblige les constructeurs à prévoir l’intégration de ces codes dans les nouveaux produits. En revanche, l’existence du standard Unicode doit faire comprendre que la numérisation des langues écrites n’est pas à l’abri des lois des marchés économiques. Le problème se pose parce que le consortium accompagne le standard de publications explicites sur l’utilisation du jeu de caractères. Sans poser des soupçons inconsidérés sur un travail dynamique et une expertise estimable, il est

23. Voir cependant l’article de Andrei Popescu dans ce numéro.