• Aucun résultat trouvé

UNICODE ET LA TEI, DEUX STANDARDS EMBLÉMATIQUES DES EXIGENCES DE NORMALISATION DANS L’ART D’ÉCRIRE EN LIGNE.

2.4. Un moteur de rendu d’écritures

C’est lui qui gère la composition lettres à lettres d’un texte en fonction d’une spécificité culturelle de ladite écriture et quelquefois eu égard à des caractéristiques propres à une langue donnée. Par exemple, en hébreu ou en arabe, les lettres seront disposées en lignes horizontales se composant ensuite parallèlement du haut vers le bas. Elles seront dans l’un et l’autre cas regroupées par blocs de mots (avec la particularité arabe de la ligature à l’intérieur du mot), mais en arabe et en hébreu le sens de l’écriture sera droite gauche167. Ce simple fait qui vient

s’inscrire en contradiction avec trente ans de culture industrielle informatique et un siècle d’industrie mécanographique pose de très nombreux problèmes informatiques ou techniques. Par exemple, cette altérité droite-gauche complique notablement le fonctionnement des balises HTML. Lorsque l’on dispose des balises dans l’information d’un site Web arabe ou hébreu, l’initiale d’une balise rencontrée est son chevron fermant « > » (plus grand que) alors que le système s’attendrait à trouver le premier caractère d’une balise « < » (plus petit que). Au-delà de la page, le moteur de rendu devra aussi intégrer la composition générale d’un cahier ou codex qui commencera pour un livre sémite sur la page qui est pour nous la dernière de couverture. Les choses se compliquent ensuite considérablement pour l’arabe contrairement à l’hébreu. L’arabe se compose de mots dont les lettres sont obligatoirement liées entre elles. Ce particularisme de l’écriture arabe est crucial, et il fut certainement cause de retard important de l’édition arabe à partir de la Renaissance. La calligraphie arabe n’a pas su (ou plutôt n’a pas pu pour des raisons religieuses), différencier de façon pragmatique le mode d’écriture manuscrit du mode d’écriture typographique. Plus difficile encore, la lettre arabe peut prendre quatre formes distinctes, selon qu’elle est isolée, initiale, médiane ou

finale. L’automatisme qui constitue l’une des sous-parties du moteur de rendu d’écritures

devra interroger dynamiquement le contexte de ce qui est en cours d’écriture. Cela nous

167

En arabe les nombres posent des problèmes particuliers. D’abord de diversité de graphie puisque le Moyen- Orient utilise une graphie orientale distincte de la graphie occidentale des chiffres arabes qui est utilisée dans le Maghreb. Ensuite il faut savoir que pour un œil de lecteur occidental les nombres d’un texte arabe se lisent de gauche à droite, contrairement au reste du texte. Ceci n’est en fait qu’une illusion puisque leur énoncé arabe est inversé car on énonce d’abord les unités, puis les dizaines, ensuite les centaines... selon la logique d’énonciation arabe, les nombres sont donc écrits de droite à gauche selon la même logique directionnelle que celle du texte.

permet d’imaginer l’extrême diversité des dispositifs logiciels qui auront été mis en œuvre dans les divers moteurs de rendu adaptés aux écritures indiennes, chinoises, coréennes, japonaises, etc.

D’autres questions viennent se surajouter à ce premier niveau. Le moteur d’écriture doit pouvoir gérer en conformité avec les habitudes culturelles typographiques, ou dactylographiques, spécifiques à telle ou telle écriture qui constituent les modes de mise en pages dont on sait qu’ils ont un caractère toujours signifiant : souligner, mettre en gras, en italique, composer des paragraphes avec des retours lignes, des sauts de ligne, des alinéas. L’ensemble de ces règles et habitudes que l’on pourrait globalement regrouper sous les deux notions plus génériques de mise en pages et mise en emphase ne sont pas des codes universellement partagés par toutes les écritures du monde168. Par contre il peut être important

de savoir trouver, si c’est possible, des équivalences culturelles de ces mêmes notions dans les autres écritures du monde.

3.La TEI : “Text Encoding Initiative”.

La TEI (Texte Encoding Initiative)169 que l'on pourrait traduire par groupe d'initiative pour le

balisage normalisé des textes est effectivement une norme de balisage, de notation et d'échange de corpus des documents électroniques fondée sur SGML. Elle s'est élaborée pragmatiquement à partir des besoins de structuration, de conceptualisation et de mise en réseau de textes. En fonction des premières hypothèses avancées dans la réunion du Vassar Collège (Poughkeepsie, New York 1987), un long travail de recherche de consensus entre scientifiques intéressés par l'étude des textes (spécialistes de littérature, historiens, sociologues, linguistes, ethnologues, philosophes...) a permis de définir un ensemble de

168

Bonaparte expert en typographies “orientales” :L’acquisition de ce type de savoir-faire typographique

universel, limité au scriptural n’est pas une utopie. Depuis deux cents ans il existe à l’Imprimerie Nationale un corps de typographes spécialisés dans la composition des textes en langues orientales. Le besoin s’en est fait sentir lors du retour d’Égypte et Bonaparte lui-même créa ce “corps de typographes des textes orientaux”. Ce ne sont pas de savants lettrés, connaissant une multitude de langues, cependant ils ont été formés à l’École des Langues’O. Ils y ont acquis quelques notions de chinois, d’arabe, de sanskrit, de sumérien, d’égyptien, de copte..., mais surtout ils connaissent dans la totalité de ces écritures des règles de composition et de disposition des textes. Il est dommage qu’il ne reste plus à ce jour qu’un ou deux représentants de cette élite d’ouvriers typographes parce que c’est certainement à leur école qu’on devrait former les graphistes, mais aussi les typographes, les informaticiens des réseaux internationaux, et les utilisateurs de données transcripturales et trans-linguistiques des décennies futures.

169

Cette partie du texte reprend certain élément de : Hudrisier (Garance ) et (Henri), la lecture assistée par ordinateur et ses applications savantes ou pédagogiques : évolution et typologie des écrits et des supports , des auteurs, des lectures. Enjeux culturels, sociétaux et didactiques, in Le Français aujourd’hui

recommandations de codage : le Guideline TEI170. C’est la première expérience de ce type sur

une aussi grande échelle : plusieurs milliers de chercheurs impliqués dans le monde appartenant à des disciplines diverses essentiellement en sciences humaines décident de fonctionner collégialement sur les mêmes conventions normalisées.

« Les chercheurs présents à Vassar sont tombés d'accord sur la nécessité de travailler à la définition d'un nouveau format de codage des textes électroniques et en ont posé les principes de base. Le nouveau format devait : être aussi complet que possible ; être simple, clair et concret ; être facile à utiliser sans logiciel particulier ; être rigoureusement défini ; permettre un traitement efficace ; être ouvert à des extensions définies par les utilisateurs ; être

compatible avec les standards existants ou en développement171. »

L'hypothèse majeure posée dès le début par ces chercheurs tenait pour acquis qu'il était possible d'utiliser la démarche SGML pour baliser des textes et noter de façon normalisée les éléments décrits par ce balisage. Ce balisage s'organise selon deux types d'éléments :

le noyau : ce sont des balises et des éléments communs à toutes disciplines. Par exemple, le balisage des notes, des apparats critiques, des dates, des personnes...

les balises et éléments propres à des disciplines : ils permettent de travailler sur le théâtre, la poésie, les dictionnaires, l'histoire, la philosophie...

La communauté TEI (parce que la TEI n’est pas seulement un format, mais un groupe de chercheurs réunis en groupe d’initiative définissant en consensus ses formats de documents et ses modes communs de balisages conceptuels) a commencé très tôt (1984)172 à organiser des

documents en bibliothèque virtuelle et corpus d’information structurée. Le format TEI fondé sur SGML est resté longtemps l’affaire de ce même groupe de passionnés. Le format XML qui a hérité et récupéré une bonne partie du savoir-faire de la TEI dissémine sur une beaucoup plus grande population d’utilisateurs nombre de concepts de la structuration du document mis au point pour la TEI.

La TEI, on l'a vu, a été mise au point pour que des chercheurs, au début surtout des chercheurs en sciences humaines, puissent échanger non seulement les corpus de textes, mais aussi pour qu'ils puissent disposer en commun d'un système de balisage et d'annotations normalisées.

170

BURNARD (Lou) et SPERBERG-Mc QUEEN (C.M.), La TEI simplifiée : une introduction au codage des textes

électroniques en vue de leur échange, traduction RÔLE (François), in Cahiers Gutenberg n° 24 Spécial TEI, juin

1996 éd. Irisa Rennes pp23 à 152.

171

IDE (Nancy) et VÉRONIS (Jean), Présentation de la TEI : Text Encoding Initiative , in Cahiers Gutenberg n° 24

Spécial TEI juin 1996, Rennes, éd. Irisa, pp. 4 et 5.

172

Très tôt par rapport à leur profession et à leurs champs disciplinaires majoritairement littéraires. Bien sûr les ingénieurs de la documentation militaro-industrielle avaient défini avant eux le format SGML et des usages afférents.

SGML comme on le sait est à l'origine un balisage issu de l'organisation des textes nécessaires aux éditeurs. Le noyau de la TEI reprend les éléments d'analyse nécessaires pour décrire la structuration fonctionnelle d'un texte : titre, avertissement, préface, corps du texte décomposé en chapitre et sous chapitre, index, table des matières etc.

Selon la discipline à laquelle appartient un chercheur utilisant la TEI, il lui sera ensuite commode d'utiliser au-delà de ce noyau les éléments de niveau disciplinaire qu'il jugera utile à sa recherche. L'aménagement de textes par des chercheurs selon la norme TEI permet dès lors que des chercheurs en littérature, en histoire, en ethnologie, en philosophie, etc. puissent ainsi dans leur discipline propre, voire hors de leur discipline, procéder à des échanges de corpus comprenant aussi bien les textes, que leurs annotations conceptuelles.

La nouvelle lecture savante qu’autorise la TEI doit être une ouverture sur la pluralité des fragments d’œuvre, en même temps qu’une conscience intelligente de la structure et du référentiel.

On comprend ainsi que la TEI, contrairement à ce que certains pensent parfois, est beaucoup plus qu'un simple format d'échange de gros corpus de textes. C'est aussi un potentiel d'échange et d'accumulation des apports d'autres chercheurs en sciences humaines. Avant la TEI, cette transmission ne pouvait se faire que par la lecture et la digestion des articles et ouvrages, suivis d'une reprise des éléments du corpus selon les résultats transmis par ces articles et ouvrages. La TEI ne dispense pas de lire nos collègues, bien au contraire, mais elle nous permet comme en sciences exactes de disposer directement et de façon normalisée des textes travaillés selon les hypothèses d'autrui.

Ainsi lire les travaux d'une dizaine de chercheurs ayant travaillé sur la dramaturgie de Claudel ne permet nullement de disposer pour autant d'un corpus claudélien annoté. Ce qui est vrai pour la lecture d'autrui est aussi vrai pour améliorer la méthode propre du chercheur. Le texte balisé offre des commodités de parcours en tous sens, de recherches d'éléments susceptibles d'être décomptés, comparés et rapidement parcourus pour « com-prendre » les éléments dispersés d'un corpus.

Avec le Web sémantique les différentes disciplines (dont la littérature) doivent définir exhaustivement leurs références, leurs démarches, leurs modes de fonctionnement, leurs

ressources humaines et de contenu. Ils doivent ainsi construire à l’échelle planétaire la bibliothèque virtuelle universelle et les ontologies électroniques universelles mises en commun dans un espace normalisé collaboratif accessible en tout lieu en temps réel. Cette démarche élargie à la normalisation universelle du multiscripturalisme, correspond bien dès lors à une démarche néo-humaniste susceptible d’ouvrir dans une très large mesure les possibilités actuelles de la littérature : nous assistons bien à l’émergence d’une nouvelle République des lettres accompagnement culturel indispensable du développement du Web sémantique. Henri HUDRISIER Université Paris 8 Laboratoire Paragraphe MSH Paris Nord h.hudrisier@free.fr

CHAPITRE 2 ÉCRITURE