MODÉLISATION ET ÉCHANGE NORMALISÉ DES DONNÉES LEXICALES EN LANGUE SPÉCIALISÉE

(1)

MODÉLISATION ET ÉCHANGE NORMALISÉ DES DONNÉES LEXICALES EN LANGUE SPÉCIALISÉE

Marc Van Campenhoudt Groupe de recherche Termisti Centre de recherche Tradital Université libre de Bruxelles

1 INTRODUCTION

L’idée d’identifier des catégories de données dans les dictionnaires est déjà ancienne. On la retrouve dès les premières versions de la Text Encoding Initiative (TEI¹), contemporaine de l’émergence du langage de balisage SGML (Standard Generalized Markup Language) à la fin des années 1980 et remplacée dans les années 1990 par le langage XML (Extensible Markup Language), particulièrement simple à maîtriser.

L’objectif est d’échanger des ouvrages sous un format normalisé, pérenne et qui ne dépende pas d’un logiciel particulier, tout en permettant une meilleure exploitation du contenu de l’ensemble des ressources lexicales disponibles (Romary, Salmon-Alt et Francopoulo 2004, 22). En changeant un simple fichier de traitement de texte en un document structuré, on en enrichit fortement le contenu. Le balisage autorise, en effet des questions très élaborées, comme « quels sont les verbes du français emprunté à l’anglais entre 1801 et 1900 ? » Ceci suppose de colliger méthodiquement des informations présentes dans l’ouvrage, mais qu’un esprit humain raisonnable ne pourrait prétendre exploiter au départ du papier.

Jusqu’à sa version P4 (Burnard et Sperberg-McQueen 2004), la TEI distingue un chapitre consacré aux dictionnaires et un chapitre dédié aux bases de données terminologiques. Toutefois, en tête de ce dernier chapitre (chap. 13), elle constate son obsolescence : “Since its first publication, this chapter has been rendered obsolete in several respects, chiefly as a result of the publication of ISO² 12200, and a variant of it (TBX)” (Burnard et Sperberg-McQueen 2004, 323). Depuis les débuts de la TEI, ce chapitre a évolué du format TIF (Terminology interchange format) vers le format MARTIF (Machine-readable terminology interchange format) (ISO 12 200 1999). Devenu par la

1. www.tei-c.org : « Les Recommandations de la TEI – Text Encoding Inititative (TEI) Guidelines – s’adressent à tous ceux qui souhaitent échanger des informations stockées sous forme électronique. Elles mettent l’accent sur l’échange des données textuelles mais d’autres types de données comme les images et les sons sont également pris en compte. Les Recommandations peuvent être appliquées aussi bien pour créer de nouvelles informations que pour échanger des informations existantes. » (Burnard et Sperberg-McQueen 1996, 27.) Consulter cette référence pour s’initier aux principes de balisage.

2. www.iso.org : L’Organisation internationale de normalisation (ISO) réunit des organismes nationaux de normalisation comme l’Association française de normalisation (AFNOR). Elle élabore « des Normes internationales d’application volontaire, fondées sur le consensus, pertinentes pour le marché, soutenant l’innovation et apportant des solutions aux enjeux mondiaux. » (extrait de la page d’accueil). Pour ce faire, elle s’appuie sur l’avis d’experts réunis au sein d’un comité technique. Le comité technique 37 (TC 37) est en charge des normes relatives aux ressources langagières.

(2)

suite TBX (TermBase eXchange, ISO 30042 2008), il porte encore dans son balisage, des marques typiques de la TEI. Pourtant, TBX s’en est fortement distancié à mesure que ses promoteurs ont compris qu’une simple description de surface dédiée à des lexicographies, généralement polysémiques, compliquait la gestion de l’équivalence. Nous veillerons à rappeler ici pourquoi une simple description de surface n’est guère satisfaisante, tout en osant un regard critique sur les choix opérés. Par ailleurs, la diversité des catégories de données utilisées en terminologie est vite apparue difficile à gérer dans le cadre de la TEI dès lors que l’on souhaitait décrire la très grande variété de dictionnaires disponibles, au- delà des grands modèles de référence dédiés à la langue générale³. Ici aussi, un examen critique est souhaitable dès lors que les inventaires de catégories de données et leurs méthodes de constitution soulèvent parfois des problèmes. Finalement, selon notre expérience pratique, la conversion d’un dictionnaire spécialisé dans un format d’échange normalisé est souvent l’occasion de découvrir de nombreuses incohérences, tant dans sa microstructure que dans sa macrostructure.

L’identification des catégories de données pose d’autres problèmes, s’agissant de se mettre d’accord sur leur définition, ce qui renvoie nécessairement à des questions épistémologiques. Dans une perspective de normalisation, il faut trouver un compromis entre un minimum de stabilité et un nécessaire enrichissement. Le passage à un modèle qui allie une structure et des catégories de données conduit à remettre en cause des idées bien arrêtées, comme celle d’une opposition fondamentale entre des choix macrostructurels initiaux (homonymie vs polysémie) qui s’avère dépassée par les possibilités qu’apporte la modélisation informatique. Partant, les techniques mêmes de rédaction des dictionnaires se trouvent remises en cause jusque dans l’élaboration de la microstructure. La difficulté semble être de franchir ce nouveau pas lors de la rédaction des dictionnaires.

1 LEXICOGRAPHIE SPÉCIALISÉE VS TERMINOGRAPHIE

Le monde des dictionnaires spécialisés est très varié, tout autant, sinon plus que celui des dictionnaires de la langue générale. Traditionnellement, on a voulu opposer, sur la base de différents critères, des ouvrages qui suivraient la méthode de la terminographie et ceux qui seraient des lexicographies spécialisées⁴.

La lexicographie de la langue générale est souvent perçue comme centrée autour du mot isolé, refusant le plus souvent le statut d’entrée aux syntagmes. Descriptive, elle serait sémasiologique, avec pour conséquence une approche polysémique et un éclatement des synonymes dans l’ordre alphabétique. Pour les dictionnaires bilingues, cela implique nécessairement de créer deux volumes, tous les sens d’une entrée d’une langue ne

3. Ces constats ne remettent pas en cause le souhait d’un retour d’un chapitre consacré à la terminologie dans la TEI (Romary 2014). Ceci est d’autant plus vrai que la norme ISO 24 613 (2008) Lexical Mark-up Framework (LMF) dédiée aux lexicographies est largement compatible avec le chapitre de la TEI consacré aux dictionnaires (Romary 2015).

4. Pour de plus fines distinctions, lire notamment Bergenholtz et Kaufmann (1997), Humbley (1997), Béjoint (2007) et Fuertes-Olivera et Tarp (2014).

(3)

correspondant pas à la somme des sens de chacun de ses équivalents. Comparer les sens de banane en français et de banana en anglais ou ceux de timbre et de stamp dans le Grand Robert & Collins (2017) permet de s’en convaincre aisément. Disant cela, on se doit de préciser que certaines lexicographies monolingues en langue générale suivent une approche monosémique, et donc homonymique, sans pour autant verser dans l’onomasiologie. Elles sont rares, datées du tournant des années soixante pour le français et plutôt boudées par le public. Un exemple typique est l’excellent Lexis (Dubois 2014), toujours commercialisé, même s’il ne pousse pas la logique de la monosémie dans ses derniers retranchements.

La méthode terminographique, « conceptuelle » et prescriptive, privilégierait une approche onomasiologique, monosémique, homonymique et regroupant les synonymes, ce qui la conduirait à s’affranchir de l’ordre alphabétique et à privilégier des classements thématiques. Cette approche implique « naturellement » de reconnaître aux syntagmes le statut de termes (ceci se désigne par panneau de basket, kératose sénile, pied de bielle de gouvernail, etc.).

L’opposition entre les deux mondes est largement contredite par l’observation de ce que sont les dictionnaires spécialisés ou les bases de données terminologiques. Dans les faits, beaucoup de lexicographies spécialisées monolingues sont des ouvrages encyclopédiques dont les visées, et donc le contenu, varient en fonction du lecteur modèle.

La polysémie peut y avoir sa place, le terme spécialisé n’échappant pas à la diversification des sens, notamment en diachronie (Dury et Picton 2010) et sous l’effet de l’évolution de notre compréhension (Temmerman 2000, 153-154). Les termes qui constituent des syntagmes y figurent naturellement en entrée (cuirasse ferrugineuse, mât de misaine, basse mer moyenne de vive eau...), éventuellement camouflés en entrées simples pour « faire dictionnaire »⁵ : cuirasse (~ferrugineuse). Par ailleurs, les dictionnaires électroniques exploités par l’ingénierie linguistique, à commencer par les lexiques-grammaires qui fonctionnent par classe d’objets (Le Pesant et Mathieu-Colas 1998, 20-22), privilégieront naturellement la monosémie.

Comme nous l’avons déjà montré (Van Campenhoudt 2000 et Van Campenhoudt 2001a), le passage d’une méthode lexicographique à une méthode terminographique est largement conditionné par la nécessité de créer des dictionnaires multilingues. Un dictionnaire bilingue ne demande que deux volumes. Au-delà, si on veut garantir une combinaison et une permutation de tous les couples de langues, le nombre de volumes à créer devient ingérable, car conditionné par la formule L² – L, où L symbolise le nombre de langues (3 langues : 6 volumes ; 4 langues : 12 volumes, etc.). Il est évident que l’addition des trois dictionnaires bilingues de référence de la maison Robert, couvrant les couples anglais-français, anglais-italien et anglais-néerlandais ne couvrira jamais les couples anglais-italien, anglais-néerlandais ou néerlandais-italien.

5. Sans approfondir ici cette question, évoquée en 4.2, nous avons le sentiment que la position traditionnelle des lexicographes qui privilégient le mot graphique est de plus en plus mise à mal par les exigences d’un interfaçage entre textes et dictionnaires électroniques.

(4)

S’agissant de la permutation des langues, il importe aussi de préciser que les bilingues de la langue générale sont, de nos jours, le plus souvent des dictionnaires d’encodage. Les terminographies seraient, elles, plus largement dédiées à la traduction, c’est-à-dire au décodage (ou version), mais avec la prétention de garantir une inversion de tous les couples de langues. Ici aussi, les faits contredisent très largement la théorie, car en dehors de cas exceptionnels comme le Dictionnaire de la machine-outil d’Eugen Wüster (1968) ou bien, avant lui, De la quille à la pomme de mât de Heinrich Paasch (1894), la plupart des terminographies multilingues sont des « faux-multilingues » (Quemada 1967) où une langue domine les autres, fournies accessoirement pour qui veut encoder dans une langue seconde (thème). Cette problématique se retrouve, bien entendu, dans les versions en ligne de ces ouvrages et jusque dans les grandes bases de données terminologiques, où une langue comme l’anglais peut, en outre, servir de langue-pivot, de manière plus ou moins transparente.

Bien des techniques originales ont été testées au cours de l’histoire pour tenter de résoudre ce problème, le besoin de dictionnaires spécialisés réellement polyglottes étant beaucoup plus important que pour la langue générale du fait de la nécessité des échanges commerciaux et industriels. La terminologie, comme discipline, a assurément été théorisée d’abord par Eugen Wüster (1979), par ailleurs pionnier de l’élaboration de normes linguistiques par l’ISO. N’oublions cependant pas que les dictionnaires multilingues, souvent spécialisés, ont historiquement précédé les dictionnaires monolingues de la langue générale (Quemada 1967, 37-73 et 567sv.) et sans doute été plus nombreux. Ainsi, Wüster a-t-il pu s’inspirer de pratiques terminographiques déjà très élaborées au 19^es. dans le domaine maritime et dont le sommet est atteint dès la deuxième édition de De la quille à la pomme de mât de Heinrich Paasch (Van Campenhoudt 2003).

Beaucoup de lexicographies spécialisées permettent censément de traduire. Un examen approfondi conduit toutefois à constater qu’une langue y prédomine, comme langue source ou comme pivot, et que l’on n’y trouve guère d’informations dans les autres langues. Ces dictionnaires spécialisés multilingues sont le plus souvent des dictionnaires d’encodage (de thème), qui ne permettent de traduire que dans un sens⁶. Ils proposent des définitions dans la langue principale pour informer un lecteur modèle locuteur de cette langue et des équivalents en langue seconde pour lui permettre de s’exprimer en langue étrangère. Il est donc paradoxal de voir des traducteurs – professionnels du décodage (de la version) – en faire grande consommation. Il est vrai que la mise en ligne de ces ouvrages permet de les interroger directement à partir de la langue seconde alors que la version originale imprimée se montre clairement comme un dictionnaire d’encodage (il faut passer par un index final pour décoder). Les bases de données terminologiques utilisées comme des outils de traduction multilingues demeurent parfois ambiguës sous cet angle-là, à

6. Il existe, bien entendu des exceptions notables, comme le Dictionnaire de la comptabilité et de la gestion financière (Ménard, Arsenault et Joly 1994) ou le Lexique français-anglais, anglais-français de la bourse et des marchés financiers (Villeneuve 2001).

(5)

commencer par celles qui répondent à une volonté d’aménagement linguistique (Cissé et al.

2009).

Une constante reste néanmoins, à nos yeux, la plus grande pauvreté, sinon l’indigence, du contenu des terminographies par rapport à bien des lexicographies spécialisées. Le nombre de catégories de données y est beaucoup plus restreint et beaucoup de champs ne sont utilisés qu’exceptionnellement. Plus une base de données est orientée vers des besoins de traduction, moins elle semble contenir de contenu sémantique, lexical ou grammatical (Van Campenhoudt 2000), alors même qu’il est évident que ces données de contenu sont de nature à favoriser une traduction de qualité. Lorsque le dictionnaire terminographique ne les propose pas, il prend souvent l’apparence d’un tableau où la langue de la première colonne fait figure de langue source. Le fait le plus marquant est sans doute que de nombreux glossaires « terminologiques » sont réalisés à l’aide d’un tableur avec une colonne par langue et un ou plusieurs termes équivalents regroupés dans une même case. Ces fichiers plats, qui ne structurent pas l’information, ne permettent aucune exploitation informatique élaborée.

2 LA CATÉGORISATION DES DONNÉES

L’usage de la « fiche » est commun au lexicologue/graphe et au terminologue/graphe. Le premier l’utilise classiquement en langue générale pour des tâches d’observation de l’usage et engranger des attestations. Le second l’a utilisée de longue date, comme en attestent les plus anciennes normes de l’ISO (notamment ISO /R 919 1969), pour présenter son dictionnaire. Avant l’avènement de la micro-informatique, à défaut d’être publié, celui-ci était consultable sous forme de fiches au sein d’un organisme ou d’un bureau de traduction.

2.1 Les catégories de l’ISO

Dresser l’inventaire des catégories de données est apparu comme une tâche urgente à mesure que les organismes producteurs de terminologie traductive ont commencé à utiliser des outils de traduction assistée par ordinateur (TAO). Le premier inventaire de grande ampleur est la norme ISO 12 620 (1999). Rédigée en anglais et en français, elle proposait un vaste ensemble de données sous la forme d’un classement logique, chaque catégorie faisant l’objet d’une description systématique.

Les limites de cette norme tenaient à son caractère figé : toute remise en cause de l’inventaire devait passer par un lent processus de mise à jour et avait peu de chances d’aboutir, s’agissant d’obtenir un consensus au sein de l’Organisation internationale de normalisation. La nouvelle version de cette norme (ISO 12 620 2009) a marqué un changement radical dès lors que l’on renonçait à figer l’inventaire des catégories dans la

(6)

norme elle-même. Dans la logique des résultats du projet européen IST-SALT⁷, qui visait à faciliter le partage de catégories de données et à en permettre une fine description (Budin et Melby 2000), la nouvelle norme 12 620 a prévu la mise en place d’un serveur en ligne nommé Isocat⁸. Il permettait de négocier, décrire et partager toutes les catégories de données utiles à l’élaboration de ressources langagières, bien au-delà de la seule activité terminographique (Wright et al. 2013). Ce serveur a fonctionné jusqu’en 2015, moment où son contenu a été figé⁹ et où seules certaines catégories de données sont demeurées en ligne. Pour la terminologie, celles que l’on peut consulter correspondent très largement à l’ancien inventaire de 1999 (tableau 1).

ISO 12620 FR (1999)

ISO 12620 EN (1999)

ISOCAT

A10.2.2.1 auteur A.10.2.2.1 created by / originator DC-162 created by

A10.14 concept A.10.14 concept identifier DC-139 concept identifier

A.5.3 contexte A.5.3 context DC-149 context

A.10.2.1.2 date A.10.2.1.2 input date DC-274 input date

A.5.1 définition A.5.1 definition DC-168 definition

A4 domaine A.4 subject field DC-489 subject field

A.1 entrée A.1 term DC-508 term

A2.2 grammaire A.2.2 grammar DC-250 grammaticalInfo

A.10.7 langue A.10.7.1 language identifier DC-2482 languageID

Tableau 1. Comparaison de quelques anciennes et nouvelles catégories de données

2.2 Faiblesse des contenus

En dépit de tous les espoirs que nous avions placés dans cette nouvelle approche, force nous a été de constater que nos réticences vis-à-vis de l’ancienne norme, qui nous ont amené à participer jadis au projet SALT, restaient fondées. Selon notre propre expérience, elles sont et demeurent de plusieurs ordres :

- Une orientation vers les langues européennes et une grammaire essentiellement héritée du latin. Ainsi, dans le projet du réseau LTT Conception d’un dictionnaire électronique unilingue wolof et bilingue wolof-français¹⁰ (2007-2008), nous n’avons pu disposer d’une catégorie correspondant à la classe nominale s’agissant de décrire une langue à classes comme on en trouve beaucoup en Afrique subsaharienne¹¹. De grandes langues transnationales tels le wolof et le swahili ne peuvent donc être décrites. On peut aussi

7. www.ttt.org/salt/description.html.

8. www.isocat.org.

9. Les raisons de ce choix sont expliquées sur la page d’accueil du site.

10. flsh-dico-wolof.ucad.sn.

11. De manière générale, peu de pays en voie de développement participent aux travaux du Comité technique 37 de l’ISO, ce qui explique la faible prise en compte des caractéristiques de leurs langues.

(7)

s’interroger sur le bagage des contributeurs en matière de linguistique comparée lorsqu’on lit certaines définitions qui prétendent à l’universalité : (feminine)

« Definition: Of, relating to, or constituting the gender that ordinarily includes most words or grammatical forms referring to females.¹² »

- Un manque de catégories de données adaptées à des projets novateurs. Par exemple, il n’y a pas de catégories de données pour exprimer le niveau de lisibilité d’un terme dans le cadre d’une base de données visant à proposer des équivalents en français facile à des termes utilisés dans le domaine hospitalier (projet Babeliris¹³). De même, nous avons récemment noté l’absence de catégorie ad hoc pour la forme féminisée d’un titre ou une fonction utilisée au sein d’une institution particulière sensible aux questions de genre.

- Une catégorisation des données parfois problématique. On remarque ainsi que la catégorie ISO « type de terme » regroupe étrangement des données d’ordres sémantique (être un synonyme), morphologique (être un sigle, un acronyme, une forme translittérée…), voire statistique (être une collocation). Établir un lien morphologique entre deux formes abrégées n’est possible que pour certains cas.

- Une faible capacité de traitement des relations sémantiques. La représentation de la relation hyponymique semble malmenée (related concept, related concept broader, related concepts narrower, broader concept generic…), les types de relations méronymiques ne peuvent être distingués et l’expression d’autres relations (cause, agent, succession temporelle…) est contrainte par une catégorie sequentially related concept. Nous avions déjà pointé cela du doigt dans le cadre de notre contribution au projet SALT (Van Campenhoudt 2001b). Il serait souhaitable que la catégorisation des relations sémantiques s’opère en tenant compte des possibilités nouvelles offertes par les langages descriptifs propres au monde des ontologies (Roche 2013).

- Une orientation doctrinaire marquée par l’héritage d’Eugen Wüster. Si le Comité technique 37 de l’ISO (cf. note 2) a beaucoup évolué au fil du temps, l’empreinte de la figure tutélaire demeure très présente dans certaines normes à travers diverses appellations et définitions qui ne tiennent guère compte des approches nouvelles qui se sont développées depuis près de trois décennies¹⁴. Ainsi, la catégorie « définition » (DC-168 et DC-1972) demeure-t-elle définie comme « [A] representation of a concept by a descriptive statement which serves to differentiate it from related concepts. » Ceci semble inévitable dès lors que d’autres normes ISO, à commencer par le Vocabulaire de la terminologie (ISO 1087-1 2000), ne sont pas amendées dans le cadre d’Isocat.

Par ailleurs, nombre de catégories de l’ancienne norme ISO 12 620 de 1999 sont reprises telles quelles sur Isocat, sans modification de leur définition. La catégorisation des types de définitions (dépendants de DC-169) et des types de contextes (dépendants de DC-150) constitue un bon exemple de cet état de fait. Tirer argument d’une norme

12. www.isocat.org/rest/dc/247. L’honnêteté nous force à reconnaître que l’état actuellement figé des fiches montre la présence de doublons manifestement créés pour remettre en cause les contenus portant sur le genre grammatical (voir, p. ex., www.isocat.org/rest/dc/1558).

13. Cette recherche a porté sur les situations communicationnelles dans lesquelles le personnel soignant ou administratif des hôpitaux publics bruxellois est amené à s’adresser à des patients allophones. L’une de ses ambitions était de développer une base de données terminologiques adaptée à cette problématique (Van de Velde 2014).

14. Voir la synthèse de Fuertes-Olivera et Tarp (2014, 104-128). Pour une vision plus approfondie, lire Kockaert et Steurs (2015).

(8)

surannée pour réintroduire telle quelle des catégories critiquées semble à la limite du pernicieux dès lors que l’idée des promoteurs d’Isocat était assurément de ne plus figer les choses (cf. point suivant).

- Un trop lent processus de mise à jour, lié aux procédures de l’ISO. Le but de la nouvelle norme ISO 12 620 (2009) était, tel que nous l’avions compris, d’introduire une dynamique de partage et d’ouverture. Lorsqu’il fonctionnait, le serveur a permis de déclarer de nouvelles catégories et de créer des sous-ensembles personnalisés. Son figement a malheureusement mis fin à cette avancée et débouché sur une période de grande instabilité, sinon de confusion, pour ce qui concerne le registre terminologique.

Ainsi trouve-t-on au printemps 2017 divers cas de dédoublement de fiches dont les contenus ne se correspondent pas toujours. Nous avons évoqué le cas des genres grammaticaux dans la note 12. On trouve également trois catégories « Concept relation » (DC-88, DC-142 et DC-242) sans que l’on puisse déterminer laquelle choisir.

- Un arbitrage délicat face à la diversité des propositions nouvelles : Isocat a permis d’introduire des catégories personnalisées, mais le rôle d’arbitrage et de validation est resté obscur. Les échanges que nous avons pu avoir avec les responsables des catégories de données liées à la terminologie dans le cadre de nos projets de recherche n’ont guère débouché sur des avancées. Toutefois, il faut reconnaître que ce rôle d’arbitre est particulièrement délicat lorsque la porte est ouverte à des groupes aux intérêts distincts et qu’en même temps le monde des industries consommatrices de données linguistiques interopérables souhaite la stabilité (Wright et al. 2014).

Tout ceci pose la question de ce qu’est une norme. Dans les faits, il ne s’agit que d’un consensus au sein d’un groupe humain aux intérêts variés et qui ne reflète pas nécessairement une diversité de points de vue. Les pratiques présentées comme idéales peuvent être influencées par un groupe de pression ou constituer un pis-aller à la croisée de plusieurs chemins.

Les catégories de données ne peuvent être figées dans un état de la connaissance ancien et il est dommage que des membres de l’ISO prennent le risque de paraître regretter la nette avancée que représentait le serveur Isocat. S’abriter derrière l’argument d’un besoin de stabilité pour le monde de l’entreprise semble en contradiction avec le dynamisme créatif du monde des industries de la langue. Résoudre la problématique de l’arbitrage semble une tâche préférable au retour d’un statu quo ante.

3 LA MODÉLISATION DES DONNÉES

L’auteur d’un document structuré doit non seulement identifier des catégories de données, mais aussi proposer une structure hiérarchique qui les organise et en propose une interprétation. La TEI adopte une structure qui reste très proche de la mise en page des dictionnaires, ce qui a été rapidement jugé insuffisant pour créer de véritables outils électroniques. Il est inutile de suivre une structure de surface qui implique de nombreux renvois à l’aide de pointeurs pour gérer synonymes et équivalents dès lors que le système

(9)

de balisage XML permet, par le mécanisme des feuilles de style XSL (Extensible Stylesheet Language), de transformer à volonté l’organisation des données d’un document. Les figures 1 et 2 illustrent la puissance du procédé : au départ d’un seul et même balisage, dès la fin des années 1990, les partenaires du projet MLIS-DHYDRO ont réussi à générer une version lexicographique (polysémique) et une version terminographique (monosémique et homonymique) du Dictionnaire hydrographique (OHI 1994-1998)¹⁵.

Figure 1. Transformation des données balisées en XML en une lexicographie polysémique

15D’autres modèles de mise en page ont également été créés, comme celui d’un volume monolingue homonymique.

(10)

Figure 2. Transformation des mêmes données XML en une terminographie homonymique

3.1 Le modèle en étoile

Nous ne reviendrons pas en détail sur les implications théoriques profondes de cette démonstration (Van Campenhoudt 2002), largement ignorée par la doxa. Le propos de cet article est plutôt de revenir sur la modélisation qui permet ce type de « coup de baguette magique », et qui a débouché sur la norme ISO 16 642 (2003). Le modèle sous-jacent est celui que nous avions proposé dès 1992, lors de la 1^re Université d’automne en terminologie (Merten, Mertens et Van Campenhoudt 1993) et qui était déjà implémenté en 1990 dans le logiciel Termisti (Blampain, Petrussa et Van Campenhoudt 1992), lui-même conçu dans la continuité des travaux de Jean-Michel Henning (1989a et 1989b) et de son logiciel MC4. L’idée, que nous avons largement contribué à théoriser, est de gérer les données terminologiques, multilingues ou monolingues, dans un modèle en étoile où l’espace sémantique qui garantit l’équivalence entre les langues sert de pivot (figure 3).

Figure 3. Modèle de données du logiciel Termisti (1990) : application aux six langues de l’ONU

Au milieu, jouant un rôle de pivot, on trouve les informations communes à toutes les langues. Il peut s’agir de données administratives ou sémantiques, d’une illustration, d’un classement documentaire… du moment que cela soit indépendant de l’expression dans une langue particulière. L’essentiel est que ce pivot corresponde à l’espace de sens qui délimite l’équivalence entre les langues. Chaque embranchement correspond à une langue et contient les unités lexicales décrites. Une infinité de langues peuvent se rattacher au pivot central et une infinité de termes (notés T1, T2, T…) répondant à la définition peuvent être décrits dans chaque langue. Le modèle permet un héritage des propriétés du niveau

(11)

supérieur et les relations sémantiques se nouent entre les pivots (Romary et Van Campenhoudt 2001).

Ce modèle « en étoile » permet de traduire en multipliant et en inversant à l’envi les couples de langues. Il est affranchi de l’impératif du papier évoqué au point 1 : il n’est pas besoin de multiplier le nombre de volumes faisant se correspondre deux langues avec une direction de la traduction (p.ex. de l’anglais vers le français). Ainsi, selon la formule L² – L, les six langues officielles des Nations unies représentent-elles trente couples de langues qui correspondraient à trente volumes de dictionnaires dans une architecture de réseau lourde et encombrante que les spécialistes de l’informatique ou des transports appellent « point à point » (figure 4).

Figure 4. Modèle « point à point » pour les langues officielles de l’ONU : 30 couples de langues

Si les 24 langues officielles de l’Union européenne sont rattachées au pivot, ce seront potentiellement 552 (24²-24) couples de traduction qui seront couverts. C’est ce modèle qui a été retenu comme architecture dans la base de données terminologique IATE¹⁶ de l’Union européenne (Fontenelle et Rummel 2014), comme en témoigne déjà sa structure de surface (les définitions y précèdent les termes).

La mise en œuvre des dispositifs en étoile a été largement analysée dans le volume 17-2 de l’International Journal of Lexicography, à travers une discussion du modèle Simullda de Maarten Janssen (2002). Simullda a ouvert d’intéressantes nouvelles perspectives par rapport à des solutions apparentées, comme la nôtre (Van Campenhoudt

16. iate.europa.eu.

(12)

2004), celle du Hub-and-Spoke (Martin 2004), qui utilise une langue comme pivot, ou celle d’Eurowordnet (Vossen 2004), qui utilise un ”inter-lingual-index”.

Le modèle en étoile suppose une monosémie stricte. Il peut sembler onomasiologique dès lors que le sens précède le terme, mais il faut garder à l’esprit qu’on décrit ici une modélisation informatique qui ne conditionne pas l’apparence finale du dictionnaire, laquelle pourra varier au gré des besoins (cf. figures 1 et 2). La question de la délimitation du sens est extérieure au modèle : on peut, en effet, choisir, dans la logique wüstérienne, une approche conceptuelle normalisatrice et attribuer dans chaque langue une étiquette lexicale à un référent standardisé. Mais on peut aussi opter pour une approche totalement descriptive où l’on identifierait le sens selon les moyens les plus habituels de la sémantique lexicale (Van Campenhoudt 2001a) ou encore en validant des attributs sémantiques comme dans Simullda. Le modèle n’est donc onomasiologique qu’en apparence et c’est le choix de permettre d’emblée une gestion multilingue qui implique la primauté d’une monosémie restrictive.

Dès lors qu’il se veut monosémique, le modèle implique l’homonymie. On pourra, certes, nier que le signifiant banane ou timbre a plusieurs homonymes en s’arc-boutant sur la tradition – plus typographique que scientifique (cf. point 4.2) – de nos dictionnaires monolingues. Mais la monosémie est un impératif pour traduire, comme on l’a vu avec les cas de banane – banana et de timbre – stamp dans le Grand Robert & Collins (2017). Le lexicologue frileux et cantonné à la description de sa langue maternelle aura beau appeler à son secours les tropes – voire effectuer quelques acrobaties intellectuelles – pour établir un lien de sens entre chaque acception d’une entrée du TLF ou du Petit Robert, il devra bien reconnaître que des relations sémantiques comme la synonymie, l’hyponymie ou la méronymie ne fonctionnent qu’en monosémie. Par ailleurs, en privilégiant la monosémie, le modèle en étoile se rapproche aussi des dictionnaires électroniques utilisés en traitement automatique des langues (cf. point 1). Il intègre directement les perspectives de l’intelligence artificielle, chaque pivot pouvant sans problème correspondre à un nœud d’un réseau sémantique. Ce que ne pourra jamais faire l’entrée polysémique d’une lexicographie classique.

3.2 À l’épreuve du balisage ISO

La norme ISO 16 642 (2003) Terminological Markup Framework (TMF) a été rédigée principalement par Laurent Romary, au terme du projet DHYDRO, qu’il a coordonné au sein du Loria. Cette norme propose d’adopter le modèle en étoile et distingue donc plusieurs niveaux hiérarchiques (figure 5) : celui du pivot, celui de la langue, celui du terme et celui des composants du terme¹⁷.

17. À notre connaissane, ce quatrième niveau n’est guère utilisé et nous ne l’aborderons pas ici.

(13)

Figure 5. Extrait de la norme ISO 16 642 (2003, 12)

Toutes les descriptions de types de document (DTD) qui se conforment aux détails de ce prescrit constituent des Terminological Markup Languages (TML), censément interopérables. Le TML le plus connu et le plus utilisé est TBX, standard de l’ISO et de l’industrie de la localisation déjà évoqué dans l’introduction. Mais TMF disposant d’une DTD, il est tout à fait possible de l’employer sans passer au préalable par un autre TML, comme cela a été fait, avec brio, pour la base de données Termsciences¹⁸. La DTD de TMF tient en quelques lignes et est de l’ordre de l’épure. Elle est particulièrement simple à utiliser, à la différence de TBX, qui impose de placer certaines catégories de données à des niveaux prédéterminés et de les lier à des balises particulières (descrip, descripNote, admin, adminNote, term, termNote, etc.). L’idée est assurément bonne, nous y reviendrons au point 4, mais les choix ne paraissent pas toujours appropriés (tableau 2) : la définition peut être placée sous un terme, ce qui est incompatible avec le modèle en étoile qui a inspiré TMF ; le contexte se place obligatoirement, et en toute logique, au niveau du terme, mais le type de contexte peut être situé à trois niveaux distincts ; en outre, ces deux catégories relèvent étrangement du niveau du concept et non du terme.

Tableau 2 : extrait de la norme TBX (ISO 30042 2008, 17)

En réalité, le but d’un TML qui sert à des échanges, comme TBX ou accessoirement TMF, est de permettre de rendre compte de toutes les pratiques observables dans les

18. www.termsciences.fr.

(14)

dictionnaires électroniques, y compris celles qui nous sembleraient les plus aberrantes¹⁹. On peut, dès lors, baliser un ensemble de fiches aux structures hétéroclites en respectant leurs DTD et donner l’illusion d’avoir produit un fichier valorisable dans un échange.

On notera, en outre, que le modèle en étoile n’offre pas de garde-fou parfait pour garantir la monosémie : il est aisé de le contourner, en TBX comme en TMF, en déclarant plusieurs fois la même langue pour proposer plusieurs définitions, comme nous avons pu le constater dans les travaux de nos étudiants. On touche ici aux limites du langage de balisage et de son attribut xml:lang. Pour résoudre cette latitude, il faudrait contraindre son usage ou celui de la catégorie language identifier (DC-279) dans un schéma ou une DTD dédiés à un TML original.

Par ailleurs, d’un point de vue épistémologique, les normes de balisage ne résolvent pas tous les problèmes théoriques, quand elles ne véhiculent pas un parti-pris sous-jacent.

On l’a vu ci-dessus avec la définition, le niveau de positionnement des catégories de données peut faire l’objet de débats. Une définition peut raisonnablement être placée au niveau du pivot interlangue ou de la langue dans un modèle en étoile. Nous avons toujours considéré que le modèle en étoile, dès lors qu’il impliquait un héritage des propriétés, supposait de placer la définition au niveau de la langue. Mais si l’on ne tient pas compte de cet argument, il semble logique de le placer au niveau le plus élevé, car le pivot correspond à un espace sémantique commun. Ceci suppose néanmoins l’usage d’un attribut xml:lang devant chaque définition.

C’est en analysant ce point que l’on s’aperçoit que la DTD de TBX²⁰ implique de déclarer dans l’élément racine <martif> une langue par défaut pour l’ensemble des fiches²¹. Ceci semble particulièrement gênant lorsque les promoteurs du format fournissent des exemples de bons balisages en proposant une définition sans attribut xml:lang au niveau le plus élevé. Ils contribuent ainsi à véhiculer l’idée de l’imperium d’une langue-pivot. Celle du monde des « concepts » ?

<?xml version='1.0'?> <!DOCTYPE martif SYSTEM "TBXcoreStructV02.dtd">

<p>From an Oracle corporation termbase</p>

</sourceDesc>

</fileDesc>

<p type="XCSURI">http://www.lisa.org/fileadmin/standards/tbx/TBXXCSV02.XCS</p>

</encodingDesc>

</martifHeader>

<text>

<body>

19. Rappelons que jusqu’à l’émergence de TMF et de TBX, le célèbre logiciel Multiterm rangeait la définition sous le terme. Il permettait ainsi de proposer plusieurs définitions sous une même entrée en dépit des exigences de l’équivalence.

20. Nous nous basons sur la DTD disponible à l’adresse www.ttt.org/oscarstandards/tbx/TBXcoreStructV02.dtd.

21. Cet usage semble un petit peu abusif au regard du prescrit du W3C (www.w3.org/TR/REC-xml, sous 2.12, le 4 mai 2017)

(15)

<descrip type="subjectField">manufacturing</descrip>

<descrip type="definition">A value between 0 and 1 used in ...</descrip>

<tig>

<term id="tid-Oracle-67-en1">alpha smoothing factor</term>

</tig>

</langSet>

etc.

(ISO 30042 2008, 21)

On retrouve également cette pratique dans des fichiers fournis comme exemples sur les sites officiels de TBX²². L’usage de cette déclaration initiale conduit même à proposer un fichier où la définition française fournie au niveau du pivot hérite de l’attribut xml:lang="EN".

[...]

</martifHeader>

<text>

<body>

<descrip type="subjectField">personnel</descrip>

<descrip type="definition">personne qui accomplit un travail copie ou d’écriture</descrip>

<ntig>

<term id="tid-voccod-211.01-fr1">copiste</term>

<termNote type="termType">entryTerm</termNote>

</termGrp>

</ntig>

[...]

</langSet>

etc.

medtronic_TBX.tbx Un dernier point nous semble devoir être évoqué : derrière la norme peut se cacher un enjeu d’ordre économique, car dans le domaine de la traduction et de la localisation, il y a tout un marché potentiel d’échanges de données et de services. Doter un logiciel de gestion de dictionnaires spécialisés de fonctionnalités d’importation et d’exportation en TBX est un puissant argument de vente. Mais après son achat, l’utilisateur devra, au-delà d’une simple initiation à son maniement, avoir une bonne connaissance des normes ISO et maîtriser les fondements linguistiques de la norme TMF. À défaut, il risque de devoir acheter des services, p.ex. pour la conception du modèle de données, ou se contentera d’utiliser son outil d’une manière tellement basique qu’il se tournera rapidement vers un simple tableur, comme évoqué à la fin de notre point 1. Dans le domaine de la traduction spécialisée, la médiocrité des pratiques terminographiques semble malheureusement triompher des normes dès lors qu’en réponse à la création, en dehors de l’ISO, du standard tabulé UTX²³, un format TBX-min²⁴ a été proposé pour garantir un passage du rudimentaire dictionnaire tabulé à la base de données (Lommel et al. 2014). Cette réalité contribue

22. Voir www.tbxinfo.net/wp-content/uploads/2014/07/TBX-Default-Sample-Files.zip et www.ttt.org/oscarstandards/tbx/TBX-resources.zip.

23. www.aamt.info/english/utx.

24. www.tbxinfo.net/tbx-min-resources-and-tools.

(16)

assurément à faire percevoir par certains la terminologie comme une lexicologie « aux pieds nus » (Van Campenhoudt 2016, 592-593) lors même que, paradoxalement, la réflexion méthodologique et la modernité des outils du terminologue sont du plus haut intérêt pour faire évoluer les pratiques lexicographiques.

4 LES DÉFIS D’UNE VRAIE INFORMATISATION

On l’a vu, les normes d’échanges sont ouvertes à des aberrations. Il importe donc de se montrer plus rigoureux que la norme pour gérer ses propres données. Termsciences fonctionne en TMF, mais il y a manifestement derrière la conception des fiches disponibles en ligne un autre modèle de données, beaucoup plus contraignant que la DTD de TMF.

Selon notre expérience de l’informatisation des dictionnaires spécialisés multilingues, il est effectivement crucial de modéliser ses données en créant une DTD qui soit un véritable TML respectueux de l’architecture en étoile de TMF, mais plus contraignant que les formats d’échange.

4.1 Du papier à l’écran

Beaucoup de dictionnaires dits « électroniques » reproduisent à l’écran le contenu du papier et posent exactement les mêmes problèmes de modélisation informatique. Le principal avantage de leur informatisation réside dans la possibilité de rechercher rapidement des entrées et de les consulter au départ d’un texte sur support électronique. Ce qui semblait déjà un progrès magnifique voici deux décennies paraît désormais bien peu de choses.

Les limites les plus classiques sont liées au fait que dans la démarche lexicographique, les synonymes sont dispersés dans l’ordre alphabétique et parfois définis de manière différente. Ainsi, le Dictionnaire de l’océan (CILF 1989), consultable en ligne²⁵, propose-t-il des définitions très proches pour anadrome et potamotoque et leurs antonymes catadrome et thalassotoque. Un lien vague du type « voir » lie les synonymes potentiels.

On peut, certes, encoder ces fiches de manière distincte dans un TML, mais se poser d’abord la question du sens, de la référence et des relations sémantiques conduira peut-être à les fusionner.

Le projet DHYDRO, qui portait sur une très riche lexicographie spécialisée (OHI 1994-1998), avait déjà permis d’isoler toute une série de problèmes typiques à résoudre dans le cadre d’un balisage du type TMF : forme des entrées, découpage des acceptions, synonymes déclarés dans les définitions, confusion entre synonymes et hyperonymes, liens sémantiques vagues entre les entrées, concurrence des équivalents, présence de diverses catégories de données (relatives à l’orthographe, à l’histoire, à l’usage...) dans les définitions, etc. Les gestionnaires des grandes bases de données terminologiques

25. www.cilf.fr/unepage-terminologie-terminologie-1-1-0-1.html.

(17)

d’accumulation ont une très bonne idée des stratégies à mettre en œuvre pour dépister à l’aide d’algorithmes ces incohérences du contenu, inévitables lorsqu’un grand nombre de personnes sont autorisées à encoder des données.

Les efforts titanesques que requiert la « rétroconversion » informatique d’un dictionnaire disponible sur traitement de texte sont largement ignorés. Au-delà du foisonnement éventuel des catégories de données identifiables dans une lexicographie riche se pose la question de tous les problèmes de diversité des sens et des synonymes. Quand bien même le modèle en étoile ne satisferait pas, a priori, certains auteurs de dictionnaire, leur demander de s’efforcer de le suivre pour quelques entrées les inciterait assurément à prendre la mesure de l’extrême rigueur que requiert la rédaction d’un dictionnaire.

4.2 Vers de nouvelles normes rédactionnelles

Au vu du coût d’une rétroconversion, il semblerait logique de plaider pour que les nouveaux ouvrages soient directement saisis dans un format structuré. Cela peut-être fait en insérant des balises à mesure que l’on rédige un texte libre tout en se conformant à une DTD lâche, mais au vu du contenu qui précède, il semble de loin plus logique de se contraindre à encoder les informations dans un modèle structuré conforme à la norme TMF, idéalement dans une base de données, sachant que ces données pourront ensuite être converties dans toutes sortes de mises en page et que du texte suivi pourra même être généré automatiquement.

Voici quelques exemples de conseils méthodologiques que nous avons formulés à l’issue du projet DHYDRO concernant les entrées du dictionnaire (tableau 3). Les habitudes de présentation des vedettes « qui font dictionnaire » sont souvent liées à des procédés de contraction du texte, jadis impératifs pour produire un dictionnaire imprimé à un coût raisonnable. On cherche encore aujourd’hui à les justifier sous un angle théorique (Svensén 2009, 102-104), mais ils constituent désormais un frein majeur à une exploitation performante du dictionnaire électronique. Ces raccourcis sont accessibles à un esprit humain, alors qu’un ordinateur a du mal à les interpréter. Un encodage informatique strict dans des champs de données permettra de toute manière de générer des vedettes sous forme compactée, si nécessaire.

Dictionnaire classique Base de données

Aberration f annuelle sera encodé entrée : aberration annuelle grammaire : n f

Ruban m (ou fil) étalon sera encodé entrée : ruban étalon

grammaire : n m entrée : fil étalon grammaire : n m

Chasser vi sur son (ou ses) ancre(s) sera encodé entrée : chasser sur son ancre grammaire : vi

(18)

entrée : chasser sur ses ancres grammaire : vi

etc.

Tableau 3 : exemples de consignes rédactionnelles pour l’encodage des entrées

Dans une même logique, les définitions ne devraient pas contenir d’informations destinées à d’autres champs (tableau 4).

« En astronomie... » sera encodé domaine : astronomie

« On dit aussi balise répondeuse... » sera encodé synonyme : balise répondeuse

« On écrit aussi thalweg » sera encodé variante orthographique : thalweg

« On dit localement rédélé (Bretagne) » sera encodé synonyme : rédélé

variation diatopique : Bretagne etc.

Tableau 4 : exemples de consignes rédactionnelles pour l’encodage des définitions

Il reste vrai que, pour arriver à un dictionnaire électronique riche, il faut relever le défi d’un balisage ardu. L’expérience des grandes bases de données terminologiques montre qu’il est très difficile d’obtenir que les champs de données soient systématiquement remplis. Sous l’angle de l’ergonomie, il est beaucoup plus agréable d’encoder librement un texte que de se sentir contraint par une structure, aussi bien pensée qu’elle soit. À l’inverse, il est fastidieux d’écrire un texte non structuré pour produire un dictionnaire dès lors que l’on n’a guère de contenu à proposer… Ceci explique assurément le succès des formats tabulés déjà évoqués et la nécessité de proposer des versions simplifiées des normes d’échange pour préserver leur usage.

CONCLUSION

Les dictionnaires classiques, sur papier, sont directement rédigés sous la forme d’un texte accessible au lecteur. La principale caractéristique du dictionnaire électronique est qu’il possède une structure profonde distincte de la structure de surface qui apparaît à l’écran. Bien penser cette structure profonde permet d’envisager une exploitation maximale de l’information. Un modèle en étoile, monosémique, est sans doute celui qui offre le plus de potentialités : gestion du multilinguisme, compatibilité avec les lexiques-grammaires, mise en place d’un réseau de relations sémantiques, calcul de l’équivalence… Fondé sur une arborescence, il permet l’héritage des propriétés et se prête facilement à un balisage XML, aisé à mettre en œuvre sans dépendre d’une solution logicielle. On peut préférer un modèle point à point, mais dans un cas comme dans l’autre, il n’y aura guère davantage à réaliser un dictionnaire électronique sans y identifier finement des catégories de données.

(19)

Les dictionnaires spécialisés, particulièrement ceux qui sont multilingues et ont un réel contenu, constituent des produits à haute valeur ajoutée pour les mondes de la science et de l’industrie, qui souhaitent pouvoir en exploiter toutes les données et les échanger. Ceci suppose, certes, d’utiliser les normes d’échange de l’ISO qui proposent une architecture et une catégorisation des données, mais il convient de le faire sans naïveté. Ces normes sont conçues pour pouvoir représenter tous les dictionnaires et laissent donc la porte ouverte à des structures de contenus peu crédibles. Les spécifications de la norme peuvent, en outre, soulever des questions épistémologiques qui ne sont pas anecdotiques. Dans tous les cas de figure, la conformité à une norme de l’ISO, p.ex. à la DTD de TBX, ne constitue en aucun cas un gage de la qualité du dictionnaire ou du logiciel qui permet de l’élaborer.

Cette situation peut être liée à la difficulté de faire évoluer les normes dans le cadre des dispositifs décisionnels de l’ISO, sans mandat national et face au poids de certains contributeurs. Dans le même temps, ignorer leur contenu, c’est s’exposer au risque de se voir un jour contraint par l’évolution technologique à les utiliser sans avoir contribué à les faire évoluer. Le manque d’étude critique sur les normes semble regrettable, alors que la majorité des publications scientifiques à leur propos sont rédigées par leurs concepteurs.

Il est vrai que l’existence de formats d’échange semble encore trop ignorée du monde de l’édition. La plupart des dictionnaires spécialisés ne sont pas rédigés par des auteurs au fait des progrès de l’ingénierie linguistique et leurs éditeurs n’ont qu’une faible conscience des possibilités d’exploitation et de valorisation de leur contenu par l’ingénierie linguistique. Si cette situation perdure, il est à craindre que l’on reste encore pendant longtemps tributaires de pseudo-dictionnaires électroniques qui se consultent à l’écran de l’ordinateur, sur une tablette ou une liseuse quasiment comme l’on consulte le papier. Le défi de l’interprétation automatique des dictionnaires pour les transformer en base de données, si difficile qu’il soit, reste sans doute une issue raisonnable au vu de la réalité du fonctionnement humain.

BIBLIOGRAPHIE

Béjoint, H. (2007). Nouvelle lexicographie et nouvelles terminologies. In Lexicographie et terminologie : compatibilité des modèles et des méthodes  . Ottawa, Les Presses de l’Université d’Ottawa, 29-78.

Bergenholtz, H. & Kaufmann, U. (1997). Terminography and Lexicography. A Critical Survey of Dictionaries from a Single Specialised Field. HERMES - Journal of Language and Communication in Business, n^o 18: 91-125.

Blampain, D., Petrussa, Ph. & Van Campenhoudt, M. (1992). À la recherche d’écosystèmes terminologiques. In Clas, A. & Safar, A. (éd.), L’environnement traductionnel. La station de travail du traducteur de l’an 2001. Journées scientifiques du réseau thématique de recherche Lexicologie, terminologie et traduction. Mons, 25-27 avril 1991, Sillery et Montréal, Presses de l’Université du Québec et AUPELF- UREF, 273-282 (Universités francophones. Actualité scientifique)

http://hdl.handle.net/2013/ULB-DIPOT:oai:dipot.ulb.ac.be:2013/237290.

Budin, G. & Melby, A. (2000). Accessibility of Multilingual Terminological Resources - Current Problems and Prospects for the Future. In Second International

(20)

Conference on Language Resourcesand Evaluation, Athens, Greece, 31 May - 2 June 2000. Athens, Greece ELREC, no pages. http://www.lrec-

conf.org/proceedings/lrec2000/pdf/283.pdf.

Burnard, L. & Sperberg-McQueen, M. (1996). La TEI simplifiée : une introduction au   codage des textes électroniques en vue de leur échange. Cahiers Gutenberg, n^o 24 (juin), 23-151.

Burnard, L. & Sperberg-McQueen, M. (2004). TEI P4: Guidelines for Electronic Text Encoding and Interchange. University of Virginia Press. http://www.tei- c.org/Vault/P4/index.html.

CILF. (1989). Dictionnaire de l’océan : index anglais-français, allemand-français,   espagnol-français. Version en ligne. Paris, Conseil international de la langue française. www.cilf.fr/unepage-terminologie-terminologie-1-1-0-1.html.

Cissé, M.Th., Diagne, A.M., Muraille, P. & Van Campenhoudt, M. (2009). Repenser le dictionnaire électronique multilingue dans un contexte d’aménagement

linguistique. In Depecker, L. & Dubois, V. (éd.), L’idée de politique linguistique.

Actes du colloque de la Société française de terminologie (Paris, 18 décembre 2008), Paris, Société française de terminologie (Le savoir des mots, n° 6), 47-70.

https://dipot.ulb.ac.be/dspace/bitstream/2013/237301/3/sft2008.pdf.

Dubois, J. (2014). Le Lexis - le dictionnaire érudit de la langue française, Paris, Larousse.

Dury, P. & Aurélie P. (2010). Terminologie et diachronie : vers une réconciliation théorique   et méthodologique ?.   Revue française de linguistique appliquée, Vol. XIV (2), 31-41.

Fontenelle, Th. & Dieter R. (2014). Term Banks. In International Handbook of Modern Lexis and Lexicography, Hanks, P. & Schryver, G.-M. De (eds). Berlin Heidelberg, Springer, 1-12. http://link.springer.com/referenceworkentry/10.1007/978-3-642- 45369-4_21-1.

Fuertes-Olivera, P.A. & Tarp, S. (2014). Theory and Practice of Specialised Online Dictionaries, Lexicography versus Terminography. Berlin & Boston, De Gruyter Mouton. https://www.degruyter.com/view/product/248469.

Grand Robert & Collins. (2017). Le Grand Robert & Collins : dictionnaire français-  anglais, anglais-français. Version en ligne 3.0. Paris, Dictionnaires Le Robert et Glasgow, HarperCollins. http://www.lerobert.com/espace-numerique/enligne/le- grand-robert-collins-en-ligne-12-mois.html.

Henning, J.-M. (1989a). Exemples de continuité dans la gestion automatique de données terminologiques. Meta : Journal des traducteurs / Meta : Translators’ Journal,    34 (3), 493-495. doi:10.7202/003046ar.

Henning, J.-M. (1989b). MC4: A Package for the Management of Terminological Data. In Conference on Terminology ın Advanced Microcomputer Applications. Vienna, 22- 23 November 1989.

Humbley, J. (1997). Is Terminology Specialized Lexicography? The Experience of French- Speaking Countries. HERMES - Journal of Language and Communication in Business, n^o 18: 13-31. doi:10.7146/hjlcb.v10i18.25410.

ISO 12 200. (1999). ISO 12 200 : Applications informatiques en terminologie – Format de   transfert de données terminologiques exploitables par la machine (MARTIF) – Transfert négocié. Genève, Organisation internationale de normalisation.

ISO 12 620. (1999). ISO 12 620 : Aides informatiques en terminologie – Catégories de données. Genève, Organisation internationale de normalisation.

ISO 12 620. (2009). ISO 12 620: Terminology and other language and content resources – Specification of data categories and management of a Data Category Registry for language resources. Geneva, International Organization for Standardization.

ISO 16 642. (2003). ISO 16 642 Computers Applications in Terminology – Terminological Markup Framework. Geneva, International Organization for Standardization.

ISO 24 613. (2008). ISO 24 613 Language Resource Management – Lexical Markup Framework (LMF). Geneva, International Organization for Standardization.

ISO 1087-1. (2000). ISO 1087-1 : Travaux terminologiques – Vocabulaire – Partie 1  : Théorie et application. Genève, Organisation internationale de normalisation.

ISO 30 042. (2008). ISO 30042 Systems to manage terminology, knowledge and content – TermBase eXchange (TBX). Geneva, International Organization for

(21)

Standardization.

ISO /R 919. (1969). ISO /R 919 : Guide pour l’élaboration des vocabulaires systématiques   (exemple de méthode). Genève, Organisation internationale de normalisation.

Janssen, M. (2002). SIMuLLDA :   A Multilingual Lexical Database Application Using a Structured Interlingua. Utrecht, Universiteit Utrecht.

http://dspace.library.uu.nl/handle/1874/615.

Kockaert, H.J. & Steurs, F. (eds). (2015). Handbook of Terminology. Vol. 1. Amsterdam &

Philadelphia, John Benjamins Publishing. http://www.jbe- platform.com/content/books/9789027269560.

Le Pesant, D. & Mathieu-Colas, M. (1998). Introduction aux classes d’objets. Langages, 32 (131), 6-33. doi:10.3406/lgge.1998.2164.

Lommel, A., Melby, A., Glenn, N., Hayes, J. & Snow, T. (2014). TBX-Min: A Simplified TBX-Based Approach to Representing Bilingual Glossaries. In Terminology and Knowledge Engineering 2014. Berlin, Gesellschaft für Terminologie und Wissenstransfer & Deutsches Institut für Normung, 147-156.

https://tke2014.sciencesconf.org/conference/tke2014/eda_en.pdf.

Martin, W. (2004). Simullda, the Hub-And-Spoke Model and Frames or How to Make the Best of Three Worlds? International Journal of Lexicography, 17 (2), 175-187.

doi:10.1093/ijl/17.2.175.

Ménard, L., Arsenault, M. & Joly, J.-Fr. (1994). Dictionnaire de la comptabilité et de la gestion financière : anglais-français avec index français-anglais. Toronto, Institut canadien des comptables agréés, Paris, Ordre des experts comptables et Bruxelles, Institut des reviseurs d’entreprises.

http://catalogue.bnf.fr/ark:/12148/cb37668243c.

Merten, P., Mertens, J. & Van Campenhoudt, M. (1993). Microglossaire, réseau notionnel et gestion informatique. Une expérience de recherche en Communauté française de Belgique. In Gouadec, D. (éd.). Terminologie & terminotique : outils, modèles &  

méthodes: Actes de la première université d’automne en Terminologie, 277-293.

Maison du dictionnaire.

https://dipot.ulb.ac.be/dspace/bitstream/2013/237389/3/rennes93.pdf.

OHI (1994-1998). Dictionnaire hydrographique, Hydrographic Dictionary, Diccionario Hidrográfico. 5^e éd. 3 vol. Monaco, Organisation hydrographique internationale.

Publication spéciale 32.

Paasch, H. (1894). De la quille à la pomme de mât. Dictionnaire de marine en anglais, français et allemand illustré de nombreux dessins explicatifs. 2^e éd. Anvers, H.

Paasch, Hamburg, Eckardt & Messtorff, London, Fisher.

http://catalogue.bnf.fr/ark:/12148/cb437830563.

Quemada, B. (1967). Les Dictionnaires du français moderne, 1539-1863, étude sur leur histoire, leurs types et leurs méthodes. Paris, Bruxelles et Montréal, Didier.

http://catalogue.bnf.fr/ark:/12148/cb35937768g.

Roche, Chr. (2013). Représentations formelles en terminologie. In Verbal and Nonverbal Representation in Terminology. Proceedings of the TOTh Workshop 2013.

Copenhagen, Centre for Textile Research - University of Copenhagen, 23-35.

https://hal.archives-ouvertes.fr/hal-01354676.

Romary, L. (2014). TBX goes TEI – Implementing a TBX basic extension for the Text Encoding Initiative guidelines. In Terminology and Knowledge Engineering 2014.

Berlin, Gesellschaft für Terminologie und Wissenstransfer & Deutsches Institut für Normung, 116-126. https://hal.inria.fr/hal-00950862.

Romary, L. (2015). TEI and LMF Crosswalks. JLCL - Journal for Language Technology and Computational Linguistics, 30 (1), 47-70.

http://www.jlcl.org/2015_Heft1/3Romary.pdf.

Romary, L. , Salmon-Alt, S. & Francopoulo, G. (2004). Standards going concrete: from LMF to Morphalou. In Proceedings of the Workshop on Enhancing and Using Electronic Dictionaries. Association for Computational Linguistics, 22-28.

http://dl.acm.org/citation.cfm?id=1610042.1610047.

Romary, L. & Van Campenhoudt, M. (2001). Normalisation des échanges de données en terminologie : le cas des relations dites “conceptuelles”. In   Actes des 4^es

Rencontres terminologie et intelligence artificielle. Nancy, INIST-CNRS, 77-86.

(22)

https://dipot.ulb.ac.be/dspace/bitstream/2013/237402/3/tia4.pdf.

Svensén, B. (2009). A Handbook of Lexicography: The Theory and Practice of Dictionary- Making. New York, Cambridge University Press.

Temmerman, R. (2000). Towards New Ways of Terminology Description: The

Sociocognitive Approach. Terminology and Lexicography Research and Practice.

Amsterdam, John Benjamins Publishing Company. http://www.jbe- platform.com/content/books/9789027298638.

Van Campenhoudt, M. (2000). De la lexicographie spécialisée à la terminographie : vers un  

“métadictionnaire”? In Thoiron, Ph. & Béjoint, H. (éd.). Le sens en

terminologie, Lyon, Presses universitaires de Lyon (Travaux du C.R.T.T.), 27-152. https://dipot.ulb.ac.be/dspace/bitstream/2013/237429/3/crtt.pdf.

Van Campenhoudt, M. (2001a). Pour une approche sémantique du terme et de ses équivalents. International journal of lexicography, 14 (3), 181-209.

Van Campenhoudt, M. (2001b). Expérimentation de l’éditeur de catégories de données Salt Suite. Rapport final. Projet européen Standards-based Access to multilingual Lexicons and Terminologies (Projet SALT N° IST-1999-10951). Bruxelles, Centre de recherche Termisti, Institut supérieur de traducteurs et interprètes.

Van Campenhoudt, M. (2002). Lexicographie vs terminographie : quelques implications théoriques du projet DHYDRO. Travaux du LILLA, 4, 91-103.

Van Campenhoudt, M. (2003). L’évolution des dictionnaires de traduction du domaine maritime au XIX^e siècle : aux sources de De la quille à la pomme de mât.  

Chronique d’histoire maritime, 52, 83-97.

Van Campenhoudt, M. (2004). Réseau sémantique et approche componentielle des bases de données multilingues. International Journal of Lexicography, 17 (2), 155-160.

Van Campenhoudt, M. (2016). Terminologie et langues spécialisées dans les pays de langue romane. In Albrecht, J. & Métrich, R. (éd.). Manuel de traductologie, Berlin, De Gruyter (Manuals of Romance Linguistics), 589-616.

https://dipot.ulb.ac.be/dspace/bitstream/2013/235032/3/traductologie.pdf.

Van de Velde, W. (2014). La base de données terminologique Babeliris : une modélisation   sociale dans le respect des normes ISO. 7^e Séminaire de terminologie de Bruxelles : Malentendus terminologiques et soins de santé. 25 avril 2014. Vrije Universiteit Brussel. http://hdl.handle.net/2013/ULB-

DIPOT:oai:dipot.ulb.ac.be:2013/219362.

Villeneuve, J-Fr. de. (2001). Le lexique français-anglais, anglais-français de la bourse et des marchés financiers, Paris, SOFICOM.

http://catalogue.bnf.fr/ark:/12148/cb37646127z.

Vossen, P. (2004). Eurowordnet: a Multilingual Database of Autonomous and Language- Specific Wordnets Connected via an Inter-Lingual-Index. International Journal of Lexicography, 17 (2), 161-173. doi:10.1093/ijl/17.2.161.

Wright, S.E., Windhouwer, M., Schuurman, I. & Broeder, D. (2014). Segueing from a Data Category Registry to a Data Concept Registry. In Terminology and Knowledge Engineering 2014. Berlin, Gesellschaft für Terminologie und Wissenstransfer &

Deutsches Institut für Normung, 177-187.

https://tke2014.sciencesconf.org/conference/tke2014/eda_en.pdf.

Wright, S.E., Windhouwer, M., Schuurman, I. & Kemps-Snijders, M. (2013). Community Efforts Around the ISOcat Data Category Registry. In Gurevych, I. & Kim, J.

(eds). The People’s Web Meets NLP, 349-73. Berlin - Heidelberg, Springer.

http://link.springer.com/10.1007/978-3-642-35085-6_13.

Wüster, E. (1968). The Machine Tool: An Interlingual Dictionary of Basic Concepts;

Comprising an Alphabetical Dictionary and a Classified Vocabulary with Definitions and Illustrations. London, Technical Press.

Wüster, E. (1979). Einführung in die allgemeine Terminologielehre und terminologische Lexikographie. 2 vol. New York, Springer.

(23)

RÉSUMÉ

Pour permettre une exploitation maximale de leur contenu, les véritables dictionnaires électroniques doivent utiliser de manière sous-jacente une structure et une catégorisation de leurs données. Les dictionnaires de la langue spécialisée, a fortiori s’ils sont multilingues, ont tout à gagner d’une conception qui structure des données finement identifiées selon un modèle monosémique, « en étoile ». Une représentation conforme à la norme ISO 16 642 (2003) Terminological Markup Framework est tout à fait opportune pour mettre en œuvre un tel modèle. Toutefois, l’usage d’un langage de balisage XML conforme à cette norme de l’Organisation internationale de normalisation ne suffit en aucun cas à garantir la qualité et l’interopérabilité des données.

Mots-clés : lexicographie computationnelle, terminologie, standardisation, langues de spécialité

ABSTRACT

In order for their content to be exploited to the fullest, true electronic dictionaries must store data using underlying structures and categories. Specialised terminology dictionaries, especially multilingual ones, can strongly benefit from a design where the data is organised into highly granular categories and structured following a monosemic “spoke-hub” model.

A representation consistent with the ISO 16 642 standard (Terminological Markup Framework, 2003) would be a very appropriate way to implement this model. However, using XML markup that meets this standard set by the International Organization for Standardization is not a guarantee of the data’s quality or interoperability.

Keywords: computational lexicography, terminology, standardization, languages for special purposes