3.3. Construction de ressources lexicales
3.3.4. Codage de ressources lexicales
Toujours dans une perspective de normalisation, nous choisissons de suivre les recommandations
internationales pour coder nos ressources lexicales. Dans cette section, nous présentons d’abord les
schémas normalisés de balisage des ressources lexicales TEI (cf. 1.2.1.2) et LMF (ISO/TC 37/SC 4, cf.
section 1.2.2), puis le format de nos données lexicales.
29 La différence avec le nombre d’entrées du lexique est due au fait que celui-ci rassemble comme une même entrée les homographes distingués par le dictionnaire papier.
3.3.4.1. Modèle pour les bases lexicales
Ide et al. [VER 92, IDE 93] font l’analyse du contenu des entrées lexicales dans les dictionnaires
papiers. À partir de ces analyses, ils avancent que les modèles proposés précédemment pour
représenter les bases lexicales (modèles textuels, modèles relationnels) ne sont pas assez puissants. Ils
proposent donc un nouveau modèle basé sur les structures de traits
30qui sont largement utilisées pour
la représentation des informations linguistiques dans les grammaires d’unification (cf. 4.2.1.2).
Précisément, le modèle mis au point fait usage de structures de traits typées. Par exemple, chaque
entrée du dictionnaire est décrite par une structure de traits de type ENTRY dont les traits admissibles
sont form (les informations concernant la forme de l’entrée lexicale), gram (les informations
grammaticales), usage (les informations d’usage), def (les définitions de cette entrée), etc. Le domaine
des valeurs du trait form est constitué de structures de type FORM, acceptant les traits orth (pour
l’orthographe), hyph (pour la césure – hyphenation en anglais), pron (pour la prononciation), etc. Ces
traits, à leur tour, acceptent les valeurs atomiques, de type STRING (chaîne de caractères) par
exemple.
Dans ce modèle, un type unique de structure de traits est utilisé pour les entrées lexicales, les
homographes et les sens. Cela reflète le fait que les données lexicales à ces différents niveaux
contiennent les mêmes informations.
Pour représenter des variants dans les entrées lexicales, le modèle fait l’usage de l’opérateur de
disjonction de valeurs de trait en ajoutant la spécification « liste » (notée (x
1, …, x
n)) ou « ensemble »
(notée {x
1, …, x
n}) des valeurs disjonctives (la notation « liste » permet de préserver l’ordre dans les
cas où il a un sens, par exemple la première valeur de forme orthographique dans une liste alternative
est la forme la plus courante). La notion de disjonction générale (Kay [KAY 85]) spécifiant les
sous-parties alternative d’une structure de traits est également étendue avec ces notions de « liste » et
« ensemble ». Par ailleurs, la forme des structures de traits est restreinte à la forme normale
hiérarchique (dans une structure de traits quelconque, un seul trait peut être une disjonction).
Ce modèle, doté de plusieurs mécanismes de gestion des informations disjonctives et enchâssées
(opérateurs factor et unfactor, mécanisme de surcharge), résout presque tous les problèmes inhérents
aux modèles classiques d’une part, et d’autre part permet d’accéder, de manipuler et de fusionner des
informations lexicales structurées différemment d’un dictionnaire à l’autre.
Cette représentation de dictionnaires papiers a été partiellement instanciée dans le cadre du projet
de normalisation TEI (cf. 1.2.1.3).
Ide et al. [IDE 00a] ont fait évoluer le modèle ci-dessus à un niveau plus abstrait. Ils introduisent
un modèle formel reflétant la hiérarchie d’information d’une entrée lexicale dans un dictionnaire
traditionnel ou opérationnel. Divers mécanismes sont définis pour la propagation et l’expression de
dépendances entre les traits attachés aux nœuds dans l’hiérarchie d’information. Les auteurs exposent
également le codage de ces informations en XML et la possibilité d’extraire et de manipuler ces
informations dans un format quelconque grâce au langage de transformation XSL.
Dans la section suivante, nous présentons le codage défini par la TEI pour représenter les
dictionnaires papiers.
3.3.4.2. TEI (Text Encoding Initiative) et codage de dictionnaires papiers
Un groupe de travail de la TEI est spécialisé dans le codage des dictionnaires papiers (cf. Ide et
Véronis [IDE 95b], Sperberg-McQueen et Burnard [SPE 94 – chapitre 12]), c’est-à-dire les
dictionnaires orientés vers un usage humain, qui peuvent être structurellement très complexes selon le
but de leur utilisation. L’objectif est de définir une DTD permettant de valider le codage du contenu
des dictionnaires, en SGML pour la première version TEI P3, XML pour la version TEI P4. Deux
principes sont mis en avant :
- En premier lieu, puisque la structure des entrées de dictionnaire change considérablement dans
un même dictionnaire, et plus encore entre différents dictionnaires, la manière la plus simple
pour qu’un schéma de codage soit adapté à la gamme entière des structures rencontrées en
pratique est de permettre virtuellement une position libre pour tout élément dans chaque entrée
de dictionnaire. Cependant, il existe clairement des principes structuraux assez consistants qui
régissent la grande majorité des dictionnaires conventionnels et même la plupart des entrées
dans les dictionnaires « exotiques ». Ces principes sont capturés par les directives de codage
de la TEI avec la définition de l’élément
<entry>pour les entrées de dictionnaire. Un
deuxième élément
<entryFree>est défini pour la même structure, mais cette définition permet
un ordre beaucoup plus libre de ses composants.
- En second lieu, puisque une grande partie de l'information contenue dans les dictionnaires
papiers est implicite ou fortement contractée, la question se pose de savoir si l’encodage doit
capturer la forme typographique précise du texte source ou la structure fondamentale de
l'information que le texte présente. Les utilisateurs intéressés principalement dans le format
imprimé du dictionnaire exigeront d'un codage d'être fidèle à une version imprimée originale,
alors que d'autres porteront leur attention sur les possibilités d’extraction du dictionnaire des
informations lexicales sous une forme appropriée à un traitement ultérieur, ce qui peut exiger
l'expansion ou la remise en ordre des informations contenues dans la forme imprimée. De
plus, quelques utilisateurs souhaitent coder les deux types de données, et maintenir les liens
entre les éléments relatifs des deux codages. La TEI développe donc des méthodes permettant
d'enregistrer ces deux types de données, ainsi que la corrélation entre eux.
L’ensemble d’éléments définis pour l’encodage des dictionnaires de la TEI est très riche et
dynamique, et prend en compte les deux principes ci-dessus. Les détails de ces éléments sont
documentés sur le site d’Internet de la TEI
31. Les utilisateurs peuvent ainsi personnaliser la DTD pour
obtenir une DTD plus simple et adéquate à la représentation des informations enregistrées dans leur
dictionnaire.
Nous appliquons ce schéma pour le DV disponible au Vietlex (voir la section 3.3.4.4). Quant au
codage du lexique morphosyntaxique construit, nous prenons en compte les activités de normalisation
de représentation des lexiques opérationnels dans le cadre de l’ISO/TC 37/SC 4 (cf. 1.2.2). Il s’agit du
modèle LMF introduit ci-dessous.
3.3.4.3. LMF (Lexical Mark-up Framework)
LMF [ISO 05b] est un méta-modèle abstrait qui fournit une plate-forme pour la construction des
lexiques opérationnels pour le TAL. L’objectif est de définir une norme de représentation générique
des données lexicales dans les contextes de gestion et d’échange de lexiques.
L’approche du LMF pour la description de la micro-structure des lexiques est d’attacher
systématiquement le comportement syntaxique à la description sémantique du mot (cf. Romary et al.
[ROM 04]). Cela est en particulier cohérent avec les principes linguistiques exposés par Saussure, qui
considère qu’un mot est décrit par une paire signifiant/signifié, correspondant à une description
morphologique/sémantique.
Le modèle LMF se compose d’une partie noyau et des extensions lexicales correspondant aux
informations relevant de la morphologie, de la syntaxe, de la sémantique et de l’interlinguistique (cf.
Figure 3-2). Conformément aux principes généraux de l’ISO/TC 37/SC 4 (cf. 1.2.2), ces informations
sont décrites par le biais de descripteurs élémentaires, c’est-à-dire des catégories de données, qui sont
pour leur part définies dans le DCR central du TC 37. Le processus de composition d’un lexique
conforme au LMF est montré à la Figure 3-3.
Lexical DB
1..1Global Info
1..1Lexical Entry
0..n 1..1 1..1Form
1..1Sense
0..n 1..1 0..n 1..1Lexical
extensions Lexical
extensions Lexical
extensions
Figure 3-2 LMF – principe du modèle [ROM 04]
Figure 3-3 Processus d’utilisation de LMF ([ISO 05b])
Considérons par exemple une extension lexicale : la morphologie. Les Figure 3-4 et Figure 3-5
montrent un modèle de lexiques dont les informations associées à chaque entrée lexicale
comprennent :
- des informations noyau : forme (descriptions graphique et phonétique), sens (qui peut être à la
fois répété ou divisé en plusieurs sens) ;
- des informations étendues de morphologie : paradigme, inflexions.
La Figure 3-6 exemplifie une instanciation concrète (dans le cadre du projet Morphalou [ROM 04])
de ce modèle : l’entrée du mot « chat » en français, codée sous format GMT
32(Generic Mapping Tool)
avec un schéma compatible au modèle LMF.
Figure 3-4 LMF – Modèle noyau [ISO 05b]
Figure 3-6 Codage (GMT) de l’entrée « chat » avec un schéma compatible au LMF [ROM 04]
Nous passons maintenant à l’application des schémas normalisés de représentation des bases
lexicales (la TEI pour les dictionnaires papiers, LMF pour les lexiques opérationnels) sur nos
ressources lexicales. La section 3.3.4.4 porte sur le codage du DV du Vietlex, et la section 3.3.4.5
discute de la représentation du lexique morphosyntaxique créé.
3.3.4.4. Codage du dictionnaire papier vietnamien du Vietlex
En reprenant les éléments proposés dans le schéma de codage des dictionnaires de la TEI, nous
définissons une DTD personnalisée pour encoder les informations enregistrées dans le dictionnaire
vietnamien du centre Vietlex. Cette DTD se trouve à l’annexe B. Les informations de chaque entrée
sont extraites automatiquement à partir de la forme typographique du dictionnaire. Comme nous nous
intéressons actuellement surtout à l’orthographe des mots et à la catégorie grammaticale correspondant
à chaque sens d’un mot, notre schéma de marquage reste très simple. Le codage des éléments comme
par exemple des exemples d’usage mérite d’être beaucoup plus détaillé ultérieurement.
<struct type=’lexical entry’>
<feat type=’lemma’>chat</feat>
<feat type=’grammatical category’>noun</feat>
<feat type=’gender’>masculine</feat> …
<struct type=’morphology’> <struct type=’paradigm’>
<feat type=’paradigm identifier’>fr-s-plural</feat>
</struct> <struct type=’inflection’> <feat type=’orthography’>chat</feat> <feat type=’number’>singular</feat> </struct> <struct type=’inflection’> <feat type=’orthography’>chats</feat> <feat type=’number’>plural</feat> </struct> … </struct> </struct>
Voici un exemple d’illustration, recourant à l’exemple à la section 3.3.3.
Une fois le DV disponible sous format XML, nous avons développé à l’attention des linguistes du
Vietlex une interface permettant d’éditer les descriptions lexicales (comme présentées à 3.3.2) de
chacune de ses entrées, en récupérant les parties du discours de base enregistrés dans le DV. Les autres
informations de chaque entrée sont visualisées pour aider les linguistes à choisir la valeur de chaque
attribut des descripteurs lexicaux. Le lexique morphosyntaxique ainsi construit est soumis au codage
présenté dans la sous-section suivante.
<superEntry n="…"> <entry n="1"> <form><orth>yêu</orth></form> <sense n="…"> <!-- diable --> <gramGrp><pos>d.</pos></gramGrp> <usg type="style">(id.).</usg>
<def>Vật tưởng tượng trong cổ tích, thần thoại, hình thù kì dị, chuyên làm hại người.</def>
</sense> </entry>
<entry n="2">
<form><orth>yêu</orth></form>
<sense n="1"> <!-- aimer (amour général)--> <gramGrp><pos>đg.</pos></gramGrp>
<def>Có tình cảm dễ chịu khi tiếp xúc với một đối tượng nào đó, muốn gần gũi và thường sẵn sàng vì đối tượng đó mà hết lòng.</def>
<eg>Mẹ yêu con. Yêu nghề. Yêu đời. Trông thật đáng yêu. Yêu nên tốt, ghét nên xấu (tng.).</eg>
</sense>
<sense n="2"> <!-- aimer (amour romantique) --> <gramGrp><pos>đg.</pos></gramGrp>
<def>Có tình cảm thắm thiết dành riêng cho một người khác giới nào đó, muốn chung sống và cùng nhau gắn bó cuộc đời.</def>
<eg>Yêu nhau. Người yêu.</eg> </sense>
<sense n="3"> <!-- aimer – modifieur d’un autre verbe pour exprimer une action tendre, “pas sérieuse” -->
<gramGrp><pos>đg.</pos></gramGrp>
<def>Từ dùng sau một động từ trong những tổ hợp tả một hành vi về hình thức là chê trách, đánh mắng một cách nhẹ nhàng, nhưng thật ra là biểu thị tình cảm thương yêu.</def>
<eg>Mẹ mắng yêu con. Nguýt yêu. Tát yêu.</eg> </sense>
</entry> </superEntry>
3.3.4.5. Codage du lexique morphosyntaxique vietnamien
Le dictionnaire XML obtenu ci-dessus est une base pour la création de notre lexique
morphosyntaxique. Nous avons développé une interface simple pour que les lexicographes puissent
visualiser les informations concernant chaque entrée lexicale et saisir les valeurs des descripteurs
lexicaux définis à la section 3.3.2.
Outre le format compact texte (cf. MULTEXT à la section 3.3.1), notre système (cf. annexe D) gère
le lexique sous un format XML, qui explicite les descriptions lexicales, pour que les ressources
lexicales soient d’une part faciles à manipuler et modifier, et d’autre part accessibles à tous.
Revenons à l’exemple de la section précédente : pour un morphème « yêu » il existe deux
descripteurs correspondant à deux entrées dans le dictionnaire papier (tous les trois sens de la
deuxième entrée ont le même descripteur). Son codage XML est reproduit à la Figure 3-7.
Figure 3-7 Codage explicite en XML d’une entrée du lexique morphosyntaxique vietnamien
Nous discutons maintenant de la représentation de notre lexique par un modèle conforme au LMF
(cf. 3.3.4.3), qui vise à l’interopérabilité des lexiques pour le TAL.
Les entrées lexicales du modèle LMF sont généralement organisées autour d’un lemme et de sa
partie du discours. Afin de nous conformer au LMF, nous devons convertir l’entrée « yêu » ci-dessus,
qui correspond à une « super-entrée » du dictionnaire papier, en deux entrées lexicales.
Du fait de la nature isolante de la langue vietnamienne, il n’est pas pertinent pour nous d’adopter
l’extension de morphologie. Les autres informations que nous avons enregistrées dans les descripteurs
lexicaux portent non seulement sur les propriétés syntaxiques mais aussi des propriétés sémantiques.
Ainsi les informations sémantiques doivent être regroupées dans le composant « Sense ». Quant aux
informations syntaxiques, elles doivent être regroupées dans le composant d’extension syntaxique qui
appartient également au composant « Sense ». Autrement dit, toutes les informations du groupe
« subcategory description » sont attachées au composant « Sense ».
En résumé, il est tout à fait possible de convertir notre lexique vers une représentation se
conformant au modèle LMF.
Nous revenons à la représentation des informations syntaxiques du lexique à la section 4.5.1, au
<struct type='lexical entry'> <feat type='form'>yêu</feat>
<struct type='grammatical description group'>
<struct type='grammatical description'> <!--diable--> <feat type='pos'>Noun</feat>
<struct type='subcategory description'> <feat type='type'>common</feat>
<feat type='countability'>partial</feat> <feat type='meaning'>abstract</feat> </struct>
</struct>
<struct type='grammatical description'> <!--aimer--> <feat type='pos'>Verb</feat>
<struct type='subcategory description'> <feat type='grade'>gradable</feat> <feat type='meaning'>feelings</feat> </struct> </struct> </struct> </struct>