• Aucun résultat trouvé

3.3. Construction de ressources lexicales

3.3.4. Codage de ressources lexicales

Toujours dans une perspective de normalisation, nous choisissons de suivre les recommandations

internationales pour coder nos ressources lexicales. Dans cette section, nous présentons d’abord les

schémas normalisés de balisage des ressources lexicales TEI (cf. 1.2.1.2) et LMF (ISO/TC 37/SC 4, cf.

section 1.2.2), puis le format de nos données lexicales.

29 La différence avec le nombre d’entrées du lexique est due au fait que celui-ci rassemble comme une même entrée les homographes distingués par le dictionnaire papier.

3.3.4.1. Modèle pour les bases lexicales

Ide et al. [VER 92, IDE 93] font l’analyse du contenu des entrées lexicales dans les dictionnaires

papiers. À partir de ces analyses, ils avancent que les modèles proposés précédemment pour

représenter les bases lexicales (modèles textuels, modèles relationnels) ne sont pas assez puissants. Ils

proposent donc un nouveau modèle basé sur les structures de traits

30

qui sont largement utilisées pour

la représentation des informations linguistiques dans les grammaires d’unification (cf. 4.2.1.2).

Précisément, le modèle mis au point fait usage de structures de traits typées. Par exemple, chaque

entrée du dictionnaire est décrite par une structure de traits de type ENTRY dont les traits admissibles

sont form (les informations concernant la forme de l’entrée lexicale), gram (les informations

grammaticales), usage (les informations d’usage), def (les définitions de cette entrée), etc. Le domaine

des valeurs du trait form est constitué de structures de type FORM, acceptant les traits orth (pour

l’orthographe), hyph (pour la césure – hyphenation en anglais), pron (pour la prononciation), etc. Ces

traits, à leur tour, acceptent les valeurs atomiques, de type STRING (chaîne de caractères) par

exemple.

Dans ce modèle, un type unique de structure de traits est utilisé pour les entrées lexicales, les

homographes et les sens. Cela reflète le fait que les données lexicales à ces différents niveaux

contiennent les mêmes informations.

Pour représenter des variants dans les entrées lexicales, le modèle fait l’usage de l’opérateur de

disjonction de valeurs de trait en ajoutant la spécification « liste » (notée (x

1

, …, x

n

)) ou « ensemble »

(notée {x

1

, …, x

n

}) des valeurs disjonctives (la notation « liste » permet de préserver l’ordre dans les

cas où il a un sens, par exemple la première valeur de forme orthographique dans une liste alternative

est la forme la plus courante). La notion de disjonction générale (Kay [KAY 85]) spécifiant les

sous-parties alternative d’une structure de traits est également étendue avec ces notions de « liste » et

« ensemble ». Par ailleurs, la forme des structures de traits est restreinte à la forme normale

hiérarchique (dans une structure de traits quelconque, un seul trait peut être une disjonction).

Ce modèle, doté de plusieurs mécanismes de gestion des informations disjonctives et enchâssées

(opérateurs factor et unfactor, mécanisme de surcharge), résout presque tous les problèmes inhérents

aux modèles classiques d’une part, et d’autre part permet d’accéder, de manipuler et de fusionner des

informations lexicales structurées différemment d’un dictionnaire à l’autre.

Cette représentation de dictionnaires papiers a été partiellement instanciée dans le cadre du projet

de normalisation TEI (cf. 1.2.1.3).

Ide et al. [IDE 00a] ont fait évoluer le modèle ci-dessus à un niveau plus abstrait. Ils introduisent

un modèle formel reflétant la hiérarchie d’information d’une entrée lexicale dans un dictionnaire

traditionnel ou opérationnel. Divers mécanismes sont définis pour la propagation et l’expression de

dépendances entre les traits attachés aux nœuds dans l’hiérarchie d’information. Les auteurs exposent

également le codage de ces informations en XML et la possibilité d’extraire et de manipuler ces

informations dans un format quelconque grâce au langage de transformation XSL.

Dans la section suivante, nous présentons le codage défini par la TEI pour représenter les

dictionnaires papiers.

3.3.4.2. TEI (Text Encoding Initiative) et codage de dictionnaires papiers

Un groupe de travail de la TEI est spécialisé dans le codage des dictionnaires papiers (cf. Ide et

Véronis [IDE 95b], Sperberg-McQueen et Burnard [SPE 94 – chapitre 12]), c’est-à-dire les

dictionnaires orientés vers un usage humain, qui peuvent être structurellement très complexes selon le

but de leur utilisation. L’objectif est de définir une DTD permettant de valider le codage du contenu

des dictionnaires, en SGML pour la première version TEI P3, XML pour la version TEI P4. Deux

principes sont mis en avant :

- En premier lieu, puisque la structure des entrées de dictionnaire change considérablement dans

un même dictionnaire, et plus encore entre différents dictionnaires, la manière la plus simple

pour qu’un schéma de codage soit adapté à la gamme entière des structures rencontrées en

pratique est de permettre virtuellement une position libre pour tout élément dans chaque entrée

de dictionnaire. Cependant, il existe clairement des principes structuraux assez consistants qui

régissent la grande majorité des dictionnaires conventionnels et même la plupart des entrées

dans les dictionnaires « exotiques ». Ces principes sont capturés par les directives de codage

de la TEI avec la définition de l’élément

<entry>

pour les entrées de dictionnaire. Un

deuxième élément

<entryFree>

est défini pour la même structure, mais cette définition permet

un ordre beaucoup plus libre de ses composants.

- En second lieu, puisque une grande partie de l'information contenue dans les dictionnaires

papiers est implicite ou fortement contractée, la question se pose de savoir si l’encodage doit

capturer la forme typographique précise du texte source ou la structure fondamentale de

l'information que le texte présente. Les utilisateurs intéressés principalement dans le format

imprimé du dictionnaire exigeront d'un codage d'être fidèle à une version imprimée originale,

alors que d'autres porteront leur attention sur les possibilités d’extraction du dictionnaire des

informations lexicales sous une forme appropriée à un traitement ultérieur, ce qui peut exiger

l'expansion ou la remise en ordre des informations contenues dans la forme imprimée. De

plus, quelques utilisateurs souhaitent coder les deux types de données, et maintenir les liens

entre les éléments relatifs des deux codages. La TEI développe donc des méthodes permettant

d'enregistrer ces deux types de données, ainsi que la corrélation entre eux.

L’ensemble d’éléments définis pour l’encodage des dictionnaires de la TEI est très riche et

dynamique, et prend en compte les deux principes ci-dessus. Les détails de ces éléments sont

documentés sur le site d’Internet de la TEI

31

. Les utilisateurs peuvent ainsi personnaliser la DTD pour

obtenir une DTD plus simple et adéquate à la représentation des informations enregistrées dans leur

dictionnaire.

Nous appliquons ce schéma pour le DV disponible au Vietlex (voir la section 3.3.4.4). Quant au

codage du lexique morphosyntaxique construit, nous prenons en compte les activités de normalisation

de représentation des lexiques opérationnels dans le cadre de l’ISO/TC 37/SC 4 (cf. 1.2.2). Il s’agit du

modèle LMF introduit ci-dessous.

3.3.4.3. LMF (Lexical Mark-up Framework)

LMF [ISO 05b] est un méta-modèle abstrait qui fournit une plate-forme pour la construction des

lexiques opérationnels pour le TAL. L’objectif est de définir une norme de représentation générique

des données lexicales dans les contextes de gestion et d’échange de lexiques.

L’approche du LMF pour la description de la micro-structure des lexiques est d’attacher

systématiquement le comportement syntaxique à la description sémantique du mot (cf. Romary et al.

[ROM 04]). Cela est en particulier cohérent avec les principes linguistiques exposés par Saussure, qui

considère qu’un mot est décrit par une paire signifiant/signifié, correspondant à une description

morphologique/sémantique.

Le modèle LMF se compose d’une partie noyau et des extensions lexicales correspondant aux

informations relevant de la morphologie, de la syntaxe, de la sémantique et de l’interlinguistique (cf.

Figure 3-2). Conformément aux principes généraux de l’ISO/TC 37/SC 4 (cf. 1.2.2), ces informations

sont décrites par le biais de descripteurs élémentaires, c’est-à-dire des catégories de données, qui sont

pour leur part définies dans le DCR central du TC 37. Le processus de composition d’un lexique

conforme au LMF est montré à la Figure 3-3.

Lexical DB

1..1

Global Info

1..1

Lexical Entry

0..n 1..1 1..1

Form

1..1

Sense

0..n 1..1 0..n 1..1

Lexical

extensions Lexical

extensions Lexical

extensions

Figure 3-2 LMF – principe du modèle [ROM 04]

Figure 3-3 Processus d’utilisation de LMF ([ISO 05b])

Considérons par exemple une extension lexicale : la morphologie. Les Figure 3-4 et Figure 3-5

montrent un modèle de lexiques dont les informations associées à chaque entrée lexicale

comprennent :

- des informations noyau : forme (descriptions graphique et phonétique), sens (qui peut être à la

fois répété ou divisé en plusieurs sens) ;

- des informations étendues de morphologie : paradigme, inflexions.

La Figure 3-6 exemplifie une instanciation concrète (dans le cadre du projet Morphalou [ROM 04])

de ce modèle : l’entrée du mot « chat » en français, codée sous format GMT

32

(Generic Mapping Tool)

avec un schéma compatible au modèle LMF.

Figure 3-4 LMF – Modèle noyau [ISO 05b]

Figure 3-6 Codage (GMT) de l’entrée « chat » avec un schéma compatible au LMF [ROM 04]

Nous passons maintenant à l’application des schémas normalisés de représentation des bases

lexicales (la TEI pour les dictionnaires papiers, LMF pour les lexiques opérationnels) sur nos

ressources lexicales. La section 3.3.4.4 porte sur le codage du DV du Vietlex, et la section 3.3.4.5

discute de la représentation du lexique morphosyntaxique créé.

3.3.4.4. Codage du dictionnaire papier vietnamien du Vietlex

En reprenant les éléments proposés dans le schéma de codage des dictionnaires de la TEI, nous

définissons une DTD personnalisée pour encoder les informations enregistrées dans le dictionnaire

vietnamien du centre Vietlex. Cette DTD se trouve à l’annexe B. Les informations de chaque entrée

sont extraites automatiquement à partir de la forme typographique du dictionnaire. Comme nous nous

intéressons actuellement surtout à l’orthographe des mots et à la catégorie grammaticale correspondant

à chaque sens d’un mot, notre schéma de marquage reste très simple. Le codage des éléments comme

par exemple des exemples d’usage mérite d’être beaucoup plus détaillé ultérieurement.

<struct type=’lexical entry’>

<feat type=’lemma’>chat</feat>

<feat type=’grammatical category’>noun</feat>

<feat type=’gender’>masculine</feat>

<struct type=’morphology’> <struct type=’paradigm’>

<feat type=’paradigm identifier’>fr-s-plural</feat>

</struct> <struct type=’inflection’> <feat type=’orthography’>chat</feat> <feat type=’number’>singular</feat> </struct> <struct type=’inflection’> <feat type=’orthography’>chats</feat> <feat type=’number’>plural</feat> </struct> … </struct> </struct>

Voici un exemple d’illustration, recourant à l’exemple à la section 3.3.3.

Une fois le DV disponible sous format XML, nous avons développé à l’attention des linguistes du

Vietlex une interface permettant d’éditer les descriptions lexicales (comme présentées à 3.3.2) de

chacune de ses entrées, en récupérant les parties du discours de base enregistrés dans le DV. Les autres

informations de chaque entrée sont visualisées pour aider les linguistes à choisir la valeur de chaque

attribut des descripteurs lexicaux. Le lexique morphosyntaxique ainsi construit est soumis au codage

présenté dans la sous-section suivante.

<superEntry n="…"> <entry n="1"> <form><orth>yêu</orth></form> <sense n="…"> <!-- diable --> <gramGrp><pos>d.</pos></gramGrp> <usg type="style">(id.).</usg>

<def>Vật tưởng tượng trong cổ tích, thần thoại, hình thù kì dị, chuyên làm hại người.</def>

</sense> </entry>

<entry n="2">

<form><orth>yêu</orth></form>

<sense n="1"> <!-- aimer (amour général)--> <gramGrp><pos>đg.</pos></gramGrp>

<def>Có tình cảm dễ chịu khi tiếp xúc với một đối tượng nào đó, muốn gần gũi và thường sẵn sàng vì đối tượng đó mà hết lòng.</def>

<eg>Mẹ yêu con. Yêu nghề. Yêu đời. Trông thật đáng yêu. Yêu nên tốt, ghét nên xấu (tng.).</eg>

</sense>

<sense n="2"> <!-- aimer (amour romantique) --> <gramGrp><pos>đg.</pos></gramGrp>

<def>Có tình cảm thắm thiết dành riêng cho một người khác giới nào đó, muốn chung sống và cùng nhau gắn bó cuộc đời.</def>

<eg>Yêu nhau. Người yêu.</eg> </sense>

<sense n="3"> <!-- aimer – modifieur d’un autre verbe pour exprimer une action tendre, “pas sérieuse” -->

<gramGrp><pos>đg.</pos></gramGrp>

<def>Từ dùng sau một động từ trong những tổ hợp tả một hành vi về hình thức là chê trách, đánh mắng một cách nhẹ nhàng, nhưng thật ra là biểu thị tình cảm thương yêu.</def>

<eg>Mẹ mắng yêu con. Nguýt yêu. Tát yêu.</eg> </sense>

</entry> </superEntry>

3.3.4.5. Codage du lexique morphosyntaxique vietnamien

Le dictionnaire XML obtenu ci-dessus est une base pour la création de notre lexique

morphosyntaxique. Nous avons développé une interface simple pour que les lexicographes puissent

visualiser les informations concernant chaque entrée lexicale et saisir les valeurs des descripteurs

lexicaux définis à la section 3.3.2.

Outre le format compact texte (cf. MULTEXT à la section 3.3.1), notre système (cf. annexe D) gère

le lexique sous un format XML, qui explicite les descriptions lexicales, pour que les ressources

lexicales soient d’une part faciles à manipuler et modifier, et d’autre part accessibles à tous.

Revenons à l’exemple de la section précédente : pour un morphème « yêu » il existe deux

descripteurs correspondant à deux entrées dans le dictionnaire papier (tous les trois sens de la

deuxième entrée ont le même descripteur). Son codage XML est reproduit à la Figure 3-7.

Figure 3-7 Codage explicite en XML d’une entrée du lexique morphosyntaxique vietnamien

Nous discutons maintenant de la représentation de notre lexique par un modèle conforme au LMF

(cf. 3.3.4.3), qui vise à l’interopérabilité des lexiques pour le TAL.

Les entrées lexicales du modèle LMF sont généralement organisées autour d’un lemme et de sa

partie du discours. Afin de nous conformer au LMF, nous devons convertir l’entrée « yêu » ci-dessus,

qui correspond à une « super-entrée » du dictionnaire papier, en deux entrées lexicales.

Du fait de la nature isolante de la langue vietnamienne, il n’est pas pertinent pour nous d’adopter

l’extension de morphologie. Les autres informations que nous avons enregistrées dans les descripteurs

lexicaux portent non seulement sur les propriétés syntaxiques mais aussi des propriétés sémantiques.

Ainsi les informations sémantiques doivent être regroupées dans le composant « Sense ». Quant aux

informations syntaxiques, elles doivent être regroupées dans le composant d’extension syntaxique qui

appartient également au composant « Sense ». Autrement dit, toutes les informations du groupe

« subcategory description » sont attachées au composant « Sense ».

En résumé, il est tout à fait possible de convertir notre lexique vers une représentation se

conformant au modèle LMF.

Nous revenons à la représentation des informations syntaxiques du lexique à la section 4.5.1, au

<struct type='lexical entry'> <feat type='form'>yêu</feat>

<struct type='grammatical description group'>

<struct type='grammatical description'> <!--diable--> <feat type='pos'>Noun</feat>

<struct type='subcategory description'> <feat type='type'>common</feat>

<feat type='countability'>partial</feat> <feat type='meaning'>abstract</feat> </struct>

</struct>

<struct type='grammatical description'> <!--aimer--> <feat type='pos'>Verb</feat>

<struct type='subcategory description'> <feat type='grade'>gradable</feat> <feat type='meaning'>feelings</feat> </struct> </struct> </struct> </struct>