Lexiques - Ressources linguistiques : état des lieux

1.1. Ressources linguistiques : état des lieux

1.1.1. Lexiques

Il s’agit des lexiques opérationnels monolingues ou multilingues conçus pour servir de données

dans des outils de TAL. Par exemple, les lexiques monolingues sont des ressources indispensables

pour les analyses linguistiques (morphologique, syntaxique, sémantique) des documents. Dans un

cadre multilingue, les lexiques multilingues sont essentiels pour les systèmes de traduction

automatique.

Un lexique se compose d’une liste d’entrées lexicales auxquelles peuvent être associées des

informations linguistiques comme la morphologie, la syntaxe, ou la sémantique de l’entité lexicale

décrite, sa fréquence d’usage, des exemples d’emploi, etc. On distingue deux types d’informations

lexicales : d’une part, les informations intralexicales (constituant la micro-structure du lexique)

rassemblent les descriptions de type morphologique, syntaxique, sémantique et pragmatique de chaque

entrée lexicale ; d’autre part, les informations interlexicales (constituant la macro-structure du lexique)

représentent les relations entre entrées lexicales, qu’elles soient d’ordre morphologique (lien entre une

forme fléchie et son lemme), syntagmatique (collocations) ou paradigmatique (synonymes,

antonymes, hypéronymes, etc.). Les lexiques opérationnels peuvent être construits manuellement par

des experts, ou de manière (semi-)automatisée, à partir de dictionnaires traditionnels ou de corpus

annotés.

Nous présentons dans cette section quelques uns des lexiques les plus connus dans le domaine du

TAL, en abordant dans un premier temps les lexiques monolingues pour nous focaliser ensuite sur les

expériences visant la construction de lexiques multilingues.

1.1.1.1. Lexiques monolingues

L’étude des langues indo-européennes bénéficiant d’une plus longue expérience, c’est

naturellement pour celles-ci que les lexiques les plus aboutis ont été constitués, couvrant la totalité du

champ de la description lexicale, de la morphologie à la sémantique. Nous décrivons donc, à titre de

référence, quelques lexiques développés pour les langues indo-européennes (en nous limitant pour

l’exemple au français et à l’anglais), avant de présenter les travaux en cours pour les langues

asiatiques isolantes.

Langues indo-européennes

De nombreux modèles de lexiques ont été définis avec plus ou moins de généralité (cf. Francopoulo

[FRA 03], Romary et al. [ROM 04]). Nous introduisons ici, par ordre de « complexité » croissante (de

la morphologie à la sémantique), ceux d’entre eux qui peuvent prétendre au statut de « standard », en

ce sens qu’ils sont devenus des références largement reconnues dans le domaine du TAL.

Le lexique français BDL

et les bases lexicales multilingues Européennes C

ELEX

, M

ULTEXT

et

« M

ULTEXT

goes East » traitent principalement de morphologie. BDL

(cf. De Calmès et Pérennou

[CAL 98]), conçu pour le traitement morphologique et également phonologique, contient 440 000

formes fléchies générées à partir d’environ 50 000 formes canoniques (entrées lexicales) avec les

informations sur la prononciation et la morpho-syntaxe (cf. Figure 1-1). BDL

dispose par ailleurs de

statistiques lexicales représentées par un ensemble d'indices de fréquences d'origine diverses. C

ELEX

(cf. Burnage [BUR 90]) est une large base contenant des informations lexicales de plusieurs types

(lemme, formes fléchies, abréviations et corpus) pour l’anglais, l’allemand et le néerlandais. C

ELEX

dispose également de l’information concernant la prononciation des formes. Les projets M

ULTEXT

(cf.

Ide et Véronis [IDE 94]) et « M

ULTEXT

goes East » (cf. Erjavec et al. [ERJ 96]) visent le

développement de systèmes d’analyse morphologique comparables grâce à un modèle de

représentation de descriptions grammaticales ayant un noyau commun pour les langues européennes.

Ce modèle de descriptions grammaticales (cf. Figure 1-2) permet de définir et comparer les jeux

d’étiquettes morphologiques. Le lexique M

ULTEXT

du français a servi de base pour l’évaluation des

systèmes d’analyse morphosyntaxique du français dans le cadre du projet G

RACE

(cf. 3.2.5.2).

Graphie Prononciation Morpho syntaxe

ORTHO PHONO FPH CS VS M LIEN

prendre pRa~dR @ V inf =

prennent pREn @t" V 3P pi prendre

petites p@tit @z" J FP Petit

Un 9~ n" D MS di =

Avion avjo~ N MS =

PHONO : représentation phonologique, FPH : fonctionnement phonologique de la finale, CS : catégorie syntaxique, VS : variation syntaxique, M : mode,

LIEN : entrée lexicale (lemme) dont la forme est dérivée.

Figure 1-1 Structure lexicale des entrées de BDLEX

============ =========== =========== ==== Attribute Value Example Code ============ =========== =========== ==== Type main partir m auxiliary avoir a --- --- --- ---- Mood/Vform indicative viens i subjunctive vienne s imperative viens m conditional viendrais c infinitive venir n participle venu p --- --- --- ---- Tense present viens p imperfect venais i future viendrai f past vins s --- --- --- ---- Person first suis 1 second es 2 third est 3 --- --- --- ---- Number singular viens s plural venons p --- --- --- ---- Gender masculine venu m feminine venue f --- --- --- ---- Clitics /// /// - ============ =========== =========== ====

aimer CB P0 PSelf (P1) SELF catgram VERB trait_l [aux:avoir] P0 ^NP_{PRONOUN[lex:quelqu'un]} PSelf V[aux:avoir] P1 NP

S[introd:le fait que] S[mood:infinitive] S[mood:infinitive][prep:à] S[mood:infinitive][prep:de] S[sbcat:complementizer][mood:subjunctive] PRONOUN[lex:le] PRONOUN[lex:quelqu'un] PRONOUN[lex:quelque chose]

Figure 1-3 Exemple de la description syntaxique d’une unité lexicale dans GENELEX

Les modèles Européens complexes

⁶

, dont l’original est G

ENELEX

(GENEric LEXicon, projet

E

UREKA

, Antoni-Lay et al. [ANT 93]) fournissent pour chaque lemme (unité lexicale) une

information très riche : le comportement syntaxique et la sous-catégorisation (cf. Figure 1-3), ainsi que

la sémantique. Ils sont puissants en terme de généricité et de possibilité d’usage multiple. Dans le

modèle G

ENELEX

, chaque entrée est représentée sous forme d’un graphe de relation entre entités

lexicales (morphologique, syntaxique, sémantique, cf. Figure 1-4 – Sérasset [SER 93]). G

ENELEX

n’est

directement lié à aucune application de TAL, mais une application de TAL peut extraire pour ses

besoins particuliers une partie de l’information contenue dans cette base lexicale très large. Le

développement de modèles dérivés de G

ENELEX

pour les langues européennes fait l’objet de

nombreux projets, notamment dans le cadre du groupe E

AGLES

(Expert Advisory Group for Language

Engineering Standards).

Plus spécifiquement orienté vers la semantique, le thésaurus WordNet (anglo-américain, construit

depuis 1985 à l’Université de Princeton – Miller et al. [MIL 90b]) contient environ 200 000 paires de

mot-sens. Les mots sont organisés en classes de synonymes, ou synsets, dont chacun représente un

concept lexical (cf. Figure 1-5). Ces synsets sont eux-mêmes organisés en une arborescence

ontologique structurée par la relation d’hyponymie (cf. Figure 1-6), ainsi que par des liens

transversaux marquant d’autres types de relations syntaxiques (antonymie, métonymie…). WordNet

joue un rôle important dans de nombreux travaux en étiquetage sémantique ou qui visent l’accès aux

textes par le sens.

Une autre base lexicale (anglaise) orientée sémantique est en cours de développement dans le cadre

du projet FrameNet à Berkeley – Baker et al. [BAK 03]. L’objectif de FrameNet est de documenter les

liens entre les unités lexicales (paires mot-sens) et leur cadre sémantique, en se basant sur des usages

observés en corpus (principalement le British National Corpus – BNC). Chaque unité lexicale est

accompagnée de ses définitions et des exemples annotés sensés illustrer toutes ses possibilités

combinatoires (cf. Figure 1-7), et liée à un cadre sémantique, qui peut-être partagé par d’autres unités

lexicales. FrameNet contient actuellement plus de 8 900 unités lexicales, dont plus de 6 100 sont

complètement annotées dans 625 cadres sémantiques, et exemplifiés dans plus de 135 000 phrases

annotées. FrameNet contient également un réseau de relations entre les cadres (cf. Figure 1-8, Fillmore

et al. [FIL 04]). La base est disponible sous licence par le biais de son site Internet. D’autres projets

dérivés pour l’allemand, l’espagnol et le japonais sont également en cours.

Langues asiatiques isolantes

Le premier lexique utilisé pour le traitement du chinois est le lexique syntaxique du groupe CKIP

(Chinese Knowedge Information Processing [CKIP 93]), qui rassemble environ 80 000 entrées de

mots chinois. À chaque entrée lexicale sont associées sa catégorie syntaxique et ses rôles thématiques

dans la théorie ICG (Information-based Case Grammar, cf. 1.1.2.2).

Au niveau sémantique, plusieurs réseaux de concepts chinois ont été développés. On peut citer, en

particulier, la base SKCC (Semantic Knowledge base of Contemporary Chinese) de l’Institut

d’Informatique Linguistique de l’université de Pékin. Cette base (cf. Wang et Yu [WAN 03])

contenant 66 539 mots chinois est construite suivant le modèle du thésaurus WordNet.

Dans le cadre du ChineseLDC (Chinese Linguistic Data Consortium – Zhao et al. [ZHA 04],

http://www.chineseldc.org

), deux lexiques ont été développés :

- Un premier lexique construit contient environ 100 000 mots, accompagnés d’informations

précisant leur transcription « pinyin » (pseudo-phonétique en alphabet occidental) et leur

fréquence. Les fréquences des mots sont évaluées en se basant sur deux statistiques : les

fréquences calculées à partir d’un corpus segmenté de 5 millions de caractères chinois, et les

fréquences de chaînes d’un corpus brut d’un milliard de caractères.

6 Les consortiums les ayant développé ont, pour satisfaire les exigences de tous leurs partenaires, réalisé l’union de nombreux mécanismes de représentation, ce qui a rendu complexe la structure de ces modèles.

- Une deuxième base lexicale est la base de connaissances grammaticales chinoises concernant

les mots courants. Cette base se compose d’environ 30 000 mots chinois fréquemment utilisés,

couvrant tous les mots de catégories grammaticales ambiguës, et tous les mots outils. À

chaque mot d’entrée sont associées ses étiquettes morphosyntaxiques possibles, leurs

fréquences relatives, une suite d’attributs grammaticaux décrivant l’usage du mot et un

ensemble de phrases d’exemple. Les mots de la base sont extraits du corpus journalistique

chinois 1998 People Daily.

Pour le thaï, le lexique monolingue NAiST

Lexibase (Kasetsart University) contient 15 000 mots

accompagnés par des informations syntaxiques et sémantiques. Le NAiST Lexibase est fondé sur un

modèle relationnel (cf.Figure 1-9, Kawtrakul et al. [KAW 95]).

Figure 1-5 Exemple de consultation de WordNet

Sense 2

dictionary, lexicon => wordbook

=> reference book, reference, reference work, book of facts => book<<<<

=> publication

=> work, piece of work => product, production => creation

=> artifact, artefact

=> object, physical object => entity

=> whole, whole thing, unit => object, physical object => entity

Figure 1-6 Exemple de hiérarchie hyperonymique dans WordNet

Figure 1-7 FrameNet – Exemples annotés du cadre sémantique du verbe « inform » [FIL 04]

Figure 1-9 Matrice de lexique pour le NAiST Lexibase (thaï)

1.1.1.2. Lexiques multilingues

On peut distinguer parmi les lexiques multilingues ceux qui s’intéressent en particulier à la mise en

correspondance de deux langues, souvent dans un objectif précis (lexiques bilingues), et ceux dont

l’objectif plus ambitieux est de développer un mécanisme générique pouvant permettre la mise en

parallèle d’informations lexicales pour un nombre a priori arbitraire de langues.

Lexiques bilingues

Le modèle bilingue EDR (Electronic Dictionary Research) est spécifiquement destiné au couple

japonais-anglais. Ce modèle consiste en différents dictionnaires : de mots, de concepts, de

co-occurrences, et bilingue. L’architecture du dictionnaire bilingue EDR (détaillée à la Figure 1-10) se

base principalement sur un dictionnaire de concepts où des concepts indépendants des langues sont

décrits et reliés aux entrées lexicales monolingues dans chaque langue. Les entrées lexicales

monolingues sont enregistrées dans deux dictionnaires de mots (pour l’anglais et pour le japonais) qui

fournissent leur information grammaticale (représentée comme une liste d’attributs) et un lien à un

concept du dictionnaire de concepts. Chaque entrée lexicale est une forme fléchie de mot, ce qui n’est

pas très efficace pour les langues fortement flexionnelles comme le français (qui compte en moyenne

environ 10 formes par lemme – Sérasset [SER 93]).

Concernant les ressources lexicales pour les langues asiatiques isolantes considérées (le chinois et

le thaï), on peut mentionner deux lexiques mis à disposition du public : le lexique de traduction

chinois-anglais distribué par le LDC et le lexique pour le couple de langues thaï et anglais. Le lexique

chinois-anglais a été rendu public pour la première fois en 1999 ; sa dernière version date de 2002 et

contient 54 170 entrées du chinois. Le format du lexique est simple :

<mot chinois> /<traduction anglaise 1>/…/<traduction anglaise n>/

Le lexique L

EXITRON

(voir Figure 1-11 et Figure 1-12), dont la première publication date de 1996,

se focalise pour sa part sur le couple thaï-anglais, mettant en correspondance 53 000 entrées lexicales

anglaises et 35 000 entrées thaïs, extraites d’un large corpus (cf. Charoenporn et al. [CHA 04]). Il

s’agit néanmoins plus d’un dictionnaire bilingue informatisé, destiné à une consultation humaine, que

Figure 1-10 Structure de données des entrées du dictionnaire Anglais-Japonais (EDR)

<English-Japanese Bilingual Dictionary>

::= <English-Japanese Bilingual Dictionary Record>BBB <English-Japanese Bilingual Dictionary Record>

::= <Record Number> \t<Headword Information> \t<Grammatical Information> \t<Semantic Information> \t<Correspondence Information> \t<Management Information>\n

::= <Character String> <Japanese Headconcept>

::= <Character String>

::= <Character String> <Japanese Concept Explication>

::= <Character String>

// <Correspondence Word Information> <Correspondence Word Information>

::=<Correspondence Word Category> '|'<Correspondence Word Notation>

'|' x

::=<Character String>

Figure 1-11 Exemple d’édition d’une entrée dans Lexitron

Projets multilingues

Une piste souvent empruntée pour le développement de lexiques multilingues consiste à étendre un

modèle monolingue existant afin de permettre l’encodage de liens entre langues. Ainsi, le principe de

description des entrées lexicales développé dans le projet G

ENELEX

a donné lieu à plusieurs extensions

visant à permettre la mise en parallèle de lexiques construits pour différentes langues. C’est en

particulier le cas du projet Européen S

IMPLE

(Semantic Information for Multilingual Plurifunctional

Lexica) qui permet le rapprochement de lexiques en différentes langues en définissant un vocabulaire

commun pour la description d’informations lexicales sémantiques. Un autre « produit dérivé » de

G

ENELEX

est le projet I

SLE

(International Standards for Language Engineering) / M

ILE

(Multilingual

I

SLE

Lexical Entry) du groupe E

AGLES

.

Dans le même ordre d’idées, de nombreux lexiques dérivés de WordNet (EuroWordNet pour les

langues d’Europe de l’Ouest, ItalWordNet pour l’italien, IndoWordNet pour l’Asie et BalkaNet pour

les langues de l’Europe de l’Est) visent le développement d’une ontologie de haut niveau qui puisse

être commune à toutes les langues qu’ils traitent. Ils définissent en outre un index interlingual des

synsets permettant la mise en correspondance directe de ceux-ci d’une langue à l’autre.

Le projet Papillon (cf. Boitet [BOI 01], Mangeot et al. [MAN 03]), en revanche, est conçu dès

l’origine avec le multilinguisme comme objectif. Il a pour but de créer une base lexicale multilingue

ouverte et coopérative comprenant entre autres l'anglais, le français, le japonais, le malais, le lao,

le thaï et le vietnamien. L’idée est de permettre aux utilisateurs un accès libre à la base sur

Internet, et la possibilité de participer à son enrichissement. La macrostructure du dictionnaire est

composée d’un volume monolingue pour chaque langue et d’un volume pivot contenant des liens

interlinguaux reliant les sens des mots composant les volumes monolingues (cf. Figure 1-13). Pour

chacune des langues étudiées, la microstructure des articles (cf. Figure 1-14) est fondée sur la

lexicographie combinatoire extraite de la théorie sens-texte de Mel’cuk (DEC Dictionnaire explicatif

et combinatoire, cf. Mel’cuk et al. [MEL 84, 88]).

Figure 1-13 Liens entre la traduction du mot « riz » dans quatre langues de la base Papillon [MAN 03]

Dans le document Outils et ressources linguistiques pour l'alignement de textes multilingues français-vietnamiens (Page 24-35)