1.1. Ressources linguistiques : état des lieux
1.1.1. Lexiques
Il s’agit des lexiques opérationnels monolingues ou multilingues conçus pour servir de données
dans des outils de TAL. Par exemple, les lexiques monolingues sont des ressources indispensables
pour les analyses linguistiques (morphologique, syntaxique, sémantique) des documents. Dans un
cadre multilingue, les lexiques multilingues sont essentiels pour les systèmes de traduction
automatique.
Un lexique se compose d’une liste d’entrées lexicales auxquelles peuvent être associées des
informations linguistiques comme la morphologie, la syntaxe, ou la sémantique de l’entité lexicale
décrite, sa fréquence d’usage, des exemples d’emploi, etc. On distingue deux types d’informations
lexicales : d’une part, les informations intralexicales (constituant la micro-structure du lexique)
rassemblent les descriptions de type morphologique, syntaxique, sémantique et pragmatique de chaque
entrée lexicale ; d’autre part, les informations interlexicales (constituant la macro-structure du lexique)
représentent les relations entre entrées lexicales, qu’elles soient d’ordre morphologique (lien entre une
forme fléchie et son lemme), syntagmatique (collocations) ou paradigmatique (synonymes,
antonymes, hypéronymes, etc.). Les lexiques opérationnels peuvent être construits manuellement par
des experts, ou de manière (semi-)automatisée, à partir de dictionnaires traditionnels ou de corpus
annotés.
Nous présentons dans cette section quelques uns des lexiques les plus connus dans le domaine du
TAL, en abordant dans un premier temps les lexiques monolingues pour nous focaliser ensuite sur les
expériences visant la construction de lexiques multilingues.
1.1.1.1. Lexiques monolingues
L’étude des langues indo-européennes bénéficiant d’une plus longue expérience, c’est
naturellement pour celles-ci que les lexiques les plus aboutis ont été constitués, couvrant la totalité du
champ de la description lexicale, de la morphologie à la sémantique. Nous décrivons donc, à titre de
référence, quelques lexiques développés pour les langues indo-européennes (en nous limitant pour
l’exemple au français et à l’anglais), avant de présenter les travaux en cours pour les langues
asiatiques isolantes.
Langues indo-européennes
De nombreux modèles de lexiques ont été définis avec plus ou moins de généralité (cf. Francopoulo
[FRA 03], Romary et al. [ROM 04]). Nous introduisons ici, par ordre de « complexité » croissante (de
la morphologie à la sémantique), ceux d’entre eux qui peuvent prétendre au statut de « standard », en
ce sens qu’ils sont devenus des références largement reconnues dans le domaine du TAL.
Le lexique français BDL
EXet les bases lexicales multilingues Européennes C
ELEX, M
ULTEXTet
« M
ULTEXTgoes East » traitent principalement de morphologie. BDL
EX(cf. De Calmès et Pérennou
[CAL 98]), conçu pour le traitement morphologique et également phonologique, contient 440 000
formes fléchies générées à partir d’environ 50 000 formes canoniques (entrées lexicales) avec les
informations sur la prononciation et la morpho-syntaxe (cf. Figure 1-1). BDL
EXdispose par ailleurs de
statistiques lexicales représentées par un ensemble d'indices de fréquences d'origine diverses. C
ELEX(cf. Burnage [BUR 90]) est une large base contenant des informations lexicales de plusieurs types
(lemme, formes fléchies, abréviations et corpus) pour l’anglais, l’allemand et le néerlandais. C
ELEXdispose également de l’information concernant la prononciation des formes. Les projets M
ULTEXT(cf.
Ide et Véronis [IDE 94]) et « M
ULTEXTgoes East » (cf. Erjavec et al. [ERJ 96]) visent le
développement de systèmes d’analyse morphologique comparables grâce à un modèle de
représentation de descriptions grammaticales ayant un noyau commun pour les langues européennes.
Ce modèle de descriptions grammaticales (cf. Figure 1-2) permet de définir et comparer les jeux
d’étiquettes morphologiques. Le lexique M
ULTEXTdu français a servi de base pour l’évaluation des
systèmes d’analyse morphosyntaxique du français dans le cadre du projet G
RACE(cf. 3.2.5.2).
Graphie Prononciation Morpho syntaxe
ORTHO PHONO FPH CS VS M LIEN
prendre pRa~dR @ V inf =
prennent pREn @t" V 3P pi prendre
petites p@tit @z" J FP Petit
Un 9~ n" D MS di =
Avion avjo~ N MS =
PHONO : représentation phonologique, FPH : fonctionnement phonologique de la finale, CS : catégorie syntaxique, VS : variation syntaxique, M : mode,
LIEN : entrée lexicale (lemme) dont la forme est dérivée.
Figure 1-1 Structure lexicale des entrées de BDLEX
============ =========== =========== ==== Attribute Value Example Code ============ =========== =========== ==== Type main partir m auxiliary avoir a --- --- --- ---- Mood/Vform indicative viens i subjunctive vienne s imperative viens m conditional viendrais c infinitive venir n participle venu p --- --- --- ---- Tense present viens p imperfect venais i future viendrai f past vins s --- --- --- ---- Person first suis 1 second es 2 third est 3 --- --- --- ---- Number singular viens s plural venons p --- --- --- ---- Gender masculine venu m feminine venue f --- --- --- ---- Clitics /// /// - ============ =========== =========== ====
aimer CB P0 PSelf (P1) SELF catgram VERB trait_l [aux:avoir] P0 NP PRONOUN[lex:quelqu'un] PSelf V[aux:avoir] P1 NP
S[introd:le fait que] S[mood:infinitive] S[mood:infinitive][prep:à] S[mood:infinitive][prep:de] S[sbcat:complementizer][mood:subjunctive] PRONOUN[lex:le] PRONOUN[lex:quelqu'un] PRONOUN[lex:quelque chose]
Figure 1-3 Exemple de la description syntaxique d’une unité lexicale dans GENELEX
Les modèles Européens complexes
6, dont l’original est G
ENELEX(GENEric LEXicon, projet
E
UREKA, Antoni-Lay et al. [ANT 93]) fournissent pour chaque lemme (unité lexicale) une
information très riche : le comportement syntaxique et la sous-catégorisation (cf. Figure 1-3), ainsi que
la sémantique. Ils sont puissants en terme de généricité et de possibilité d’usage multiple. Dans le
modèle G
ENELEX, chaque entrée est représentée sous forme d’un graphe de relation entre entités
lexicales (morphologique, syntaxique, sémantique, cf. Figure 1-4 – Sérasset [SER 93]). G
ENELEXn’est
directement lié à aucune application de TAL, mais une application de TAL peut extraire pour ses
besoins particuliers une partie de l’information contenue dans cette base lexicale très large. Le
développement de modèles dérivés de G
ENELEXpour les langues européennes fait l’objet de
nombreux projets, notamment dans le cadre du groupe E
AGLES(Expert Advisory Group for Language
Engineering Standards).
Plus spécifiquement orienté vers la semantique, le thésaurus WordNet (anglo-américain, construit
depuis 1985 à l’Université de Princeton – Miller et al. [MIL 90b]) contient environ 200 000 paires de
mot-sens. Les mots sont organisés en classes de synonymes, ou synsets, dont chacun représente un
concept lexical (cf. Figure 1-5). Ces synsets sont eux-mêmes organisés en une arborescence
ontologique structurée par la relation d’hyponymie (cf. Figure 1-6), ainsi que par des liens
transversaux marquant d’autres types de relations syntaxiques (antonymie, métonymie…). WordNet
joue un rôle important dans de nombreux travaux en étiquetage sémantique ou qui visent l’accès aux
textes par le sens.
Une autre base lexicale (anglaise) orientée sémantique est en cours de développement dans le cadre
du projet FrameNet à Berkeley – Baker et al. [BAK 03]. L’objectif de FrameNet est de documenter les
liens entre les unités lexicales (paires mot-sens) et leur cadre sémantique, en se basant sur des usages
observés en corpus (principalement le British National Corpus – BNC). Chaque unité lexicale est
accompagnée de ses définitions et des exemples annotés sensés illustrer toutes ses possibilités
combinatoires (cf. Figure 1-7), et liée à un cadre sémantique, qui peut-être partagé par d’autres unités
lexicales. FrameNet contient actuellement plus de 8 900 unités lexicales, dont plus de 6 100 sont
complètement annotées dans 625 cadres sémantiques, et exemplifiés dans plus de 135 000 phrases
annotées. FrameNet contient également un réseau de relations entre les cadres (cf. Figure 1-8, Fillmore
et al. [FIL 04]). La base est disponible sous licence par le biais de son site Internet. D’autres projets
dérivés pour l’allemand, l’espagnol et le japonais sont également en cours.
Langues asiatiques isolantes
Le premier lexique utilisé pour le traitement du chinois est le lexique syntaxique du groupe CKIP
(Chinese Knowedge Information Processing [CKIP 93]), qui rassemble environ 80 000 entrées de
mots chinois. À chaque entrée lexicale sont associées sa catégorie syntaxique et ses rôles thématiques
dans la théorie ICG (Information-based Case Grammar, cf. 1.1.2.2).
Au niveau sémantique, plusieurs réseaux de concepts chinois ont été développés. On peut citer, en
particulier, la base SKCC (Semantic Knowledge base of Contemporary Chinese) de l’Institut
d’Informatique Linguistique de l’université de Pékin. Cette base (cf. Wang et Yu [WAN 03])
contenant 66 539 mots chinois est construite suivant le modèle du thésaurus WordNet.
Dans le cadre du ChineseLDC (Chinese Linguistic Data Consortium – Zhao et al. [ZHA 04],
http://www.chineseldc.org
), deux lexiques ont été développés :
- Un premier lexique construit contient environ 100 000 mots, accompagnés d’informations
précisant leur transcription « pinyin » (pseudo-phonétique en alphabet occidental) et leur
fréquence. Les fréquences des mots sont évaluées en se basant sur deux statistiques : les
fréquences calculées à partir d’un corpus segmenté de 5 millions de caractères chinois, et les
fréquences de chaînes d’un corpus brut d’un milliard de caractères.
6 Les consortiums les ayant développé ont, pour satisfaire les exigences de tous leurs partenaires, réalisé l’union de nombreux mécanismes de représentation, ce qui a rendu complexe la structure de ces modèles.
- Une deuxième base lexicale est la base de connaissances grammaticales chinoises concernant
les mots courants. Cette base se compose d’environ 30 000 mots chinois fréquemment utilisés,
couvrant tous les mots de catégories grammaticales ambiguës, et tous les mots outils. À
chaque mot d’entrée sont associées ses étiquettes morphosyntaxiques possibles, leurs
fréquences relatives, une suite d’attributs grammaticaux décrivant l’usage du mot et un
ensemble de phrases d’exemple. Les mots de la base sont extraits du corpus journalistique
chinois 1998 People Daily.
Pour le thaï, le lexique monolingue NAiST
7Lexibase (Kasetsart University) contient 15 000 mots
accompagnés par des informations syntaxiques et sémantiques. Le NAiST Lexibase est fondé sur un
modèle relationnel (cf.Figure 1-9, Kawtrakul et al. [KAW 95]).
Figure 1-5 Exemple de consultation de WordNet
Sense 2
dictionary, lexicon => wordbook
=> reference book, reference, reference work, book of facts => book<<<<
=> publication
=> work, piece of work => product, production => creation
=> artifact, artefact
=> object, physical object => entity
=> whole, whole thing, unit => object, physical object => entity
Figure 1-6 Exemple de hiérarchie hyperonymique dans WordNet
Figure 1-7 FrameNet – Exemples annotés du cadre sémantique du verbe « inform » [FIL 04]
Figure 1-9 Matrice de lexique pour le NAiST Lexibase (thaï)
1.1.1.2. Lexiques multilingues
On peut distinguer parmi les lexiques multilingues ceux qui s’intéressent en particulier à la mise en
correspondance de deux langues, souvent dans un objectif précis (lexiques bilingues), et ceux dont
l’objectif plus ambitieux est de développer un mécanisme générique pouvant permettre la mise en
parallèle d’informations lexicales pour un nombre a priori arbitraire de langues.
Lexiques bilingues
Le modèle bilingue EDR (Electronic Dictionary Research) est spécifiquement destiné au couple
japonais-anglais. Ce modèle consiste en différents dictionnaires : de mots, de concepts, de
co-occurrences, et bilingue. L’architecture du dictionnaire bilingue EDR (détaillée à la Figure 1-10) se
base principalement sur un dictionnaire de concepts où des concepts indépendants des langues sont
décrits et reliés aux entrées lexicales monolingues dans chaque langue. Les entrées lexicales
monolingues sont enregistrées dans deux dictionnaires de mots (pour l’anglais et pour le japonais) qui
fournissent leur information grammaticale (représentée comme une liste d’attributs) et un lien à un
concept du dictionnaire de concepts. Chaque entrée lexicale est une forme fléchie de mot, ce qui n’est
pas très efficace pour les langues fortement flexionnelles comme le français (qui compte en moyenne
environ 10 formes par lemme – Sérasset [SER 93]).
Concernant les ressources lexicales pour les langues asiatiques isolantes considérées (le chinois et
le thaï), on peut mentionner deux lexiques mis à disposition du public : le lexique de traduction
chinois-anglais distribué par le LDC et le lexique pour le couple de langues thaï et anglais. Le lexique
chinois-anglais a été rendu public pour la première fois en 1999 ; sa dernière version date de 2002 et
contient 54 170 entrées du chinois. Le format du lexique est simple :
<mot chinois> /<traduction anglaise 1>/…/<traduction anglaise n>/
Le lexique L
EXITRON(voir Figure 1-11 et Figure 1-12), dont la première publication date de 1996,
se focalise pour sa part sur le couple thaï-anglais, mettant en correspondance 53 000 entrées lexicales
anglaises et 35 000 entrées thaïs, extraites d’un large corpus (cf. Charoenporn et al. [CHA 04]). Il
s’agit néanmoins plus d’un dictionnaire bilingue informatisé, destiné à une consultation humaine, que
Figure 1-10 Structure de données des entrées du dictionnaire Anglais-Japonais (EDR)
<English-Japanese Bilingual Dictionary>
::= <English-Japanese Bilingual Dictionary Record>BBB <English-Japanese Bilingual Dictionary Record>
::= <Record Number> \t<Headword Information> \t<Grammatical Information> \t<Semantic Information> \t<Correspondence Information> \t<Management Information>\n
<Record Number> ::= <Character String> <Headword Information> ::= <Headword>
<Headword> ::= <Character String> <Grammatical Information> ::= <Part of Speech> <Part of Speech> ::= <Character String>
<Semantic Information> ::= <Concept Identifier>\t<Headconcept> \t<Concept Explication>
<Concept Identifier> ::= <Hexadecimal Integer> <Headconcept> ::= <English Headconcept> \t<Japanese Headconcept> <English Headconcept>
::= <Character String> <Japanese Headconcept>
::= <Character String>
<Concept Explication> ::= <English Concept Explication> \t<Japanese Concept Explication> <English Concept Explication>
::= <Character String> <Japanese Concept Explication>
::= <Character String>
<Correspondence Information> ::=<Correspondence Word Information> | <Correspondence Information>
// <Correspondence Word Information> <Correspondence Word Information>
::=<Correspondence Word Category> '|'<Correspondence Word Notation>
'|' x
<Correspondence Word Category> ::=<Number> <Correspondence Word Notation>
::=<Character String>
<Management Information> ::=<Management History Record>
<Management History Record> ::=<Attribute Name>=<Attribute Value> | <Management History Record> ; <Attribute Name>=<Attribute Value> <Attribute Name> ::=<Character String>
Figure 1-11 Exemple d’édition d’une entrée dans Lexitron
Projets multilingues
Une piste souvent empruntée pour le développement de lexiques multilingues consiste à étendre un
modèle monolingue existant afin de permettre l’encodage de liens entre langues. Ainsi, le principe de
description des entrées lexicales développé dans le projet G
ENELEXa donné lieu à plusieurs extensions
visant à permettre la mise en parallèle de lexiques construits pour différentes langues. C’est en
particulier le cas du projet Européen S
IMPLE(Semantic Information for Multilingual Plurifunctional
Lexica) qui permet le rapprochement de lexiques en différentes langues en définissant un vocabulaire
commun pour la description d’informations lexicales sémantiques. Un autre « produit dérivé » de
G
ENELEXest le projet I
SLE(International Standards for Language Engineering) / M
ILE(Multilingual
I
SLELexical Entry) du groupe E
AGLES.
Dans le même ordre d’idées, de nombreux lexiques dérivés de WordNet (EuroWordNet pour les
langues d’Europe de l’Ouest, ItalWordNet pour l’italien, IndoWordNet pour l’Asie et BalkaNet pour
les langues de l’Europe de l’Est) visent le développement d’une ontologie de haut niveau qui puisse
être commune à toutes les langues qu’ils traitent. Ils définissent en outre un index interlingual des
synsets permettant la mise en correspondance directe de ceux-ci d’une langue à l’autre.
Le projet Papillon (cf. Boitet [BOI 01], Mangeot et al. [MAN 03]), en revanche, est conçu dès
l’origine avec le multilinguisme comme objectif. Il a pour but de créer une base lexicale multilingue
ouverte et coopérative comprenant entre autres l'anglais, le français, le japonais, le malais, le lao,
le thaï et le vietnamien. L’idée est de permettre aux utilisateurs un accès libre à la base sur
Internet, et la possibilité de participer à son enrichissement. La macrostructure du dictionnaire est
composée d’un volume monolingue pour chaque langue et d’un volume pivot contenant des liens
interlinguaux reliant les sens des mots composant les volumes monolingues (cf. Figure 1-13). Pour
chacune des langues étudiées, la microstructure des articles (cf. Figure 1-14) est fondée sur la
lexicographie combinatoire extraite de la théorie sens-texte de Mel’cuk (DEC Dictionnaire explicatif
et combinatoire, cf. Mel’cuk et al. [MEL 84, 88]).
Figure 1-13 Liens entre la traduction du mot « riz » dans quatre langues de la base Papillon [MAN 03]