• Aucun résultat trouvé

1.4 Signature : une structure ensembliste lexicalis´ee

1.4.3 Construction et applications

La construction d’une signature peut se faire pour un terme de fac¸on triviale `a partir d’un r´eseau lexical, par sommation des relations sortantes et entrantes du terme concern´e. Les valeurs d’acti- vation sont ensuite 2-norm´ees. `A supposer que le r´eseau lexical est de bonne qualit´e, ce mode de construction s’affranchit de tout bruit. La construction d’une signature lexicale pour un texte peut ˆetre r´ealis´ee par extraction de mots-cl´es (voir chapitre 4). La qualit´e de la signature d´ependra de celle des processus d’extraction.

Dans [Bouklit & Lafourcade, 2006], les signatures lexicales sont calcul´ees pour des documents du Web (des hypertextes) et propag´ees selon le graphe induit par les hyperliens. Deux types de si- gnatures sont calcul´es, les signatures entrantes (des documents qui citent le document concern´e) et sortantes (du document concern´e combin´e aux signatures entrantes des documents cit´es). Cette r´ecursion crois´ee am`ene `a un calcul it´er´e de deux signatures pour chaque document. Le calcul de la (dis)similarit´e entre les deux signatures d’un document pouvait ˆetre `a la base de la d´etection de documents cit´es pour ce qu’ils ne sont pas (identification de contenus probl´ematiques).

Conclusion du chapitre 1

Nous avons introduit trois types d’objet utilisables aussi bien comme repr´esentations pour un lexique en s´emantique lexicale que dans le cadre d’une analyse de texte : les vecteurs, les r´eseaux, et les signatures. Dans les trois cas, la qualit´e de la repr´esentation d´epend fortement du mode de construction et des donn´ees utilis´ees (corpus, lexiques, etc.). Le r´eseau lexical fournit la meilleure pr´ecision, mais la comparaison de deux objets n’est pas forc´ement ais´ee. Vecteurs et signatures per- mettent une comparaison efficace via le calcul de similarit´e, de distance d’activation ou de distance

signatures lexicales et les voisins d’un terme d’un r´eseau, constituent des ensembles ouverts. Les vecteurs saltoniens sont de dimension finie (au moins en th´eorie) ainsi que ceux de LSA ou HAL.

– Objets associ´es - concepts, termes ou aucun : les vecteurs conceptuels associent `a chaque composante un concept, en ce sens ils sont d´elexicalis´es. Les signatures lexicales sont des ensembles de termes, tout comme les vecteurs saltoniens traditionnels sont des vecteurs de termes. Les vecteurs anonymes n’ont pas d’objets associ´es aux composantes, ils ne sont donc pas directement d´ecodables (c’est le cas des vecteurs de LSA apr`es r´eduction de dimension). – Typage - global ou local : Il est possible d’associer un vecteur ou une signature `a un type de

relation, mais ce type est fix´e globalement pour chacune des composantes du vecteur. Dans le cas d’un r´eseau lexical, par contre, chaque relation est typ´ee localement. Une structure de r´eseau impose un typage local (sauf dans le cas d´eg´en´er´e o`u le graphe ne dispose que d’un type de relation, mais dans ce cas, il est formellement ´equivalent `a un ensemble de signatures).

Dim Association Typage

vecteurs

conceptuels ferm´ee concepts global

vecteurs

saltoniens ouvert termes -

vecteurs anonymes

(´emergence, LSA, HAL) ferm´ee - global

signatures

lexicales ouverte termes global

r´eseaux

lexicaux ouverte termes local

De cette typologie, nous entrevoyons qu’il pourrait exister des types d’objets dont nous n’avons pas parl´e. Par exemple, nous pourrions penser `a des signatures conceptuelles ou des r´eseaux concep- tuels(qui seraient des objets diff´erents des graphes conceptuels, ceci-dit). Toutefois, si nous suppo- sons que l’ensemble des concepts est d´efini a priori, alors une signature conceptuelle est ´equivalente `a un vecteur conceptuel (la dimension est fixe). Une dimension ouverte implique qu’il existe une as- sociation `a un type d’objet pour chaque composante, il ne semble donc pas imaginable d’avoir des r´eseaux anonymesou des signatures anonymes.

Articles adjoints au chapitre 1

M. Mangeot-Lerebours, G. S´erasset, et M. Lafourcade. Construction collaborative d’une base lexicale multilingue - Le Projet Papillon.TAL, Volume 44, 1/2, 2003, pages 151 `a 176.

M. Lafourcade, V. Prince, D. Schwab. Vecteurs conceptuels et structuration ´emergente de termi- nologies.TAL, Volume 43, 1/2, 2002, pages 43 `a 72.

sion de X (son nombre de composantes). Afin d’all´eger l’´ecriture, nous poserons dans la suite que dim(X) = n. Dans ce qui suit, nous notonsE, l’espace vectoriel sur lequel sont d´efinis les vecteurs.

Une histoire de normes

Il existe plusieurs normes possibles pour des vecteurs, la forme la plus g´en´erale ´etant :

kXkp= ( n X i=1

xpi)1/p (1.1)

Toutefois, seules les normes pour les valeurs dep suivantes nous int´eressent ici :

p = 1 : kXk1=

n X

i=1

|xi| (1.2)

Cette norme correspond `a un d´eplacement `a angle droit sur un damier.

p = 2 : kXk2= v u u t n X i=1 x2 i (1.3)

Il s’agit ici de la norme euclidienne, qui est celle habituellement utilis´ee pour mesurer la distance entre deux points de l’espace usuel.

kXk∞= limp

→+∞kXkp= max(|x1|, . . . , |xn|) (1.4) Normer un vecteur consiste `a diviser toutes ses composantes par la norme du vecteur. Toutefois, quelle norme choisir ? Si on souhaite que le vecteur ait une longueur unitaire, la norme euclidienne (norme-2) sera utilis´ee. Par contre si on souhaite que la somme des composantes soit ´egale `a 1, afin d’utiliser le vecteur comme un vecteur de probabilit´es, la norme-1 sera utilis´ee (car avec la norme-1, la somme des composantes vaut 1 et donc chaque composante peut ˆetre assimil´ee `a une probabilit´e). Enfin, si on veut comparer proportionnellement toutes les composantes du vecteur `a la composante maximum, la norme infinie sera utilis´ee (en pratique, une approximation avec unp assez grand). Sauf mention contraire, dans ce qui suit, on supposera les vecteurs 2-norm´es.

Similarit´e et dissimilarit´e

Souvent utilis´ee en recherche documentaire, la mesure de similarit´esim(X, Y ) s’exprime comme le produit scalaire des vecteursX et Y divis´e par le produit de leur norme. Nous supposons ici que les composantes des vecteurs sont toutes positives ou nulles.

sim(X, Y ) = cos( [X, Y ) = X· Y

kXk × kY k (1.5)

La dissimilarit´e est une mesure de ce qui est diff´erent entre les deux vecteurs :

dissim(X, Y ) = sin( [X, Y ) (1.6)

cot(X, Y ) = sim(X, Y )

dissim(X, Y ) (1.8)

Cette fonction est particuli`erement utile pour pond´erer des termes en fonction d’un contexte. Distance angulaire

Nous introduisons ´egalement la distance angulaire, not´eeDA, d´eriv´ee de la mesure de similarit´e. Intuitivement, cette distance constitue une ´evaluation de la proximit´e th´ematique, c’est une mesure de l’angle entre les deux vecteurs. Ces vecteurs sont normalis´es (l’espace vectoriel consid´er´e est norm´e).

DA(X, Y ) = arccos(sim(X, Y )) (1.9)

La distance angulaire est une applicationDA:E × E −→ R. E est l’espace vectoriel consid´er´e. – sym´etrie :∀X, Y ∈ E, DA(X, Y ) = DA(Y, X)

– s´eparation :∀X, Y ∈ E, DA(X, Y ) = 0⇔ X = Y

– in´egalit´e triangulaire :∀X, Y, Z ∈ E, DA(X, Z)≤ DA(X, Y ) + DA(Y, Z) L’ensembleE est un espace m´etrique.

FIGURE1.6 – Que veut dire que deux vecteurs sont proches ?

D´ecider dans l’absolu si deux vecteurs sont proches ou non est extrˆemement subjectif, et c’est pourquoi, dans la mesure du possible, nous pr´ef`ererons des comparaisons relatives (avec donc au moins trois vecteurs). Toutefois, nous pouvons adopter deux postures. La premi`ere consiste `a dire que si deux vecteurs se ressemblent plus qu’ils ne sont diff´erents (c’est-`a-dire sim(X, Y ) > dissim(X, Y ) ou encoreDA(X, Y )≤ π/4) alors ils seront proches. La seconde approche d´efinit un no-man’s land entreπ/3 et 2π/3 pour lequel on ne se prononcera pas. En-dec¸`a de π/3, les vecteurs seront proches et au-del`a de2π/3, ils seront ´eloign´es. La seconde m´ethode est int´eressante dans certains modes de calcul en ce qu’elle rend possible une hyst´er´esis.

Somme vectorielle

SoientX et Y deux vecteurs, leur somme vectorielle Z est d´efinie par : 25

L’op´erateur⊕ est idempotent et nous avons X ⊕ X = X. Le vecteur nul ~0 est l’´el´ement neutre de la somme vectorielle et, par d´efinition, nous posons :

~0 ⊕ ~0 = ~0. (1.12)

De ce qui pr´ec`ede, les propri´et´es de rapprochement (local et g´en´eralis´e) peuvent ˆetre d´eduites : DA(X⊕ X, Y ⊕ X) = DA(X, Y ⊕ X) ≤ DA(X, Y ) (1.13)

DA(X⊕ Z, Y ⊕ Z) ≤ DA(X, Y ) (1.14)

Soit{V(1), . . . , V(p)} un ensemble de p vecteurs. On note v(k)jla j-i`eme composante du vecteur V(k), et on note vj la j-i`eme composante du vecteur V . La somme vectorielle est g´en´eralis´ee `a n’importe quel nombre de vecteurs par :

Ep→ E : V = p X i=1 V(i) | vj= p X k=1 v(k)j (1.15)

La somme vectorielle norm´ee est g´en´eralis´ee `a n’importe quel nombre de vecteurs par :

Ep → E : V = p M i=1 V(i) | vj= Pp k=1v(k)j kPpi=1V(i)k2 (1.16) La somme vectorielle norm´ee de deux vecteurs donne un vecteur ´equidistant en terme d’angle des deux premiers vecteurs. Il s’agit en fait d’une moyenne des vecteurs somm´es. En tant qu’op´eration sur les vecteurs d’id´ees, la somme vectorielle norm´ee peut ˆetre vue comme l’union des id´ees conte- nues dans les termes.

Il doit ˆetre soulign´e que si on souhaite conserver des proportions ´egales lors de l’addition de deux vecteurs, ceux-ci doivent ˆetre norm´es avec la norme euclidienne avant leur addition. La somme de deux vecteurs norm´es `a l’aide des autres normes risque de produire des effets ind´esirables. En particulier, faire la somme de deux vecteurs de probabilit´es (norm´es 1).

Produit terme `a terme

SoientX et Y deux vecteurs, leur produit terme `a terme V est d´efini par :

E2→ E : Z = X Y | zi= xiyi (1.17)

SoientX et Y deux vecteurs, leur produit terme `a terme normalis´e V est d´efini par :

E2→ E : Z = X ⊗ Y | zi=√xiyi (1.18)

Cet op´erateur est idempotent (X⊗ X = X) et ~0 est absorbant (X ⊗ ~0 = ~0). Il peut ˆetre g´en´eralis´e `a n’importe quel nombre de vecteurs par :

Ep → E : V = p O i=1 V(k) | vj= p v u u t p Y k=1 v(k)j (1.19) 26

munes `a un ensemble de termes. Il est utilis´e en particulier dans l’op´eration de contextualisation faible.

Contextualisation faible

Lorsque deux termes sont en pr´esence, pour chacun d’eux, certaines id´ees se trouvent s´electionn´ees par le contexte que constitue l’autre terme. Ce ph´enom`ene de contextualisation consiste `a augmen- ter chaque vecteur de ce qu’il a de commun avec l’autre. Comme nous venons de le voir, les id´ees communes `a deux termes sont donn´ees par le produit terme `a terme. Ainsi, nous pouvons d´efinir la contextualisation faibleγ(X, Y ) des vecteurs X par Y par :

E2→ E : γ(X, Y ) = X ⊕ (X Y ) (1.21)

Cette fonction n’est pas sym´etrique. L’op´erateurγ est idempotent (γ(X, X) = X) et le vecteur nul est un ´el´ement neutre (γ(X, ~0) = X⊕ ~0 = X).

La propri´et´e de rapprochement suivante peut ˆetre tir´ee :

DA(γ(X, Y ), γ(Y, X))≤ DA(γ(X, Y ), Y )≤ DA(X, Y ) (1.22) DA(γ(X, Y ), γ(Y, X))≤ DA(X, γ(Y, X))≤ DA(X, Y ) (1.23) La contextualisation faibleγ(X, Y ) rapproche les vecteurs X de Y proportionnellement `a leur intersection.

Coefficient de variation

La moyenne arithm´etique d’un vecteurX µ(X) de dimension n est : µ(X) =

Pn i=1xi

n (1.24)

La variance Var(V ) et l’´ecart type σ(X) sont donn´es par les formules : Var(X) = Pn i=1(xi− µ(X))2 n et σ(X) = p Var(X) (1.25)

Enfin, le coefficient de variationc est donn´e par : c = σ(X)

µ(X) (1.26)

Le coefficient de variation n’est d´efini que lorsqueµ6= 0. Toutefois, il peut ˆetre arbitrairement ´etendu pour tenir compte du vecteur nul :

c(~0) = 0 (1.27)

Dans le cadre des vecteurs d’id´ees, on peut voir le coefficient de variationc comme une mesure statistique normalis´ee (sans unit´e) de la conceptualit´e du vecteurV . Il est d’autant plus important que les composantes du vecteur sont contrast´ees, et vaut0 si elles ont toutes la mˆeme valeur µ(X), soit

√ n

n (n ´etant la taille du vecteur) si X est normalis´e (kXk2= 1).

cmax(X) = p Varmax(X) µmax(X) =√n− 1 (1.29) Puissance de vecteur

SoientX un vecteur et p un r´eel positif, la mise `a la puissance de X par p est d´efinie par :

E × R+→ E : Z = Xp | zi= xpi (1.30)

Le vecteur r´esultat est g´en´eralement normalis´e. Cette op´eration est utile pour augmenter (ou di- minuer) le contraste d’un vecteur, c’est-`a-dire augmenter (ou diminuer) son coefficient de variation.

Construction collaborative d’une base lexi-

cale multilingue

Le projet Papillon

Mathieu Mangeot-Lerebours

*

Gilles Sérasset

**

Mathieu

Lafourcade

***

*National Institute of Informatics

Hitotsubashi 2-1-2-1913 Chiyoda-ku Tokyo 101-8430 Japan mangeot@nii.ac.jp

**GETA-CLIPS, IMAG, Université Joseph Fourier BP 53, 38041 Grenoble cedex 9

Gilles.Serasset@imag.fr

***TAL-LIRMM, Université de Montpellier II 161, rue Ada, 34392 Montpellier cedex 5 lafourcade@lirmm.fr

RÉSUMÉ.Nous présentons le projet Papillon dédié la construction d’une base lexicale multi- lingue linguistiquement riche. Ce projet s’appuie sur le principe de construction collaborative, qui permet à chacun, professionel ou amateur, institution ou individu, de contribuer, dans la mesure de ses moyens, à ce grand chantier. Pour qu’un tel travail collaboratif puisse s’amorcer, il est nécessaire de fournir un ensemble conséquent d’informations lexicales multilingues, sur lesquels les contributeurs pourront s’appuyer. Après avoir présenté l’architectures linguistique, lexicale et informatique du projet Papillon, nous détaillons la méthode utilisée pour créer les informations initiales mises à disposition des contributeurs.

ABSTRACT.This paper presents the Papillon project dedicated to the building of a linguistically rich multilingual lexical database. This project is based on collaborative construction princi- ple, which allows each one, professional or amateur, institution or individual, to contribute, with its own means, to this building task. For such a collaboratif work to be effective, it is necessary to provide a important set of multilingual lexical information, that will be the base of the contributors’ work. After a presentation of the linguistic, lexical and software architectures of the Papillon project, we detail the method used to create the initial lexical information. MOTS-CLÉS :Base lexicale multilingue, Dictionnaire, travail collaboratif.

KEYWORDS:Multilingual lexical database, dictionary, collaborative work.

1. Introduction

Qu’elle soit implicite ou explicite, la connaissance linguistique reste un constituant fondamental des systèmes de traitement des langues. Le coût généralement constaté de création d’une connaissance lexicale explicite (un dictionnaire) est l’un des freins majeurs dans le développement d’un système de traitement des langues (TAL).

De la même manière, malgré le nombre et la diversité des dictionnaires à usage humain, il reste de nombreux trous à combler. Ainsi, un francophone ne peut actuel- lement trouver de dictionnaire bilingue français-japonais lui donnant une transcrip- tion utilisable des traductions en kanji (idéogrammes japonais) et lui fournissant des informations qui lui sont nécessaires (les spécificateurs numériques du japonais par exemple). Ces besoins sont encore plus flagrants pour des locuteurs de langues moins représentées au niveau lexical.

Dans cet article, nous présentons tout d’abord les motivations du projet Papillon dont l’objectif est de combler ce manque en construisant une base lexicale fortement multilingue offrant des informations linguistiquement riches. Les coûts de construc- tion d’une telle base sont réduits par l’adoption d’une stratégie (présentée en 2.2) basée sur le modèle « open source » où les données disponibles se voient constamment en- richies par des contributions d’utilisateurs aux compétences diverses. Enfin, les coûts restants sont rendus acceptables par l’adoption d’une structure linguistique et lexicale (détaillées en 2.3) favorisant la réutilisation des données construites.

Nous décrivons ensuite l’implémentation du serveur de communauté au travers duquel se fait le travail de construction de cette base. Après avoir donné une vue d’ensemble du serveur Papillon (en 3.1), et présenté les principes de représentation des différentes structures de données manipulées (en 3.2), nous détaillons les méthodes utilisées pour offrir un service d’accès unifié aux diverses données disponibles sur le site (en 3.3).

La stratégie adoptée implique un travail initial de construction d’une amorce de base lexicale contenant un ensemble d’entrées initiales non détaillées, qui servira de base aux contributions des utilisateurs. L’architecture interlingue de la base rend cette construction relativement difficile. Nous présentons donc les outils (en 4.1) et mé- thodes (en 4.2) mises en œuvre pour cette étape d’amorçage.

2. Le projet Papillon 2.1. Motivations du projet

Le projet Papillon a été initié suite à différents constats :

– Il n’existe pas à l’heure actuelle de dictionnaire français-japonais électroniques et gratuits. De plus, les dictionnaires existants sont en général conçus pour les Japo- nais. La transcription des kanjis (idéogrammes japonais) est, dans la plupart des cas, omise. Les francophones ne peuvent donc pas se servir de ces dictionnaires à moins de

savoir lire le japonais. De plus, d’autres informations nécessaires pour s’exprimer en japonais font aussi défaut. Il existe par exemple, une grande variété de spécificateurs numériques en japonais. Certains échappent à toute logique. Il est donc indispensable que cette information soit accessible.

– Pour un francophone, il est beaucoup plus difficile d’obtenir des informations lexicales sur le malais ou le thaï que sur l’anglais.

Les besoins en données lexicales restent donc importants, non seulement pour un utilisateur humain, mais aussi pour les systèmes de traitements des langues, non seule- ment pour un francophone, mais pour tout utilisateur humain quelle que soit sa langue. La principale difficulté réside dans les coûts prohibitifs de construction de grandes quantités de données. Par exemple, le projet Electronic Dictionary Research (EDR) de construction d’un dictionnaire japonais-anglais a nécessité plus de 1200 hommes années de travail. Son prix de vente, 14 000 eenviron, est très inférieur aux coûts réels de construction qui ne seront probablement jamais rentabilisés. Il est cependant encore trop élevé pour un particulier. De ce fait, seules des institutions peuvent l’acquérir. De plus, les données fournies à ce prix sont utilisables principalement par certains systèmes de traduction automatique fondés sur des techniques particulières.

Le projet Papillon met en œuvre plusieurs stratégies pour réduire ces coûts et les rendre acceptables :

– En utilisant une structure lexicale suffisamment générale et complète pour que la plupart des applications du TAL y trouvent (de manière directe ou indirecte) les données dont elles ont besoin.

– En offrant des outils simples permettant à de non-spécialistes de partager leur connaissance naturelle de leur langue maternelle. La compétence des spécialistes étant utilisée afin de nettoyer et valider les informations ainsi obtenues.

– En construisant une base multilingue fondée sur une approche interlingue par acceptions, qui permet, en factorisant l’ensemble des connaissances bilingues dispo- nibles, de s’appuyer sur les langues bien dotées pour avancer sur les langues moins représentées.

– Enfin, en appliquant le paradigme de construction « open-source » à la construc- tion de données lexicales : chaque utilisateur contribue bénévolement à la base lexicale et les ressources sont ensuite disponibles gratuitement pour tous.

L’utilisation du paradigme « open-source » a déjà été utilisée dans des projets simi- laires de construction collaboratives de données lexicales sur le Web, parfois depuis plusieurs années. Le projet EDICT de construction de dictionnaire japonais-anglais dirigé par Jim Breen, professeur à l’université Monash en Australie, a démarré, il y a plus de 10 ans. De plus, des projets parallèles d’adaptation de ce dictionnaire à d’autres langues, comme le français conduit par Jean-Marc Desperrier ([DES 02]), ont démarré avec succès. D’autres projets de construction bilingue de dictionnaires incluant le japonais ont été lancés plus récemment comme SAIKAM, japonais-thaï et WaDoKuJiten, allemand-japonais.

C’est l’utilisation conjointe de l’ensemble des stratégies énoncées qui est nova- trice. Nous pensons en effet que chacune des trois premières stratégies renforce l’im- pact du paradigme « open-source ». La première, en couvrant de nombreux besoins, permet d’impliquer des spécialistes du TAL qui apporteront leur pierre à l’édifice. La seconde, en permettant à des utilisateurs non-spécialistes de s’impliquer dans le projet, élargie le nombre de contributeurs potentiels. La troisième, en proposant une approche multilingue dès le début du projet, nous permet d’impliquer des partenaires de nombreux pays.

Lancé en 2000 par Emmanuel Planas, François Brown de Colstoun et Mutsuko Tomokiyo, le projet Papillon a été lancé en partenariat avec le National Institute of Informatics à Tokyo (Frédéric Andrès). Après trois séminaires (dont 2 à Tokyo et 1 à Grenoble), de nombreux partenaires se sont manifestés et ont souhaité rejoindre le projet : Jim Breen, auteur du dictionnaire EDICT (Université Monash, Australie), Francis Bond (NTT, Keihanna), Yves Lepage (ATR, Keihanna), Ulrich Appel, auteur du dictionnaire allemand-japonais WaDoKuJiten, Jean-Marc Desperrier, responsable de l’adaptation au français du dictionnaire EDICT, l’université Kasetsart et le NEC- TEC (Bangkok, Thaïlande), l’Universiti Sains Malaysia (Penang, Malaisie), les uni- versités de Da Nang et de Hanoi (Vietnam), etc. Actuellement, les langues couvertes sont l’allemand, l’anglais, le français, le japonais, le lao, le malais, le thaï, le vietna- mien et, très récemment, le chinois. Des contacts sont en cours concernant les langues indiennes.

2.2. Stratégie de construction de la base lexicale multilingue

Le succès du projet Papillon dépend de sa capacité à intégrer des informations fragmentaires de toutes natures dans un modèle unique. Ces informations peuvent provenir de dictionnaires existants ou d’utilisateurs contributeurs. Dans le premier cas, il s’agit d’informations cohérentes, disponibles dans un modèle propre, duquel nous extrayons les informations que nous souhaitons représenter dans le modèle de la base lexicale multilingue Papillon. Dans le second cas, il s’agit d’informations parcellaires exprimées dans le modèle de la base Papillon, sous forme de modification de données existantes.

Les contributions ne peuvent donc exister que s’il existe un ensemble minimal d’informations lexicales sur lesquelles les contributeurs apporterons des modifications (ajout, correction ou suppression). Il est donc primordial d’adopter une stratégie « en largeur » qui commence par une étape d’amorçage dont le but est d’obtenir automati-

Documents relatifs