Construction et applications - Signature : une structure ensembliste lexicalis´ee

1.4 Signature : une structure ensembliste lexicalis´ee

1.4.3 Construction et applications

La construction d’une signature peut se faire pour un terme de façon triviale à partir d’un réseau lexical, par sommation des relations sortantes et entrantes du terme concerné. Les valeurs d’activation sont ensuite 2-normées. À supposer que le réseau lexical est de bonne qualité, ce mode de construction s’affranchit de tout bruit. La construction d’une signature lexicale pour un texte peut être réalisée par extraction de mots-clés (voir chapitre 4). La qualité de la signature dépendra de celle des processus d’extraction.

Dans [Bouklit & Lafourcade, 2006], les signatures lexicales sont calculées pour des documents du Web (des hypertextes) et propagées selon le graphe induit par les hyperliens. Deux types de signatures sont calculés, les signatures entrantes (des documents qui citent le document concerné) et sortantes (du document concerné combiné aux signatures entrantes des documents cités). Cette récursion croisée amène à un calcul itéré de deux signatures pour chaque document. Le calcul de la (dis)similarité entre les deux signatures d’un document pouvait être à la base de la détection de documents cités pour ce qu’ils ne sont pas (identification de contenus problématiques).

Conclusion du chapitre 1

Nous avons introduit trois types d’objet utilisables aussi bien comme représentations pour un lexique en sémantique lexicale que dans le cadre d’une analyse de texte : les vecteurs, les réseaux, et les signatures. Dans les trois cas, la qualité de la représentation dépend fortement du mode de construction et des données utilisées (corpus, lexiques, etc.). Le réseau lexical fournit la meilleure précision, mais la comparaison de deux objets n’est pas forcément aisée. Vecteurs et signatures per- mettent une comparaison efficace via le calcul de similarité, de distance d’activation ou de distance

signatures lexicales et les voisins d’un terme d’un r´eseau, constituent des ensembles ouverts. Les vecteurs saltoniens sont de dimension finie (au moins en th´eorie) ainsi que ceux de LSA ou HAL.

– Objets associés - concepts, termes ou aucun : les vecteurs conceptuels associent à chaque composante un concept, en ce sens ils sont délexicalisés. Les signatures lexicales sont des ensembles de termes, tout comme les vecteurs saltoniens traditionnels sont des vecteurs de termes. Les vecteurs anonymes n’ont pas d’objets associés aux composantes, ils ne sont donc pas directement décodables (c’est le cas des vecteurs de LSA après réduction de dimension). – Typage - global ou local : Il est possible d’associer un vecteur ou une signature à un type de

relation, mais ce type est fixé globalement pour chacune des composantes du vecteur. Dans le cas d’un réseau lexical, par contre, chaque relation est typée localement. Une structure de réseau impose un typage local (sauf dans le cas dégénéré où le graphe ne dispose que d’un type de relation, mais dans ce cas, il est formellement équivalent à un ensemble de signatures).

Dim Association Typage

vecteurs

conceptuels ferm´ee concepts global

vecteurs

saltoniens ouvert termes -

vecteurs anonymes

(´emergence, LSA, HAL) ferm´ee - global

signatures

lexicales ouverte termes global

r´eseaux

lexicaux ouverte termes local

De cette typologie, nous entrevoyons qu’il pourrait exister des types d’objets dont nous n’avons pas parlé. Par exemple, nous pourrions penser à des signatures conceptuelles ou des réseaux conceptuels(qui seraient des objets différents des graphes conceptuels, ceci-dit). Toutefois, si nous supposons que l’ensemble des concepts est défini a priori, alors une signature conceptuelle est équivalente à un vecteur conceptuel (la dimension est fixe). Une dimension ouverte implique qu’il existe une association à un type d’objet pour chaque composante, il ne semble donc pas imaginable d’avoir des réseaux anonymesou des signatures anonymes.

Articles adjoints au chapitre 1

M. Mangeot-Lerebours, G. S´erasset, et M. Lafourcade. Construction collaborative d’une base lexicale multilingue - Le Projet Papillon.TAL, Volume 44, 1/2, 2003, pages 151 `a 176.

M. Lafourcade, V. Prince, D. Schwab. Vecteurs conceptuels et structuration ´emergente de termi- nologies.TAL, Volume 43, 1/2, 2002, pages 43 `a 72.

sion de X (son nombre de composantes). Afin d’alléger l’écriture, nous poserons dans la suite que dim(X) = n. Dans ce qui suit, nous notonsE, l’espace vectoriel sur lequel sont définis les vecteurs.

Une histoire de normes

Il existe plusieurs normes possibles pour des vecteurs, la forme la plus générale étant :

kXkp= ( n X i=1

xpi)1/p (1.1)

Toutefois, seules les normes pour les valeurs dep suivantes nous int´eressent ici :

p = 1 : _kXk1=

n X

i=1

|xi| (1.2)

Cette norme correspond à un déplacement à angle droit sur un damier.

p = 2 : _kXk2= v u u t n X i=1 x2 i (1.3)

Il s’agit ici de la norme euclidienne, qui est celle habituellement utilis´ee pour mesurer la distance entre deux points de l’espace usuel.

kXk∞= lim_p

→+∞kXkp= max(|x1|, . . . , |xn|) (1.4) Normer un vecteur consiste à diviser toutes ses composantes par la norme du vecteur. Toutefois, quelle norme choisir ? Si on souhaite que le vecteur ait une longueur unitaire, la norme euclidienne (norme-2) sera utilisée. Par contre si on souhaite que la somme des composantes soit égale à 1, afin d’utiliser le vecteur comme un vecteur de probabilités, la norme-1 sera utilisée (car avec la norme-1, la somme des composantes vaut 1 et donc chaque composante peut être assimilée à une probabilité). Enfin, si on veut comparer proportionnellement toutes les composantes du vecteur à la composante maximum, la norme infinie sera utilisée (en pratique, une approximation avec unp assez grand). Sauf mention contraire, dans ce qui suit, on supposera les vecteurs 2-normés.

Similarit´e et dissimilarit´e

Souvent utilisée en recherche documentaire, la mesure de similaritésim(X, Y ) s’exprime comme le produit scalaire des vecteursX et Y divisé par le produit de leur norme. Nous supposons ici que les composantes des vecteurs sont toutes positives ou nulles.

sim(X, Y ) = cos( [X, Y ) = X· Y

kXk × kY k (1.5)

La dissimilarit´e est une mesure de ce qui est diff´erent entre les deux vecteurs :

dissim(X, Y ) = sin( [X, Y ) (1.6)

cot(X, Y ) = sim(X, Y )

dissim(X, Y ) (1.8)

Cette fonction est particuli`erement utile pour pond´erer des termes en fonction d’un contexte. Distance angulaire

Nous introduisons également la distance angulaire, notéeDA, dérivée de la mesure de similarité. Intuitivement, cette distance constitue une évaluation de la proximité thématique, c’est une mesure de l’angle entre les deux vecteurs. Ces vecteurs sont normalisés (l’espace vectoriel considéré est normé).

DA(X, Y ) = arccos(sim(X, Y )) (1.9)

La distance angulaire est une applicationDA:E × E −→ R. E est l’espace vectoriel considéré. – symétrie :_{∀X, Y ∈ E, D}A(X, Y ) = DA(Y, X)

– s´eparation :_{∀X, Y ∈ E, D}A(X, Y ) = 0⇔ X = Y

– inégalité triangulaire :_{∀X, Y, Z ∈ E, D}A(X, Z)≤ DA(X, Y ) + DA(Y, Z) L’ensemble_{E est un espace métrique.}

FIGURE1.6 – Que veut dire que deux vecteurs sont proches ?

Décider dans l’absolu si deux vecteurs sont proches ou non est extrêmement subjectif, et c’est pourquoi, dans la mesure du possible, nous préfèrerons des comparaisons relatives (avec donc au moins trois vecteurs). Toutefois, nous pouvons adopter deux postures. La première consiste à dire que si deux vecteurs se ressemblent plus qu’ils ne sont différents (c’est-à-dire sim(X, Y ) > dissim(X, Y ) ou encoreDA(X, Y )≤ π/4) alors ils seront proches. La seconde approche définit un no-man’s land entreπ/3 et 2π/3 pour lequel on ne se prononcera pas. En-deçà de π/3, les vecteurs seront proches et au-delà de2π/3, ils seront éloignés. La seconde méthode est intéressante dans certains modes de calcul en ce qu’elle rend possible une hystérésis.

Somme vectorielle

SoientX et Y deux vecteurs, leur somme vectorielle Z est d´efinie par : 25

L’opérateur_{⊕ est idempotent et nous avons X ⊕ X = X. Le vecteur nul ~0 est l’élément neutre} de la somme vectorielle et, par définition, nous posons :

~0 ⊕ ~0 = ~0. (1.12)

De ce qui précède, les propriétés de rapprochement (local et généralisé) peuvent être déduites : DA(X⊕ X, Y ⊕ X) = DA(X, Y ⊕ X) ≤ DA(X, Y ) (1.13)

DA(X⊕ Z, Y ⊕ Z) ≤ DA(X, Y ) (1.14)

Soit_{V(1), . . . , V(p)} un ensemble de p vecteurs. On note v(k)jla j-ième composante du vecteur V(k), et on note vj la j-ième composante du vecteur V . La somme vectorielle est généralisée à n’importe quel nombre de vecteurs par :

Ep→ E : V = p X i=1 V(i) | vj= p X k=1 v(k)j (1.15)

La somme vectorielle normée est généralisée à n’importe quel nombre de vecteurs par :

Ep → E : V = p M i=1 V(i) | vj= Pp k=1v(k)j kPpi=1V(i)k2 (1.16) La somme vectorielle normée de deux vecteurs donne un vecteur équidistant en terme d’angle des deux premiers vecteurs. Il s’agit en fait d’une moyenne des vecteurs sommés. En tant qu’opération sur les vecteurs d’idées, la somme vectorielle normée peut être vue comme l’union des idées conte- nues dans les termes.

Il doit être souligné que si on souhaite conserver des proportions égales lors de l’addition de deux vecteurs, ceux-ci doivent être normés avec la norme euclidienne avant leur addition. La somme de deux vecteurs normés à l’aide des autres normes risque de produire des effets indésirables. En particulier, faire la somme de deux vecteurs de probabilités (normés 1).

Produit terme `a terme

SoientX et Y deux vecteurs, leur produit terme `a terme V est d´efini par :

E2→ E : Z = X Y | zi= xiyi (1.17)

SoientX et Y deux vecteurs, leur produit terme à terme normalisé V est défini par :

E2→ E : Z = X ⊗ Y | zi=√xiyi (1.18)

Cet opérateur est idempotent (X_{⊗ X = X) et ~0 est absorbant (X ⊗ ~0 = ~0). Il peut être généralisé} à n’importe quel nombre de vecteurs par :

Ep → E : V = p O i=1 V(k) | vj= p v u u t p Y k=1 v(k)j (1.19) 26

munes à un ensemble de termes. Il est utilisé en particulier dans l’opération de contextualisation faible.

Contextualisation faible

Lorsque deux termes sont en présence, pour chacun d’eux, certaines idées se trouvent sélectionnées par le contexte que constitue l’autre terme. Ce phénomène de contextualisation consiste à augmenter chaque vecteur de ce qu’il a de commun avec l’autre. Comme nous venons de le voir, les idées communes à deux termes sont données par le produit terme à terme. Ainsi, nous pouvons définir la contextualisation faibleγ(X, Y ) des vecteurs X par Y par :

E2→ E : γ(X, Y ) = X ⊕ (X Y ) (1.21)

Cette fonction n’est pas symétrique. L’opérateurγ est idempotent (γ(X, X) = X) et le vecteur nul est un élément neutre (γ(X, ~0) = X⊕ ~0 = X).

La propriété de rapprochement suivante peut être tirée :

DA(γ(X, Y ), γ(Y, X))≤ DA(γ(X, Y ), Y )≤ DA(X, Y ) (1.22) DA(γ(X, Y ), γ(Y, X))≤ DA(X, γ(Y, X))≤ DA(X, Y ) (1.23) La contextualisation faibleγ(X, Y ) rapproche les vecteurs X de Y proportionnellement `a leur intersection.

Coefficient de variation

La moyenne arithm´etique d’un vecteurX µ(X) de dimension n est : µ(X) =

Pn i=1xi

n (1.24)

La variance Var(V ) et l’´ecart type σ(X) sont donn´es par les formules : Var(X) = Pn i=1(xi− µ(X))2 n et σ(X) = p Var(X) (1.25)

Enfin, le coefficient de variationc est donn´e par : c = σ(X)

µ(X) (1.26)

Le coefficient de variation n’est défini que lorsqueµ6= 0. Toutefois, il peut être arbitrairement étendu pour tenir compte du vecteur nul :

c(~0) = 0 (1.27)

Dans le cadre des vecteurs d’idées, on peut voir le coefficient de variationc comme une mesure statistique normalisée (sans unité) de la conceptualité du vecteurV . Il est d’autant plus important que les composantes du vecteur sont contrastées, et vaut0 si elles ont toutes la même valeur µ(X), soit

√ n

n (n ´etant la taille du vecteur) si X est normalis´e (kXk2= 1).

cmax(X) = p Varmax(X) µmax(X) =√n_{− 1} (1.29) Puissance de vecteur

SoientX un vecteur et p un réel positif, la mise à la puissance de X par p est définie par :

E × R+→ E : Z = Xp | zi= xpi (1.30)

Le vecteur résultat est généralement normalisé. Cette opération est utile pour augmenter (ou diminuer) le contraste d’un vecteur, c’est-à-dire augmenter (ou diminuer) son coefficient de variation.

Construction collaborative d’une base lexi-

cale multilingue

Le projet Papillon

Mathieu Mangeot-Lerebours

*_—

_{Gilles Sérasset}

** _—

_Mathieu

Lafourcade

***

*_{National Institute of Informatics}

Hitotsubashi 2-1-2-1913 Chiyoda-ku Tokyo 101-8430 Japan mangeot@nii.ac.jp

**_{GETA-CLIPS, IMAG, Université Joseph Fourier} BP 53, 38041 Grenoble cedex 9

Gilles.Serasset@imag.fr

***_{TAL-LIRMM, Université de Montpellier II} 161, rue Ada, 34392 Montpellier cedex 5 lafourcade@lirmm.fr

RÉSUMÉ.Nous présentons le projet Papillon dédié la construction d’une base lexicale multi- lingue linguistiquement riche. Ce projet s’appuie sur le principe de construction collaborative, qui permet à chacun, professionel ou amateur, institution ou individu, de contribuer, dans la mesure de ses moyens, à ce grand chantier. Pour qu’un tel travail collaboratif puisse s’amorcer, il est nécessaire de fournir un ensemble conséquent d’informations lexicales multilingues, sur lesquels les contributeurs pourront s’appuyer. Après avoir présenté l’architectures linguistique, lexicale et informatique du projet Papillon, nous détaillons la méthode utilisée pour créer les informations initiales mises à disposition des contributeurs.

ABSTRACT.This paper presents the Papillon project dedicated to the building of a linguistically rich multilingual lexical database. This project is based on collaborative construction princi- ple, which allows each one, professional or amateur, institution or individual, to contribute, with its own means, to this building task. For such a collaboratif work to be effective, it is necessary to provide a important set of multilingual lexical information, that will be the base of the contributors’ work. After a presentation of the linguistic, lexical and software architectures of the Papillon project, we detail the method used to create the initial lexical information. MOTS-CLÉS :Base lexicale multilingue, Dictionnaire, travail collaboratif.

KEYWORDS:Multilingual lexical database, dictionary, collaborative work.

1. Introduction

Qu’elle soit implicite ou explicite, la connaissance linguistique reste un constituant fondamental des systèmes de traitement des langues. Le coût généralement constaté de création d’une connaissance lexicale explicite (un dictionnaire) est l’un des freins majeurs dans le développement d’un système de traitement des langues (TAL).

De la même manière, malgré le nombre et la diversité des dictionnaires à usage humain, il reste de nombreux trous à combler. Ainsi, un francophone ne peut actuellement trouver de dictionnaire bilingue français-japonais lui donnant une transcription utilisable des traductions en kanji (idéogrammes japonais) et lui fournissant des informations qui lui sont nécessaires (les spécificateurs numériques du japonais par exemple). Ces besoins sont encore plus flagrants pour des locuteurs de langues moins représentées au niveau lexical.

Dans cet article, nous présentons tout d’abord les motivations du projet Papillon dont l’objectif est de combler ce manque en construisant une base lexicale fortement multilingue offrant des informations linguistiquement riches. Les coûts de construction d’une telle base sont réduits par l’adoption d’une stratégie (présentée en 2.2) basée sur le modèle « open source » où les données disponibles se voient constamment en- richies par des contributions d’utilisateurs aux compétences diverses. Enfin, les coûts restants sont rendus acceptables par l’adoption d’une structure linguistique et lexicale (détaillées en 2.3) favorisant la réutilisation des données construites.

Nous décrivons ensuite l’implémentation du serveur de communauté au travers duquel se fait le travail de construction de cette base. Après avoir donné une vue d’ensemble du serveur Papillon (en 3.1), et présenté les principes de représentation des différentes structures de données manipulées (en 3.2), nous détaillons les méthodes utilisées pour offrir un service d’accès unifié aux diverses données disponibles sur le site (en 3.3).

La stratégie adoptée implique un travail initial de construction d’une amorce de base lexicale contenant un ensemble d’entrées initiales non détaillées, qui servira de base aux contributions des utilisateurs. L’architecture interlingue de la base rend cette construction relativement difficile. Nous présentons donc les outils (en 4.1) et mé- thodes (en 4.2) mises en œuvre pour cette étape d’amorçage.

2. Le projet Papillon 2.1. Motivations du projet

Le projet Papillon a été initié suite à différents constats :

– Il n’existe pas à l’heure actuelle de dictionnaire français-japonais électroniques et gratuits. De plus, les dictionnaires existants sont en général conçus pour les Japo- nais. La transcription des kanjis (idéogrammes japonais) est, dans la plupart des cas, omise. Les francophones ne peuvent donc pas se servir de ces dictionnaires à moins de

savoir lire le japonais. De plus, d’autres informations nécessaires pour s’exprimer en japonais font aussi défaut. Il existe par exemple, une grande variété de spécificateurs numériques en japonais. Certains échappent à toute logique. Il est donc indispensable que cette information soit accessible.

– Pour un francophone, il est beaucoup plus difficile d’obtenir des informations lexicales sur le malais ou le thaï que sur l’anglais.

Les besoins en données lexicales restent donc importants, non seulement pour un utilisateur humain, mais aussi pour les systèmes de traitements des langues, non seulement pour un francophone, mais pour tout utilisateur humain quelle que soit sa langue. La principale difficulté réside dans les coûts prohibitifs de construction de grandes quantités de données. Par exemple, le projet Electronic Dictionary Research (EDR) de construction d’un dictionnaire japonais-anglais a nécessité plus de 1200 hommes années de travail. Son prix de vente, 14 000 eenviron, est très inférieur aux coûts réels de construction qui ne seront probablement jamais rentabilisés. Il est cependant encore trop élevé pour un particulier. De ce fait, seules des institutions peuvent l’acquérir. De plus, les données fournies à ce prix sont utilisables principalement par certains systèmes de traduction automatique fondés sur des techniques particulières.

Le projet Papillon met en œuvre plusieurs stratégies pour réduire ces coûts et les rendre acceptables :

– En utilisant une structure lexicale suffisamment générale et complète pour que la plupart des applications du TAL y trouvent (de manière directe ou indirecte) les données dont elles ont besoin.

– En offrant des outils simples permettant à de non-spécialistes de partager leur connaissance naturelle de leur langue maternelle. La compétence des spécialistes étant utilisée afin de nettoyer et valider les informations ainsi obtenues.

– En construisant une base multilingue fondée sur une approche interlingue par acceptions, qui permet, en factorisant l’ensemble des connaissances bilingues disponibles, de s’appuyer sur les langues bien dotées pour avancer sur les langues moins représentées.

– Enfin, en appliquant le paradigme de construction « open-source » à la construction de données lexicales : chaque utilisateur contribue bénévolement à la base lexicale et les ressources sont ensuite disponibles gratuitement pour tous.

L’utilisation du paradigme « open-source » a déjà été utilisée dans des projets simi- laires de construction collaboratives de données lexicales sur le Web, parfois depuis plusieurs années. Le projet EDICT de construction de dictionnaire japonais-anglais dirigé par Jim Breen, professeur à l’université Monash en Australie, a démarré, il y a plus de 10 ans. De plus, des projets parallèles d’adaptation de ce dictionnaire à d’autres langues, comme le français conduit par Jean-Marc Desperrier ([DES 02]), ont démarré avec succès. D’autres projets de construction bilingue de dictionnaires incluant le japonais ont été lancés plus récemment comme SAIKAM, japonais-thaï et WaDoKuJiten, allemand-japonais.

C’est l’utilisation conjointe de l’ensemble des stratégies énoncées qui est nova- trice. Nous pensons en effet que chacune des trois premières stratégies renforce l’im- pact du paradigme « open-source ». La première, en couvrant de nombreux besoins, permet d’impliquer des spécialistes du TAL qui apporteront leur pierre à l’édifice. La seconde, en permettant à des utilisateurs non-spécialistes de s’impliquer dans le projet, élargie le nombre de contributeurs potentiels. La troisième, en proposant une approche multilingue dès le début du projet, nous permet d’impliquer des partenaires de nombreux pays.

Lancé en 2000 par Emmanuel Planas, François Brown de Colstoun et Mutsuko Tomokiyo, le projet Papillon a été lancé en partenariat avec le National Institute of Informatics à Tokyo (Frédéric Andrès). Après trois séminaires (dont 2 à Tokyo et 1 à Grenoble), de nombreux partenaires se sont manifestés et ont souhaité rejoindre le projet : Jim Breen, auteur du dictionnaire EDICT (Université Monash, Australie), Francis Bond (NTT, Keihanna), Yves Lepage (ATR, Keihanna), Ulrich Appel, auteur du dictionnaire allemand-japonais WaDoKuJiten, Jean-Marc Desperrier, responsable de l’adaptation au français du dictionnaire EDICT, l’université Kasetsart et le NEC- TEC (Bangkok, Thaïlande), l’Universiti Sains Malaysia (Penang, Malaisie), les uni- versités de Da Nang et de Hanoi (Vietnam), etc. Actuellement, les langues couvertes sont l’allemand, l’anglais, le français, le japonais, le lao, le malais, le thaï, le vietna- mien et, très récemment, le chinois. Des contacts sont en cours concernant les langues indiennes.

2.2. Stratégie de construction de la base lexicale multilingue

Le succès du projet Papillon dépend de sa capacité à intégrer des informations fragmentaires de toutes natures dans un modèle unique. Ces informations peuvent provenir de dictionnaires existants ou d’utilisateurs contributeurs. Dans le premier cas, il s’agit d’informations cohérentes, disponibles dans un modèle propre, duquel nous extrayons les informations que nous souhaitons représenter dans le modèle de la base lexicale multilingue Papillon. Dans le second cas, il s’agit d’informations parcellaires exprimées dans le modèle de la base Papillon, sous forme de modification de données existantes.

Les contributions ne peuvent donc exister que s’il existe un ensemble minimal d’informations lexicales sur lesquelles les contributeurs apporterons des modifications (ajout, correction ou suppression). Il est donc primordial d’adopter une stratégie « en largeur » qui commence par une étape d’amorçage dont le but est d’obtenir automati-

Dans le document Lexique et analyse sémantique de textes - structures, acquisitions, calculs, et jeux de mots (Page 31-97)