• Aucun résultat trouvé

Génération de dictionnaire à partir de Wordnet

Dans le document Modélisation sémantique et indexation (Page 102-108)

Plusieurs ressources linguistiques ont été constituées à partir de WordNet (voir la section 4.3.2.3). Des programmes issus du monde de l’Intelligence Artificielle ont également établi des passerelles avec WordNet.

Nous abordons cette section par la définition de dictionnaire multilingue ainsi la matrice lexicale. Nous présentons ensuite les étapes de création d’une base lexicale à partir de WordNet (intersection des synonymes, correspondance des mots, correspondance sémantique).

Qu’est-ce qu’un dictionnaire multilingue

Un dictionnaire multilingue est un dictionnaire dans lequel des expressions dans une langue (dite langue source ou départ) sont traduites dans une autre langue (dite langue cible ou d’arrivée). Dans notre approche un dictionnaire est une base lexicale contenant l'ensemble des mots de la langue arabe avec ses sens expliqués dans la langue anglaise (voir la figure 6.5).

Chapitre 6 ACARWSD : Notre approche proposée

89 Mots Translitération Sens

روحس suhu : r Light meal taken before starting a new day of

Ramadan

راطفإ ifta : r Meal at the end of daily fasting during Ramadan

عفدم راطفإ

Midfa’ ifta : r Gun announcing the end of daily fasting during Ramadan

ةرمع Umra Visit to the holy shrines in Mecca and Medina

out of the time of pilgrimage

Figure 6-5 Mots arabes avec ses sens en anglais La matrice lexicale multilingue

Le réseau multilingue WordNet a été construit en langue anglaise ensuite il a été réutilisée facilement par des langues latines (français, italien,…) car il y a beaucoup de similarités entre elles. Mais son réutilisation reste difficile pour les autres langues comme (Arabe, chinois, japonais,…).

La création de la matrice lexicale multilingue à partir du réseau WordNet est inspirée de travail de Magnini et al (Magnini, Strapparava, Ciravegna, & Pianta, 1994). Cette matrice est considérée comme une matrice lexicale bidimensionnelle implémentée dans Wordnet. En ajoutant une troisième dimension à la matrice qui représente une autre langue (la langue arabe dans notre cas) La figure 6.6 montre les trois dimensions de la matrice :

 Les mots sont représentés par Wi  Les sens sont représentés par Mi  Les langues sont représentées par Lk

En outre les relations principales (lexicales et sémantiques) sont montrées dans la section précédente (voir figure 6.3).

Chapitre 6 ACARWSD : Notre approche proposée

90 Pour développer la matrice multilingue, il est nécessaire de correspondre le lexique de la langue et le sens Mi, en criant un ensemble de synset pour l’arabe.

Le résultat est une redéfinition des relations lexicales notamment les relations sémantiques. Dans ce cas la dimension des sens est considérée constante par rapport aux langues et des mots de chaque langue.

Figure 6-6 La matrice lexicale multilingue (Magnini et al., 1994)

Création automatique de la base de connaissances lexicales

La tâche principale pour créer la base de connaissance lexicale basée sur Wordnet est de trouver une correspondance correcte entre les mots arabes et les synsets définis en anglais.

La création automatique de base de connaissance lexicale pose deux problèmes principaux :

 L’extraction des informations des mots arabes à partir des sources disponibles ;

Chapitre 6 ACARWSD : Notre approche proposée

91  La correspondance entre les mots arabes et ceux de l’anglais.

Pour résoudre le premier problème, on a utilisé WordNet Arabe et un dictionnaire de la langue arabe en format électronique comme (برعلاناسل, طيحملا).

Pour le deuxième problème, on a réalisé trois niveaux :

- Le premier niveau ne fonctionne que sur synset de WordNet et dans ce cas le programme cherche à trouver l’équivalence entre les mots arabe et anglais ; - Tandis que le deuxième niveau est consacré à la comparaison des définitions

extraites d’un dictionnaire et les gloses de Wordnet en utilisant des méthodes statistiques ;

- Les techniques de traitement automatiques de la langue sont utilisées dans le troisième niveau pour faire la comparaison.

Les sections suivantes expliquent la procédure et l’algorithme de chaque niveau. Intersection des synonymes

A ce niveau l’intersection des synonymes des mots des deux langues est considérable. L’idée est d’exploiter les sources d’information suivantes :

a. Synset anglais est ses relations avec taxonomie Wordnet ; b. Un dictionnaire bilingue pour les deux langues ;

c. Un dictionnaire pour les synonymes de la langue arabe.

L’algorithme est conçu pour obtenir le synset des mots arabes avec des sens comparable à celles de l’anglais comme dans l’exemple suivant :

Synset WordNet = {registration, enrollment}

La traduction en arabe est prise de deux mots de synset : Registration : 1. ،نيودتُ،قيثوتُ،ليجست

Enrollment : 1.ُُ،ليجستُ 2. ُُدادعإُ،جاردإ

Avec une simple intersection des ensembles des mots arabes, nous pouvons déduire que Registration [1] et Enrollment [1] ont la même signification ; nous constatons que la Synset arabes = {ليجست} correspond à celle en anglais {Registration, Enrollment}. Dans les cas plus complexes, il peut être nécessaire d'utiliser le dictionnaire des

Chapitre 6 ACARWSD : Notre approche proposée

92 synonymes arabe pour définir correctement la correspondance entre les différents sens d'un seul mot.

Correspondance des mots

A ce niveau la correspondance faite par la comparaison entre les gloses Wordnet et les définitions de dictionnaire arabe. L’algorithme de similarité entre les définitions est basé sur une méthode statistique de présence des mots communs dans les deux définitions. Cependant ; il existe une complication supplémentaire : les définitions sont données en deux langues différentes, en utilisant correctement les données de WordNet (synset, mots, concept,…).

Correspondance sémantique

Avec cette méthode, il est nécessaire d’extraire les informations sémantiques pour les définitions de dictionnaire et les gloses de Wordnet. La tâche pour les gloses est simple car les vocabulaires utilisés sont limitées (environs 70000 racines) et la construction syntaxique est simple. Un autre niveau d’analyse consiste à faire une analyse syntaxique superficielle des définitions pour une représentation sémantique simple. Pour ce type d’analyse, on utilise seulement les données de catégorie syntaxique des mots et le type de sous-catégorie des verbes disponible dans le dictionnaire papier. L’algorithme doit établir un degré de similarité entre les deux formes, qui contient les données dérivées respectivement de l’arabe et de l’anglais.

Chapitre 6 ACARWSD : Notre approche proposée 93 Dictionnaire arabe Wordnet anglais Wordnet Arabe Correspondance en anglais Correspondance en Arabe Intersection des synonymes Correspondance des mots Correspondance sémantique Intersection des synonymes Correspondance des mots Correspondance sémantique

Base lexicale arabe

Chapitre 6 ACARWSD : Notre approche proposée

94

Dans le document Modélisation sémantique et indexation (Page 102-108)