• Aucun résultat trouvé

Désambiguïsation lexicale de l’arabe

2.3.1 État de la langue arabe pour la désambiguïsation lexicale

Comme mentionné précédemment, l’approche de désambiguïsation lexicale exige l’existence des grandes ressources lexicales. Cependant, comme illustré dans la figure

2.3, il y a un manque crucial de corpus manuellement annotés en sens libre de droit pour la plupart des langues notamment pour l’arabe. Ce type de corpus n’existaient jusqu’à présent que pour trois langues (anglais, japonais, bulgare).

Dans ce travail, nous visons à améliorer l’état de la langue arabe au niveau de la disponibilité des corpus annotés en sens. Ainsi, nous allons fabriquer des ressources lexicales en arabe, en utilisant une méthode de traduction automatique et de transfert direct des annotations qui nous permet d’obtenir des corpus annotés en sens dans une langue disposant d’un système de traduction d’une langue source riche en corpus an-notés comme l’anglais vers une langue cible peu dotée (ici l’arabe). Pour ce faire, nous avons besoin des corpus parallèles bilingues afin de construire un système de traduction automatique, un système de désambiguïsation lexicale supervisé, ainsi qu’un corpus sémantiquement annoté de référence pour évaluer la désambiguïsation lexicale.

CHAPITRE 2. DÉSAMBIGUÏSATION LEXICALE ET LANGUES PEU DOTÉES

La plupart des langues

Ressources lexicales

Pauvre Riche

Arabe (avant mes travaux) Arabe (après mes travaux)

Anglais Allemand Japonais Beaucoup de données Peu de données Très peu de données Corpus annotés en sens

FIGURE 2.3: Ressources nécessaires à la désambiguïsation lexicale disponibles pour la langue arabe

Par ailleurs, les diacritiques manquantes dans les textes arabes est la caractéristique la plus difficile pour la désambiguïsation lexicale, car elle augmente le nombre de sens possibles d’un mot et rend la tâche de désambiguïsation plus difficile. De nombreuses publications sur la désambiguïsation lexicale de l’arabe considèrent souvent que la tâche est compliquée [Diab,2004,Elmougy et al.,2008] à cause de certaines caractéristiques de la langue arabe que nous avons exposées dans le premier chapitre.

2.3.2 Méthodes de désambiguïsation lexicales appliquées à l’arabe

La littérature sur la désambiguïsation lexicale pour la langue arabe est relativement foisonnante. Nous ne cherchons pas ici à en faire un rapport exhaustif mais à présenter les principales approches et leurs limites. Parmi les travaux proposés pour faire face au problème de la désambiguïsation lexicale de l’arabe, nous pouvons citer le travail de

Elmougy et al.[2008] qui ont utilisé un algorithme de racinisation ainsi qu’un classifieur bayésien naif afin de désambiguïser des mots non voyellés en arabe. Ils ont appliqué des étapes de prétraitement telles que la suppression des mots vides et la racinisation des mots à l’aide de l’algorithme deAl-Serhan et al.[2003]. Ils ont prédifini un ensemble de mots ambigus ainsi que les sens de chacun de ces derniers. Ils ont utilisé un dictionnaire

CHAPITRE 2. DÉSAMBIGUÏSATION LEXICALE ET LANGUES PEU DOTÉES et ont collecté l’ensemble de leurs données d’entraînement à partir du Web. Pour chaque mot ambigu ils ont recueilli 10 échantillons d’entraînement et 10 échantillons de test pour l’évaluation. En utilisant l’algorithme de racinisation ils ont amélioré la précision de 53% (de 20% sans racinisation à 73% avec racinisation).

Eid et al.[2010] ont utilisé le classifieur Rocchio pour la désambiguïsation lexicale arabe. Ils ont comparé la performance de cette méthode de classification avec d’autres algorithmes d’apprentissage supervisé tels que le sens le plus fréquent (MFS), le clas-sifieur bayésien naif (NBC) ainsi que la machine à vecteurs de support (SVM) afin de prouver son efficacité pour la désambiguïsation lexicale. Dans leur expériences, les au-teurs ont utilisé un corpus lexical (issu de la littérature) de 5 noms arabes, ayant chacun 2 ou 3 sens. Les résultats ont montré que le classificateur Rocchio a atteint un taux de précision de 88% par rapport au NBC (86%), SVM (82%) et MFS (57,5%) avec une meilleure performance en 3 mots sur 5 pris en compte.

Zouaghi et al.[2011] ont utilisé leWordNet arabe (AWN) comme ressource géné-rique. La ressource élaborée à partir d’AWN implique un sac des mots de la définition et le graphe des relations entre synsetsafin de calculer diverses mesures de similarité classiques [Lesk,1986,Resnik,2011] pour effectuer la désambiguïsation lexicale.

Dans leur travaux,Merhben et al. [2012] utilisent des corpus non annotés en sens et quelques annotations de sens du dictionnaire Lissan al arab comme ressource gé-nérique. Les annotations sont ensuite utilisées comme bootstrap pour construire la res-source élaborée sous la forme de classifieurs (algorithme Naïve Bayes, listes de déci-sions, . . . ). La ressource élaborée est ensuite utilisée pour annoter de nouvelles parties du corpus. Le processus est répété jusqu’à ce qu’aucune nouvelle partie du corpus ne soit non-annotée.

Par ailleurs,Diab[2004] a présenté et évalué une approche non supervisée de désa-mbiguïsation lexicale, nommée SALAAM (Sense Annotations Leveraging Alignments And Multilinguality). Cette méthode consiste à annoter les mots arabes avec leurs sens à partir du WordNet anglais en utilisant un corpus parallèle arabe-anglais basé sur des correspondances de traduction entre mots arabes et anglais. Ils ont crée un corpus de test, en traduisant un ensemble de corpus anglais annotés manuellement en sens avec WordNet v.1.7, vers l’arabe à l’aide des deux systèmes de traduction automatique exis-tants (Tarjim et Almisbar), en fusionnant les résultats des deux sorties des systèmes et en portant les annotations à l’aide de l’outil d’alignement Giza++ [Och and Ney,2003]. L’approche utilisé a atteint 56,9% en termes de précision, évaluée sur des mots arabes

CHAPITRE 2. DÉSAMBIGUÏSATION LEXICALE ET LANGUES PEU DOTÉES (1071 noms) annotés en sens.

Toutefois, les ensembles de données utilisés dans les travaux que nous avons ci-tés ne sont ni disponibles ni standardisés comme référence utile pour l’évaluation des systèmes de désambiguïsation lexicale arabes. Les auteurs ont testé leurs approches en utilisant leurs propres données (dictionnaire, corpus, etc.), ce qui empêche l’étude comparative entre toutes les approches. Ainsi le problème principal pour réaliser une désambiguïsation lexicale efficace pour l’arabe reste le manque de corpus annotés en sens.

2.4 Apport de la désambiguïsation lexicale en