• Aucun résultat trouvé

Adaptation d’un système de recherche d’information multilingue pour le traitement de l’arabe

N/A
N/A
Protected

Academic year: 2022

Partager "Adaptation d’un système de recherche d’information multilingue pour le traitement de l’arabe"

Copied!
11
0
0

Texte intégral

(1)

Adaptation d’un système de recherche d’information multilingue pour le traitement de

l’arabe

LAIB, M., SEMMAR, N.

GARA, F., FLUHR, C.

GREFENSTETTE, G.

CEA, LIST, France 1. Introduction

Le nombre des documents multilingues mis en ligne va en croissant. Pour pouvoir structurer cette masse de données hétérogènes, les systèmes de recherche d’information s’orientent de plus en plus vers le multilinguisme et tentent de traiter le plus de langues possible, le but étant de pouvoir toutes les traiter un jour.

Pour un système de recherche d’information en langage naturel, chaque nouvelle langue représente un défi à relever, plus particulièrement lorsque celle-ci appartient à une famille de langues différentes de celles pour lesquelles le système a été conçu initialement.

Depuis quelques années, le LIC2M (Laboratoire d’Ingénierie de la Connaissance Multilingue Multimédia) a développé un système de recherche d’information multilingue en langage naturel. Ce système traite 9 langues (français, anglais, allemand, espagnole, italien, russe, arabe, chinois et japonais en cours) pour lesquelles

(2)

les concepteurs tentent sans cesse d’améliorer les performances en qualité et en temps de traitement.

Dans cet article, nous allons tenter d’expliquer comment le système du LIC2M, développé au départ pour des langues européennes, a été adapté pour traiter une langue sémitique telle que l’arabe. Notre système étant conçu selon un modèle modulaire, il est relativement facile d’y intégrer une nouvelle langue. Les seules difficultés restent celles relatives à la structure de la langue elle-même (structure grammaticale et lexicale) et de sa parenté ou non par rapport aux autres langues déjà traitées par le système.

Nous allons donc, dans un premier temps, expliquer les différentes étapes du traitement linguistique concernant les modules génériques. Nous détaillerons, dans un deuxième temps, le fonctionnement des modules qui ont été conçus spécifiquement pour traiter la structure linguistique propre à l’arabe. Nous expliquerons, par la suite, dans quelle mesure ces modules sont ou seront susceptibles d’être réutilisés pour faciliter l’intégration d’autres langues sémitiques ou non. Nous exposerons enfin l’exemple du projet ALMA européen dans lequel le traitement de l’arabe a été testé (version consultable en ligne).

(3)

2. Architecture du système de RI développé au LIC2M

Le système de RI développé au LIC2M est un système modulaire paramétrable pour traiter plusieurs langues. La requête et les documents indexés subissent une analyse linguistique fine qui permet une indexation, une reformulation et une interrogation monolingue et mulilingue.

Figure 1: Architecture du système de recherche d’informaion crosslingue du LIC2M

Linguistic analysis

Comparator Statistic analysis

Queries

Reformulation Document

Documents grouped in relevance ranked

classes General Dictionaries

Reformulati on Dictionaries Users

Search Engine Database (Indexed Documents)

Analyse morphologique

(4)

3. L’analyse linguistique :

Il s’agit d’une étape fondamentale du système. Les modules qui permettent de faire le traitement linguistique ont tous été développés au départ pour analyser des langues européennes telles que le français et l’anglais.

Pour permettre au système de traiter une langue comme l’arabe, nous avons développé un HperWordStemmer capable de traiter les mots agglutinés de l’arabe.

« ﺮﺋاﺰﺠﻟا ﻲﻓ ﻲﻧوﺮﺘﻜﻟﻹا ﻞﻘﻌﻠﻟ ﻢﮭﻟﺎﻤﻌﺘﺳﻹ»

Reconnaissance des entités nommées Analyse morhologique

Analyse syntaxique

HyperWordStemmer Tokenisation

(5)

3.1 L’analyse morphologique

Elle se déroule selon les étapes suivantes :

- La tokenisation permet de séparer les textes en entrée en mots (unités minimale traiter par la suite).

- La recherche dans le dictionnaire ‘full form’ tente de récupérer les informations linguistiques (lorsqu’elles existent) pour chaque mot repéré dans le texte.

- La recherche des alternatives orthographiques sert à récupérer les accentuations des mots mal orthographiés et les voyelles pour les mots en arabe.

- La reconnaissance des expressions idiomatiques 3.2 L’analyse syntaxique qui consiste à reconnaître les relations de dépendance entre les mots et ente les syntagmes.

3.3 La reconnaître des entités nommées pour les noms de lieux, de personnes, de mesures, …

3.4 La recherche d’information: une fois l’indexe des documents constitué, la requête est reformulée, ce qui permet une interrogation monolingue et crosslingue des documents.

Notre système a été développé au départ pour des langues européennes telles que le français, l’anglais, l’allemand, l’espagnol, … L’ajout de l’arabe a nécessité un certain nombre d’adapations.

4.L’adaptation du système pour le traitement de l’arabe

Les changements apportés au système ont concerné essentiellement deux parties : les ressources lexicales et l’HperWordStemmer.

(6)

4.1 Les ressources lexicales

- Les entrées lexicale dans le dictionnaire arabe sont toutes voyellées et à chaque entrée voyellée correspond une entrée non voyellée

- Le système est doté de dictionnaires de proclitiques et d’enclitiquess.

4.2 L’HyperWordStemmer

Ce module a été développé pour traiter le phénomène de l’agglutination. Chaque mots non trouvé dans le dictionnaire des formes subit un traitement pour séparer les enclitiques et proclitiques pour récupérer la forme originale du mot. Lorsque cette forme a été altérée par les ajouts des proclitiques et des enclitiques, le système est capable de récupérer la forme d’origine.

ﻢﮭﺗﺮﻜﺑ (avec leur ballon) ﻢھ +تﺮﻛ + ب

ت  ة

تﺮﻛ  ةﺮﻛ

ﻢھاﻮھوو + ىﻮھ + ﻢھ ﺎﻤﮭﯿﻓﻲﻓ + ﺎﻤھ

(7)

5. Application : le prototype ALMA URL : http://alma.oieau.fr/alma

Ce prototype a été développé lors du projet ALMA en 2004, il est consultable en ligne. La base est constituée de 50 documents en relation avec le traitement et la gestion des ressources en eau …

Figure 2: Requête en langage naturelle

(8)
(9)

Figure 2: documents pertinents retournés en réponse

(10)

Figure 2: visualisation du résultat dans un document pertinent

(11)

6. Conclusion et perspectives

- Réutilisabilité: appliquer la méthode de segmentation de l’arabe sur d’autres langues (espagnol, italien, hongrois, hébreu,…)

- Améliorer les ressources linguistiques de l’arabe : dictionnaire de reformulation monolingue pour augmenter le rappel

- Ajouter un traitement sémantique pour améliorer la précision

Références

Documents relatifs

Dans ce modeste travail, nous proposons la réalisation d’une interface utilisateur qui emploi un analyseur morphologique pour récupérer les formes de base des mots arabe

Dès que les données sont chargées dans syngo.via, le panneau Series les trie par groupes de points temporels par « Actuel » / « Précédent » / « Suivant » en fonction de la

Aucune partie de cette publication ne peut être reproduite sous quelque forme que ce soit, par quelque moyen que ce soit, sans l'autorisation de INFINITT Healthcare Co., Ltd..

XD.WS affiche par défaut pour les radiographies ses mesures avec la calibration réelle ImagerPixelSpacing (0018,1164) alors que l'utilisateur s'attend à la calibration

Cependant, cet adaptateur n’était pas utilisé sur l’ordinateur existant, car la carte vidéo de l’ordinateur contenait un port DVI et un câble DVI

Entre la fin des années 1990 et la fin des années 2000, l’économie mondiale a connu une période de prospérité, malgré la crise de mars 2000 (aussi appelée bulle internet) et les

Ce projet a fait l’objet d’un projet « supplémentaire » avec des volontaires hors temps scolaire en plus des cours, TD et projets des BTS Bâtiment 2 ème année auxquels

C'est pourquoi quand il se place au plan de la gestion, le banquier a beaucoup plus le sentiment de jouer un rôle d'intermédiaire que d'exercer un pouvoir de création