• Aucun résultat trouvé

1.2 La Recherche d’information en langue Arabe

1.2.1 Le prétraitement des textes Arabes

1.2.1.3 Préparation de l’unité d’indexation

La langue arabe est caractérisée par sa morphologie complexe [Attia, 2008]. De ce fait, une certaine transformation morphologique permettrait de récupérer les unités de sens tels que les racines, les lemmes ou les stems. Ces unités sont indispensables dans le porcessus de recherche d’information afin de déterminer les termes d’indexation. Un document est ainsi indexé non pas par les mots qui le représentent, mais par les racines, les stems ou les lemmes de ces mots [Korfhage, 1997]. Nous distinguons, donc, des approches à savoir la lemmatisation, le stemming et la racinisation.

La lemmatisation Elle regroupe les différentes formes que peut couvrir un mot,

soit : le nom au masculin singulier et le verbe à l’infinitif. Elle consiste à identifier une forme canonique appelée « lemme » pour un mot en se basant sur son

CHAPITRE 1. RECHERCHE D’INFORMATION ET LANGUE ARABE

lyse morphologique [Al-Shammari et Lin, 2008]. Pour l’arabe, un lemmatiseur doit identifier le lemme

ÈA¯

(qAl ; « il a dit ») pour le mot

閨K

(yqwl ; « il dit »). Pour

le verbe

ɒJK

(ytSl ; « il se connecte »), son infinitif, ou encore son lemme, est le

verbe

ɒ@

(<tSl).

La racinisation La racinisation est le processus d’extraction des racines des mots

[Jait et al., 2009]. La racine d’un mot est l’ensemble des consonnes qui forment

les lettres de base de ce mot. Les racines arabes sont, dans leur grande majorité, trilitères (3 consonnes). Elles sont parfois bilitères (2 consonnes) ou quadrilitères (4 consonnes). Par exemple, un raciniseur pour l’arabe doit identifier la forme de base

I. J»

(ktb) pour les mots

I. KA¿

(kAtb ; « écrivain »),

H.AJ»

(ktAb ; « livre »),

éJ.JºÓ

(mktbh ; « bibliothèque »),

I. JºÓ

(mktb ; « bureau ») [Hammo, 2009].

Les n-grammes Certaines approches utilisent les n-grammes [Zitouni et al.,

2010], généralement trigrammes et quadrigrammes, comme unité d’indexation. Une n-gramme est une séquence de n caractères (lettres, chiffres, caractères spéciaux) du contenu textuel d’un document. Elle est généralement extraite en faisant glisser une fenêtre de taille n tout au long du texte et en prenant un échantillon à chaque étape. Par exemple, si n est égal à 3 et le mot est

I. JºÓ

(mktb ; « bureau »), alors les trigrammes extraits sont

IºÓ

(mkt) et

I. J»

(ktb).

Le stemming Le stemming de l’arabe est le processus d’enlever tous les clitiques

d’un mot pour extraire le stem [Khoja, 2001, Hammo, 2009].

Le stemming est considéré comme une étape de prétraitement dans de nom-breuses applications entre autres la recherche d’information et la traduction auto-matique.

La langue arabe a de nombreuses propriétés particulières qui affectent le stem-ming. Ce dernier dépend, à la fois, de la morphologie flexionnelle12 et

dérivation-12. La morphologie flexionnelle s’intéresse à la variation de la forme des unités lexicales selon leur catégorie morphologique. On distingue la déclinaison (i) des noms, (ii) des adjectifs et (iii) des pronoms et la conjugaison des verbes.

CHAPITRE 1. RECHERCHE D’INFORMATION ET LANGUE ARABE

nelle13 (voir chapitre 2) pour produire les diverses formes des mots de la langue. Nous donnons l’exemple du verbe

ɒJ¯

(ftSl ; « et elle arrive »), si nous enlèvons le clitique

¬

(f ), nous obtenons le stem

ɒ

(tSl) associé à la racine

ɓð

(wSl ; « il est arrivé »).

Le stemming de textes arabes est plus compliqué que le stemming de textes anglais. En anglais, le stemming est confondu avec la racinisation. En effet, le stemming en anglais consiste à supprimer tous les affixes d’un mot pour extraire sa racine. Nous adoptons, tout au long de ce rapport, la définition associée à la langue anglaise [Khoja, 2001].

Des approches de stemming tentent de trouver toutes les combinaisons possibles des préfixes et des suffixes d’un mot, puis essayent de faire correspondre le stem restant à une liste de stems possibles [Khoja et Garside, 2001].

Une autre approche de la morphologie est dite light stemming. Dans cette ap-proche, certains préfixes et suffixes d’un mot sont retirés. S’ils correspondent à des entrées dans la liste prédéfinies des préfixes et des suffixes, le stem associé est retenu sinon les lettres suivantes sont rajoutées aux préfixes et/ou suffixes et l’opération se répète. L’avantage de cette approche est qu’elle ne nécessite aucune transfor-mation morphologique et est donc efficace. Cependant, certains préfixes et suffixes incorrects sont systématiquement éliminés. Cette approche a été utilisée pour déve-lopper les stemmers arabes par Aljlayl et al. [Aljlayl et al., 2001], Darwish et Oard

[Darwish et Oard, 2002a] et Larkey et al. [Larkey et al., 2002b]. Les deux formes

dérivées couramment utilisées sont Al-Stem [Darwish et Oard, 2002a] et Umass light10 stemmer [Larkey et al., 2002b]. Plus de détails sur le stemming arabe sont donnés dans l’annexe A.

Utilisation de l’analyse morphologique pour le stemming Des analyseurs

peuvent statistiquement extraire le stem. Par exemple, Darwish a essayé de ré-soudre ce problème en développant un analyseur morphologique statistique pour l’arabe appelé Sebawai qui tente de classer les analyses possibles pour trouver le plus probable [Darwish et Oard, 2002a]. Lee et al. [Lee et al., 2003] ont développé IBM-LM, qui a adopté un modèle de langue à base de trigrammes appris sur une partie segmentée manuellement du corpus de LDC (Linguistic Data Consortium)

13. La morphologie dérivationnelle s’intéresse à la formation des unités lexicales dérivées à partir de noms et de verbes.

CHAPITRE 1. RECHERCHE D’INFORMATION ET LANGUE ARABE

«Arabic Treebank» [Maamouri et al., 2004] dont le but est d’élaborer un système de morphologie arabe qui vise à améliorer la couverture et la correction linguistique sur les analyseurs statistiques existants tels que Sebawai. L’analyseur d’IBM-LM a combiné un trigramme, pour analyser un mot dans son contexte dans la phrase, avec un filtre des préfixes et des suffixes, afin d’éliminer les combinaisons illégales de suffixes et de préfixes. Lee et al. [Lee et al., 2003] signalent un taux d’erreur de 2.9% par rapport à un taux d’erreur de 7.3% rapporté par Darwish pour Sebawai. Un autre analyseur qui pourrait être utile pour la recherche d’information est MADA (Morphological Analysis and Disambiguation for Arabic) [Habash et

Ram-bow, 2005] qui a été évolué à MADAMIRA [Pasha et al., 2014]. MADA est un

étiqueteur morphologique qui a été largement utilisé pour le traitement de l’arabe dans le cadre de la traduction automatique [Habash et Rambow, 2005]. Une étude détaillée des analyseurs morphologiques est présentée dans le chapitre 2.

Discussion L’utilisation de la lemmatisation ou le stemming, dans la recherche

d’information, est problématique. Le stemming et la lemmatisation partagent un objectif commun qui consiste à réduire un mot à sa base. Selon [Al-Shammari et

Lin, 2008], la lemmatisation est plus robuste que le stemming car elle implique

souvent l’utilisation du vocabulaire et d’un analyseur morphologique.

Dans la recherche d’information, le stemming permet de minimiser la taille de l’index. Il a l’avantage de réduire les exigences de stockage en éliminant les mots redondants. Cela conduit à l’amélioration des résultats par l’augmentation de la probabilité de correspondance entre les termes ayant le même stem lors de l’ap-pariement [Al-Shammari et Lin, 2008]. L’utilisation des stems comme termes d’in-dexation constitue une question controversée. Selon les études faites par [Eldesouki

et al., 2009], l’utilisation des stems, en termes d’index, surpassent les lemmes. Le

stemming (voir Annexe A) utilise des heuristiques morphologiques afin d’enlever les affixes des mots et le coût de ce traitement est relativement faible. Pour ces raisons, le stemming est considéré important pour beaucoup de domaines dans le traitement du langage naturel tels que la recherche d’information, l’extraction de connaissances, la classification, le clustering et la reconnaissance automatique de la parole.

Un problème, qui peut affecter le stemming et engendrer une modification du sens de la requête, est lié aux adjectifs et aux noms masculins. Ces derniers peuvent souvent être fléchis dans leurs formes féminines en ajoutant le suffixe

è

(p). Les mots «

QJ.»

» (kbyr) et «

èQJ.»

» (kbyrp) représentent, respectivement, les adjectifs

mas-culins et féminins de l’adjectif «grand». La forme féminine est obtenue en ajoutant le suffixe

è

(p). Ce cas est considéré régulier contrairement aux deux mots «

I. JºÓ

CHAPITRE 1. RECHERCHE D’INFORMATION ET LANGUE ARABE

» et «

éJ. JºÓ

» qui signifient, respectivement, «bureau» et «bibliothèque». Pour ces termes irréguliers, l’ajout du même suffixe modifie complètement le sens du mot. En conséquence, une phase de désambiguïsation est nécessaire afin de distinguier la bonne valeur d’une fonction morphologique. Ainsi, le stem sélectionné est associé à cette valeur.

1.2.2 Comparaison des systèmes de recherche