• Aucun résultat trouvé

2.3 La désambiguïsation morphologique

2.3.1 Les approches à base de règles

2.3.3 Les approches hybrides . . . 53 2.3.4 Discussion . . . 54

Conclusion . . . . 55

Introduction

De nombreuses applications dans le domaine du traitement automatique de la langue arabe doivent faire face à la morphologie complexe de cette langue. L’analyse morphologique est une étape importante dans la reconnaissance automatique de la parole [Diehl et al., 2012, Kirchhoff et al., 2006], la phonétisation des textes arabes [El-Imam, 2004] et le résumé automatique [Azmi et Al-Thanyyan, 2012]. En outre, les applications de recherche d’information doivent indexer les documents et extraire des caractéristiques pertinentes de leurs entités significatives [Bounhas

CHAPITRE 2. ANALYSE ET DÉSAMBIGUÏSATION MORPHOLOGIQUE DE TEXTES ARABES

et al., 2011b]. En effet, les Systèmes de Recherche d’Information et d’Extraction des

Connaissances (SRIEC) exigent la reconnaissance des entités utiles dans les textes telles que les mots, les expressions et les concepts. Le niveau basique concerne la structure des mots ; en d’autres termes le niveau morphologique. En effet, un mot donné peut avoir plusieurs interprétations morphologiques, ce qui le rend ambigu. Pa exemple, le mot

É¿ @

peut-être interprété comme un nom qui signifie « la nour-riture » (

É¿

@

; >ak°luN ) et comme un verbe qui signifie « manger » (

É ¿

@

; >akala). Ce phénomène représente un défi pour les langues morphologiquement riches telles que l’arabe [Diab et al., 2004]. Ainsi, un mot arabe non voyellé peut avoir plus de 12 interprétations [Habash et Rambow, 2007, Habash et al., 2009b]. Nous présentons, dans ce chapitre, les spécificités de la langue arabe, les différentes ap-proches d’analyse morphologique et les sources d’ambiguité de cette langue, ainsi que les différentes approches existantes pour la désambiguïsation morphologique.

2.1 L’analyse morphologique arabe

La morphologie est le domaine qui étudie la façon dont les plus petites unités porteuses de sens, appelées morphèmes1, se combinent pour former des lemmes qui sont les unités autonomes constituantes du lexique d’une langue. Le système de la morphologie a été écrit afin de soutenir les outils de TALN tels que les analyseurs et les systèmes de recherche d’information.

L’analyse morphologique ne fait que mettre à jour les diverses voyellations po-tentielles des mots d’un texte et interpréter la structure du mot. Un analyseur morphologique peut toutefois être utilisé pour afficher l’ensemble des formes des verbes en arabe. Il peut également afficher plusieurs formes si l’utilisateur choisit de spécifier non seulement la racine mais d’autres attributs morphologiques comme le genre, le nombre et le mode. Un analyseur affiche toutes les valeurs possibles de ces attributs. Il peut analyser toute forme d’un mot qui lui est donnée avec un certain taux de couverture.

2.1.1 La morphologie arabe

L’écriture arabe utilise un ensemble de lettres qu’on obtient à l’aide de formes et de marques. L’écriture arabe englobe les consonnes et également les voyelles longues «

@

», «

ø

» et «

ð

». L’orthographe arabe est la plupart du temps phonémique. Elle utilise les signes diacritiques ou encore les voyelles courtes. Leur utilisation est facultative hormis quelques genres de textes comme le Coran et les livres éducatifs. Leur ajout aide à mieux comprendre un mot ayant une même forme morphologique

CHAPITRE 2. ANALYSE ET DÉSAMBIGUÏSATION MORPHOLOGIQUE DE TEXTES ARABES

et plusieurs significations. Nous notons les signes diacritiques suivants sur la lettre «

@

» : «

@

», «

@

», «

@

», «

@

», «

@

» et «

@

». Ces trois derniers symboles sont nommés

nounation. Ils sont utilisés pour marquer le redoublement du signe de la voyelle. Un autre signe diacritique «

@

» -appelé « sukun »- est utilisé pour indiquer l’absence de voyelles. Le signe «

P

» sur la lettre «

P

» -appelé « chadda »- est utilisé pour marquer la fusion de deux consonnes.

Les mots arabes sont classés en trois principaux types ou catégories à savoir les noms, les verbes et les particules (voir [Mesfar, 2008] pour plus de détails). Les particules sont des mots de connexion tels que des prépositions et des pronoms. Les noms arabes comprennent des adjectifs et des adverbes. Les verbes sont dérivés d’un ensemble fermé d’environ 10.000 racines [Darwish, 2014] qui constituent des unités linguistiques composées de trois ou quatre lettres [Darwish, 2003]. Les noms et les verbes arabes sont dérivés des racines en appliquant des modèles à ces racines pour générer des lemmes. Appliquer des modèles souvent implique l’introduction des infixes ou la suppression ou la substitution de quelques lettres de la racine.

Un mot arabe peut être graphiquement décomposable ou non-décomposable en proclitique(s)2, préfixe(s), lemme, suffixe(s) et enclitique(s)3. Le mot non-décomposable peut être un nombre ou un nom d’un pays par exemple. Les préfixes sont situés au début du mot. Le nombre de lettres formant un préfixe dans un mot varie entre 0 et 3. Les lettres, constituant un infixe donné, possèdent une position bien déterminée entre celles de la racine pour constituer le lemme du mot.

Les suffixes sont situés toujours à la fin du mot. Comme dans le cas d’un préfixe, le nombre de lettres formant un suffixe dans un mot varie entre 0 et 3.

Un mot décomposable appartient à la langue arabe si sa combinaison affixale -préfixe, infixe, suffixe- est cohérente.

Les proclitiques et les enclitiques s’attachent au stem et forment le mot entier. Un proclitique peut être composé d’une seule lettre ou de plusieurs lettres et précéde le préfixe. Il peut être une conjonction de coordination ou une préposition.

Un enclitique suit le suffixe et est composé d’une ou plusieurs lettres.

Comme un exemple illustratif, nous donnons le mot

Aî EñÊ¿ AJ‚¯

(et ils vont la manger ; fsy>klwnhA), les lettres

¯

(fs) sont les proclitiques,

ø

(y) est le préfixe,

2. Le proclitique est un clitique qui apparaît au début d’un mot ou d’un syntagme [Fehri, 1993].

CHAPITRE 2. ANALYSE ET DÉSAMBIGUÏSATION MORPHOLOGIQUE DE TEXTES ARABES

É¿ @

(>kl) est le lemme,

àð

(wn) sont les suffixes et

(hA) représente un enclitique. La morphologie arabe est constituée de deux grandes catégories (i) la morpho-logie dérivationnelle et (ii) la morphomorpho-logie flexionnelle.

2.1.1.1 La morphologie dérivationnelle

A partir d’un mot arabe, de nouvelles primitives morphologiques peuvent être construites en suivant des règles de dérivation appropriées. La morphologie dériva-tionnelle s’intéresse à l’identification de ces formes dérivées à partir des noms ou des verbes. Nous illustrons, dans le tableau 2.1, les types de dérivation des noms et des verbes à travers quelques exemples. Plus de détails sont donnés dans [Herbin,

2003].

Type de dérivation Description Exemples

Le nom verbal C’est un nom qui a la même racine que le verbe auquel il est associé et le même contenu sémantique. Tout verbe a un ou

plusieurs noms verbaux (PY’Ó Õæ…@ )

Le verbe 

ÈX (indiquer) a les noms verbaux 

ÉJË X eté

ËB X(indication) Le participe actif C’est un nom associé à tout verbe d’action. Il désigne l’agent

du verbe (É«A¯ Õæ…@ ) Le participe actif du verbeI . J

» (écrire) estI

. K A ¿(écrivain) Le participe passif C’est un nom associé à tout verbe transitif d’action. Il

désigne le nom qui subit l’action (Èñª®Ó Õæ…@ ) Le participe actif du verbeI . J

» (écrire) estH.ñJº Ó(écrit) Le nom de lieu

C’est le nom qui désigne le lieu où le verbe est produit (Õæ…@ àA¾Ó)

Le nom de lieu du verbeI . J

»(écrire) est 

é J. JºÓ (librairie) Le nom de temps C’est le nom qui désigne le moment quand le verbe est

produit ( àAÓ P Õæ…@ ) Le nom de temps du verbeH. Q « (se coucher) est 

H.Q  ª Ó(moment du coucher de soleil) Le nom d’instrument C’est le nom qui désigne l’instrument utilisé pour produire le

verbe (éË

@ Õæ…@ ) Le nom d’instrument du verbe iJ  ¯ (ouvrir) esthA J

®Ó (une clé) Le diminutif et l’augmentatif Il dérive des adjectifs et des substantifs. Le diminutif sert à

dévaloriser ou diminuer la signification du nom primitif (Õæ…@ Q ª’) quant à l’augmentatif sert à donner plus de force à la

signification du mot primitif (QJ.ºK Õæ…@ )

Le diminutif du nom®’ « (oiseau) estQ ® J ’« (petit oiseau) Table 2.1 – Les types de dérivation des mots arabes

2.1.1.2 La morphologie flexionnelle

L’arabe est une langue flexionnelle qui utilise, pour la conjugaison du verbe et la déclinaison du nom, des indices de mode, d’aspect, de temps, de cas, de personne, de nombre et de genre qui constituent, généralement, des suffixes et préfixes. Nous

CHAPITRE 2. ANALYSE ET DÉSAMBIGUÏSATION MORPHOLOGIQUE DE TEXTES ARABES

présentons, à travers le tableau 2.2, des exemples qui illustrent la flexion des verbes et des noms dans la langue arabe.

Type de flexion Détails Exemples

Déclinaison du nom au singulier

Déclinaison à trois cas (accustatif, génitif et nominatif)

Le mot† P ð (waraq - papier) produitA¯ P ð en accusatif indéfini

Déclinaison des diptotesB

L’adjectif féminin du mot Q®  “

@(asfar - jaune) devient Z@ Q® “

Déclinaison des cinq nomsBB

Le motÕ¯ (famuN - bouche) peut se décliner de plusieurs façons : ñ¯ ou Õ¯ ou Õ¯ ouA ¯ou ú ¯ ouÕ ¯

Déclinaison de déverbaux de racines défectueuses

La forme du nom verbal

A ¯(qA.diN -avocat) est transformée enú

æ • A 

¯par l’ajout de la lettreøà la fin de la forme initiale. Déclinaison du nom au duel Le duel désigne deux choses ou deux

personnes

Le mot é¢ ® 

(mi.hfa.zaTuN - cartable) prend la forme A àJ ¢

®m× au nominatif et la forme á J¢

®m× à l’accusatif et génitif.

Déclinaison du nom au pluriel Les pluriels externes ou réguliers

On rajoute les deux lettres áKou àðouH@ tout dépend de la position du mot dans la

phrase.

- Le mot masculinÕ΂Ó(mslm - musulman) devient àñÒʂÓou áÒʂÓ

- Le mot féminin 

éJ.JºÓ(mktabatuN - librairie) devientHAJ. JºÓ

Les pluriels internesBBB

Le motÑîD…(sahm - flèche) possède deux formes pluriellesÑîD… @etÐAîD…

Flexion des verbes

Les verbes à l’accompli (ú

æ •AÖÏ@- passé)

Le verbeI

.ë X (_dahaba - aller) devient, par exemple,@ñ J.ë X (ils sont parties) au pluriel masculin et á.ë X (elles sont parties) au pluriel

féminin

Les verbes à l’inaccompli (¨PA ’ÖÏ@ -présent)

Le verbeI

. ë X (_dahaba - aller) devientI .ë X @ (je vais),I . ë Y K (nous allons), àñ J.ë Y K (vous allez au masculin), á.ë  YK (vous allez au féminin), A à J. ëY K (ils vont au duel masculin), à

A J. ëY K(elles vont au duel féminin), àñ J.ë 

Y K(ils vont au pluriel masculin) et á.

ë

Y K(elles vont au pluriel féminin)

Les verbes à l’impératif (QÓB@ ) Le verbe

I. ë X (_dahaba - aller) devientI .ë 

X@ (va)

B Les diptotes sont les noms et les adjectifs qui ne portent pas de doubles voyelles de fin de mot –

¬Qå”Ë@ áÓ ¨ñ JÒÖÏ@

BB Les cinq noms sontp @- Frère,H. @- Père,Ñk- Beau-père,ðX - Possesseur etÕ¯ - Bouche. BBB Les pluriels internes sont dits aussi brisés à la suite de certaines modifications nécessaires par rapport à la forme du mot au singulier.

CHAPITRE 2. ANALYSE ET DÉSAMBIGUÏSATION MORPHOLOGIQUE DE TEXTES ARABES

2.1.2 Les analyseurs morphologiques

Nous nous impliquons dans les problèmes de morphologie pour trouver les stems et les lemmes afin de rechercher l’information et l’analyser. Pour chaque mot, un analyseur morphologique identifie les différentes valeurs possibles des attributs mor-phologiques. Il existe actuellement plusieurs analyseurs morphologiques arabes tels que Morph2 [Kammoun et al., 2010]. Cependant, nous nous limitons, dans les pa-ragraphes suivants, aux outils les plus cités dans la littérature.

2.1.2.1 L’analyseur Sebawai

Cet analyseur, appelé Sebawai a été créé par Darwish en 2002 [Darwish, 2002]. Il est probablement le premier analyseur multiplateforme librement disponible pour l’arabe. La méthode de cet analyseur est basée sur des statistiques sur les paires mot-racine pour (i) construire des règles morphologiques sur la dérivation des mots à partir de racines, (ii) construire une liste de préfixes et de suffixes et (iii) estimer la probabilité qu’une règle soit utilisée ou qu’un préfixe ou un suffixe soit rencontré. Ce système ne construit pas manuellement les listes des règles et des affixes. Il remplace le traitement manuel par le traitement automatique. Le système possède deux principaux modules. Le premier utilise une liste de paires racine-mot arabes pour extraire une liste de préfixes et de suffixes et calculer la probabilité qu’un préfixe, un suffixe, ou une racine apparait. Le deuxième admet des mots arabes en entrée et essaie de construire la combinaison préfixes-suffixes-schème4 possible et détermine la liste des racines possibles. Le premier module peut avoir la liste des paires manuellement ou à l’aide d’un autre analyseur existant.

Pour le mot «

áîE.AJºK.

», le système génère le préfixe «

H.

» et le suffixe «

áë

» et

le schème «(

ÈAª¯

–CCAC)» [Darwish, 2002] correspondant au lemme «

H.AJ»

». Par la suite, les listes de préfixes, de suffixes et de schèmes sont parcourues pour assigner des probabilités aux éléments dans les listes en divisant l’occurrence de chaque élément dans chaque liste par le nombre total de mots. Les probabilités étant calculées sont données pour les affixes S1 et S2 et le schème T comme suit :

– P(le mot commence par S1, S1 est un préfixe) : la probabilité que le mot commence par l’affixe S1 et S1 est un préfixe.

4. Un schème ou patron est la partie du mot complémentaire à la racine

ɪ¯

(fEl) présentée par les lettres CCC. Par exemple, la racine

É¿ @

(manger) associée au schème

Èñª®Ó

(mCCwC) donne le mot

Èñ»

(est mangé).

CHAPITRE 2. ANALYSE ET DÉSAMBIGUÏSATION MORPHOLOGIQUE DE TEXTES ARABES

– P(le mot se termine par S2, S2 est un suffixe) : la probabilité que le mot se termine par l’affixe S1 et S1 est un suffixe.

– P(T est un schème) : la probabilité que T soit un schème.

Une autre façon de calculer le potentiel de probabilités de préfixes et de suffixes est d’utiliser les probabilités conditionnelles que l’élément qui apparait dans le mot est soit, en fait, un préfixe ou un suffixe. Par exemple, si la lettre

ð

(w) est apparue comme la première lettre du mot 100 fois, 70 fois dont elle a été un préfixe, alors la probabilité serait 0,70. Les probabilités deviennent : P(S1 est un préfixe | le mot commence par S1) et P(S2 est un suffixe | le mot se termine par S2).

Les lemmes de Sebawai sont légèrement différents des standards. Les standards peuvent avoir des lettres contenues au milieu et au début. Par exemple, le schème

Èñª®Ó

«mCCwC» a la lettre «

Ð

» placée au début et «

ð

» au milieu. Pour Sebawai, le schème «

Èñª®Ó

» possède «

Ð

» comme préfixe et le lemme est «

Èñª¯

» (CCwC). Le deuxième module génère les triplets préfixe-suffixe-schème et les racines possibles. Les combinaisons sont détectées en éliminant les préfixes et les suffixes et en essayant d’associer les lemmes produits avec un schème.

2.1.2.2 L’analyseur Xerox5

Xerox est basé sur la technologie des automates à états finis [Beesley et

Kart-tunen, 2003]. Cet outil est à la fois un système d’analyse et de génération. En effet,

il est capable de générer les mots possibles à partir d’une racine en utilisant des schèmes. Il adopte, donc, l’approche de racine-schème. Il inclut 4930 racines et 400 schèmes et produit efficacement 90000 stems. Il est basé sur les règles et possède une large couverture. Il ajoute aussi les voyelles et fournit une traduction anglaise pour chaque mot. Il inclut des mots de l’arabe classique et manque des spécifications grammaticales et lexicales comme

A JÊ¿ A K

(nous nous mangeons ; n>klnA) : c’est un cas extrême qui viole la règle syntaxique qui dit qu’un pronom ne doit pas être attaché à son domaine.

Egalement, Xerox surgénére des mots dérivés. En fait, la distribution de schèmes pour des racines n’est pas égale et bien que chaque racine fût codée à la main dans le système pour choisir parmi les 400 schèmes, la tâche est tout naturellement ennuyeuse et mène à des erreurs [Attia, 2008].

CHAPITRE 2. ANALYSE ET DÉSAMBIGUÏSATION MORPHOLOGIQUE DE TEXTES ARABES

2.1.2.3 L’analyseur de Buckwalter6

L’analyseur de Buckwalter est conçu comme une base de données de formes de mots. Chaque forme de mot est entrée séparément. Le stem est considéré comme la forme de base. Cet analyseur est moins ambigu que Xerox et contient 38600 lemmes

[Attia, 2008].

L’analyseur de Buckwalter est appelé BAMA et est amélioré en une version appelée SAMA7. L’ensemble de mots que cette dernière version est capable d’ana-lyser est plus cohérent que celui des anciennes versions. En outre, Le nombre de solutions proposées, suite à l’analyse d’un mot, a augmenté de façon significative

[Shah et al., 2010].

Le code source de cet analyseur est nommé « AraMorph ». Il est livré avec trois dictionnaires (i) le dictionnaire des préfixes qui contient les préfixes qui peuvent être ajoutés lors de la flexion et les proclitiques ; (ii) le dictionnaire des suffixes qui englobe les suffixes qui peuvent être ajoutés lors de la flexion et les enclitiques ; et, (iii) le dictionnaire des lemmes qui stocke des lexèmes8qui ne contiennent ni préfixes ni suffixes. Pour chaque lexème, le dictionnaire énumère les lemmes possibles, leurs catégories grammaticales et leurs traductions en anglais. Cet analyseur définit des tables de compatibilité entre (i) préfixes et lemmes ou stems ; (ii) préfixes et suffixes ; et, (iii) lemmes et suffixes. Il englobe environ 135 catégories9attribuées aux préfixes, suffixes et lemmes [Bounhas, 2012].

Cet analyseur a quelques limites qui peuvent être résumées par :

– L’analyseur de Buckwalter n’est pas basé sur des règles. Toutes les formes de mots sont entrées manuellement.

– Quelques lettres peuvent précéder un mot ou un verbe et ne sont pas encore couvertes, comme

Èñ¯ @ @

(est-ce que je dis ? ; >>qwl).

– On ne peut pas spécifier les formes impératives. Quelques mots n’ont pas de formes impératives comme

ÈðAg

(essayer ; HAwl).

– On ne peut pas spécifier quelques formes passives ; sur 9198 verbes seuls 1404 sont autorisés à avoir une forme passive. D’autres verbes fréquents n’ont pas de formes passives au passé.

– Quelques clitiques se confondent avec des prépositions.

– Cet analyseur applique des règles linguistiques quand les clitiques se com-binent avec des mots. Par exemple, quand la préposition précède un nom, le

6. http://www.ling.ohio-state.edu/~jonsafari/arabiclg/bin/aramorph.html 7. https://catalog.ldc.upenn.edu/LDC2010L01

8. Le lexème, ou encore unité lexicale, est le morphème lexical d’un lemme. En d’autres termes, il constitue l’unité de sens qui n’est pas fonctionnelle ou dérivationnelle [Fehri, 1993].

CHAPITRE 2. ANALYSE ET DÉSAMBIGUÏSATION MORPHOLOGIQUE DE TEXTES ARABES

nom doit être dans le génitif (

PðQj.ÖÏ@

). De même, il est acceptable pour le

substantif d’être suivi d’un pronom possessif ce qui n’est pas permis pour les adjectifs.

Cet analyseur est considéré comme la meilleure ressource de son type malgré les limites présentées précédemment [Attia, 2008]. Il inclut des stems qui ne sont plus utilisées dans l’arabe moderne comme

úG

.

@

(désirer ; >bY). Il incorpore certaines formes qui sont interdites pour l’usage contemporain dont l’utilisation est limitée à des expressions de certains contextes syntaxiques et morphologiques comme

éK. AKB

(il ne s’intéresse pas ; lA y>bh).

2.1.2.4 L’analyseur d’Attia

L’analyseur d’Attia [Attia, 2008] utilise les automates à états finis. La forme de base utilisée est le lemme. Il contient 9741 lemmes et 2826 expressions composées de plusieurs mots. Le système est basé sur des règles dont chacune concerne un lemme [Bounhas, 2012].

Parfois, l’existence de quelques affixes ou clitiques interdit l’existence d’autres. Donc, on a intérêt à définir ce qu’on appelle « drapeau diacritique » comme exten-sion de Xerox pour filtrer les concaténations possibles à un stem.

L’analyseur d’Attia permet d’obtenir une relation binaire entre deux ensembles de mots. Le premier ensemble est connu par le bas langage ou la langue inférieure et contient les formes superficielles et le deuxième ensemble est le haut langage ou la langue supérieure et contient les formes morphologiques comme indiqué dans l’exemple suivant pour le verbe

àðQº ‚

(ils remercient ; y$krwn).

Le haut langage :

Qº ƒ

(le lemme) +masculin + présent + pluriel + 3èmepersonne. Le bas langage :

àðQº ‚

.

L’analyseur d’Attia utilise des règles lexicales pour autoriser la concaténation des affixes et des mots afin de produire les verbes et les noms de l’arabe. Le système couvre les expressions composées. Pour éviter l’ambiguïté, certaines mesures ont été prises :

– La dérivation automatique des lemmes à partir des racines peut engendrer des mots non existants dans l’arabe.

CHAPITRE 2. ANALYSE ET DÉSAMBIGUÏSATION MORPHOLOGIQUE DE TEXTES ARABES

– On n’utilise pas les mots de l’arabe classique.

– Les règles dirigent la combinaison de mots avec des affixes et des clitiques et les spécifications grammaticales.

– Les verbes qui peuvent être conjugués à l’impératif sont spécifiés ; tous les verbes transitifs permettent cette conjugaison mais les verbes intransitifs l’in-terdisent. La forme passive ne peut pas être attribuée à la première et à la deuxième personne.

2.1.2.5 AlKhalil

La version 1 d’AlKhalil [Boudlal et al., 2010] définit une base de données conte-nant des dictionnaires pour les préfixes, les suffixes et les racines. Des patrons au format XML implémentent les schèmes qui permettent de générer tous les mots pos-sibles. Il analyse les mots voyellés ou non voyellés en fournissant des informations sur les préfixes, les suffixes, les racines et les schèmes qui leur sont liés. AlKha-lil1 fournit le stem d’un mot [Boudlal et al., 2010]. Pour un mot donné, AlKhalil identifie toutes les solutions possibles associées à une catégorie grammaticale. Il dé-termine, principalement, les différents POS d’un mot. Pour les noms, il affiche leurs