• Aucun résultat trouvé

YËð IkAJ.Ë@

2.4 Ressources d’analyse de la langue arabe

2.3.7 Interprétation syntaxique

Ce phénomène existe dans différentes langues naturelles tels que l’anglais le français et aussi l’arabe. Une phrase ou un extrait de texte mis dans un contexte bien spécifique peut être interprété syntaxiquement de différentes manières. L’entrelacement entre syntaxe et sémantique et les problèmes que nous avons recensés dans les paragraphes précédents peuvent mener à cette multiplicité des interprétations syntaxiques. Comme exemples de phrases ayant plus d’un arbre syntaxique possible, nous présentons la phrase suivante (figure 2.8).

Figure 2.8: Deux arbres syntaxiques différents pour représenter la phrase "J’ai visité le fils de mon voisin malade"

La phrase verbale (20) "

‘QÖÏ@ øPAg. áK.@ HP P

" (J’ai visité le fils de mon voisin malade) peut admettre deux structures syntaxiques représentées par la figure ci-dessus. Dans la première structure, l’adjectif "

‘QÖÏ@

" (le malade) a été associé au syntagme d’annexion "

øPAg. áK.@

" (fils de mon voisin). Dans la seconde, nous remarquons que le même adjectif "

‘QÖÏ@

" (le malade) qualifie la forme agglutinée "

øPAg.

" (mon voisin). Donc, suivant ce que cet adjectif qualifie dans la phrase, la structure syntaxique affectée change ainsi que le sens de la phrase.

2.4 Ressources d’analyse de la langue arabe

Pour une analyse fiable d’une langue naturelle, il est indispensable d’avoir à disposition un ensemble de ressources pour son traitement. La qualité des résultats, produits par les applications de TALN, est liée à la qualité de ces ressources en termes de nombre d’entrées et d’exhaustivité des informations qu’elles contiennent. Par exemple, lorsque nous utilisons un dictionnaire électronique pour une analyse morphologique, les mots (corrects) peuvent être considérés incorrects s’ils ne figurent pas dans le dictionnaire utilisé. Par conséquent,

2.4. RESSOURCES D’ANALYSE DE LA LANGUE ARABE

il est nécessaire d’avoir à disposition des ressources numériques, pour le traitement de l’arabe, adaptées et de haute qualité, en matière de contenu et de structure.

Nous avons exploré certaines de ces ressources, que nous présentons dans cette section, traitant de la syntaxe et la sémantique de l’arabe sujet de notre étude.

2.4.1 Ressources syntaxiques

Les corpus arborés (Treebanks) représentent un ensemble de phrases analysées (véri-fiées manuellement) et stockées sous forme d’arbres. En TALN, ces corpus constituent une ressource importante pour la construction d’analyseurs syntaxiques à base d’apprentissage et leur évaluation. Ils sont également utilisés pour analyser automatiquement des corpus de taille importante et pour diverses applications telles que la diacritisation, l’étiquetage morphosyntaxique, la segmentation de la phrase, l’étiquetage sémantique. La création d’un corpus arboré est confrontée à un compromis entre la richesse linguistique et la taille du corpus. Plus l’annotation est riche, plus le processus d’annotation est lent et la taille du corpus arboré est réduite. Par conséquence, la disponibilité de ces ressources diffère selon les langues.

Pour l’arabe standard, il existe trois corpus arborés importants : Penn Arabic Tree-Bank (PATB) [Maamouri and Bies, 2004], Prague Arabic Dependency Treebank (PADT) [Hajič et al., 2004] et Columbia Arabic Treebank (CATiB) [Habash and Roth, 2009]. Dans cette section, nous donnons une brève présentation de chacune de ces trois ressources. 2.4.1.1 Penn Arabic Treebank

Le projet Penn Arabic Treebank (PATB) a démarré en 2001 avec le consortium de données linguistiques (Linguistic Data Consortium : LDC) et à l’Université de Penn-sylvanie (lieu de naissance des Treebank pour l’anglais [Marcus et al., 1993], chinois [Xue et al., 2002] et coréen [Han et al., 2002]). A ce jour, quatre parties du PATB ont été mis en place [Maamouri et al., 2003] ; [Maamouri et al., 004a] ; [Maamouri et al., 004b] ; [Maamouri et al., 2005]. Chacune de ces parties a été publiée dans différentes versions avec différents degrés d’améliorations. Ce corpus est constitué de textes non voyellés extraits d’articles de différentes agences de presse (France Presse, Xin-hua, Al-Hayat, Ummatée ah Press, etc.). La plupart des phrases de ces textes ont été traduites en anglais ou sont associées à des traductions.

Chaque occurrence d’un mot dans PATB est étiquetée avec sa catégorie grammaticale et ses fonctions. Le mot est ainsi marqué morphologiquement, syntaxiquement, et avec d’autres relations pertinentes telles la concordance et l’accord. PATB, inclut plus de 400 étiquettes POS différentes. Ces dernières offrent les informations morphosyntaxiques pour le cas, le mode, le genre et la définition [Maamouri et al., 2010]. Parmi ces étiquettes, 22 sont syntagmatiques (des catégories syntaxiques), 20 sont des relations syntaxiques et sémantiques et 24 représentent les étiquettes POS de base.

Un exemple d’arborescence de PATB est illustré par la figure 2.9. L’arbre entier repré-sente la phrase (21) "

ú

æ •AÖÏ@ ÈñÊK @ ú

¯ AKPñƒ ð àA JJ.Ë @ðP@ P l 'Aƒ ­Ë @ àñ‚Ô g

" (Cinquante mille touristes ont visité le Liban et la Syrie en septembre dernier) étiquetée par la catégo-rie S. Cet arbre est composé de deux syntagmes de mots : un syntagme nominal, étiqueté NP-TPC, servant de sujet et un syntagme verbal étiqueté VP. Le sujet est constitué d’un

2.4. RESSOURCES D’ANALYSE DE LA LANGUE ARABE

chiffre suivi d’un syntagme nominal (NP). Ce dernier est constitué aussi d’un chiffre suivi d’un syntagme nominal (NP). Ce NP contient un seul nom. Dans PATB la configuration (NP NOUN NP) est utilisée pour marquer les constructions Idafa (annexion) et Tamyiz4

(le spécificatif). Les deux constructions ne peuvent être distinguées qu’en utilisant le cas morphologique du nom dans le NP incorporé. Le syntagme verbal (VP) est composé de sept mots de la phrase Il contient un sujet vide (NP-SBJ) indiquant qu’il est pronomi-nal et conjugué au verbe, un objet (NP-OBJ) et un syntagme prépositionnel temporel (PPTMP).

Figure 2.9: Représentation de la phrase "Cinquante mille touristes ont visité le Liban et la Syrie en septembre dernier" en structure de syntagmes dans PATB

2.4.1.2 Prague Arabic Dependency Treebank

Prague Arabic Dependency Treebank (PADT) [Hajič et al., 2004] a été généré à l’Ins-titut de linguistique formelle et appliquée de l’Université Charles de Prague. Ce corpus contient une description de la phrase à plusieurs niveaux : la morphologie fonctionnelle, la syntaxe de dépendance analytique et la représentation tectogrammatique5(pour la consti-tuante et les fonctions) de la signification linguistique. Ces annotations linguistiques sont basées sur la théorie de la description générative fonctionnelle (FGD) [Sgall et al., 1986] ainsi que le Prague Dependency Treebank [Hajič et al., 2001].

Ce corpus a été crée à base du PATB. Ce dernier a été converti vers les représentations syntaxiques du PADT en plus d’autres textes (provenant des articles de presse de Xinhua, Al-Hayat, An-Nahar) qui ont été annotés. En effet, les annotations morphologiques et syn-taxiques dans PADT diffèrent considérablement de PATB. Les annotations POS figurent dans un ensemble d’étiquettes morphologiques développées dans ElixirFM [Smrž, 2007].6

4. C’est un substantif indéfini et mis à l’accusatif. Il est placé immédiatement après la préposition dont il limite ou définit l’attribut.

5. La structure tectogrammaticale reflète la manière dont la phrase est composée à partir de ses parties, elle définit les fonctions grammaticales (sujet, objet, etc.), et c’est cette structure qui est en interface directe avec la sémantique.

2.4. RESSOURCES D’ANALYSE DE LA LANGUE ARABE

Et contrairement à PATB qui utilise la structure à base de constituants, PADT adopte la structure de dépendances. Les structures de dépendances prennent également la forme d’arbres sauf que les mots de la phrase sont les nœuds de l’arbre. En plus, plusieurs types de relations, entre les nœuds, sont spécifiés.

Figure 2.10: Représentation de la phrase "Cinquante mille touristes ont visité le Liban et la Syrie en septembre dernier" dans PADT

La figure 2.10 illustre les représentations en structures de dépendances de la même phrase (21) dans PADT. Dans cette représentation, la tête de la phrase (VP-A-3MP) est le verbe "

@ðP@ P

" (ont visité) qui est la forme active conjugué à la 3ième personne du pluriel masculin de "

P@ P

" (visiter). Ce nœud a trois nœuds fils, un sujet (Sb), une conjonction de coordination (Coord) et un syntagme prépositionnel auxiliaire (AuxP). Le sujet contient un mot numérique modifié par un autre mot numérique dans une relation attributive. Ce dernier est également modifié par un autre mot dans une relation attributive. Le deuxième nœud fils du verbe, relie les deux noms propres avec la relation de composition Obj_Co. Obj_Co indique que les deux noms propres sont coordonnés (Co) par leur parent et qu’ils sont tous deux des objets (Obj) de leur verbe. En ce qui concerne le dernier nœud fils du verbe, la préposition "

ú

¯

" (en) est en relation adverbiale (adv) avec le nom du mois "Septembre", qui dirige un adjectif dans une relation attributaire (Atr).

2.4. RESSOURCES D’ANALYSE DE LA LANGUE ARABE