• Aucun résultat trouvé

Èñêj.ÒÊË ú æJ.Ó

) PV, V Proc/Enc Présente la possibilité,

l’impossibilité ou l’exi-gence de la présence d’un proclitique (respec-tivement enclitique) lié au nœud en question

+ : exigence de présence d’un proclitique (respec-tivement enclitique) - : impossibilité de pré-sence d’un proclitique (respectivement encli-tique),

+/- : possibilité d’exis-tence d’un proclitique

Pour le Proc : Tous les nœuds sans exception Pour l’Enc : Tous les nœuds sauf les nœuds racines PV et PN

2.5. GRAMMAIRES D’ARBRES ADJOINTS POUR LA LANGUE ARABE

En plus de ces traits d’unification, des traits d’instanciation ont été définis. Ce sont des informations morphosyntaxiques nécessaires lors de la lexicalisation de la grammaire. Ces traits se résument en la valeur grammaticale (VG) et la forme du mot instanciant ainsi que les valeurs grammaticales et les formes des proclitique et enclitique s’ils existent.

2.5.2 Couverture d’ArabTAG

La première version d’ArabTAG comporte 241 arbres élémentaires non lexicalisées (modèles d’arbres) et 24 autres lexicalisés. Les modèles d’arbres sont répartis entre quatre grandes familles : phrases nominales, phrases verbales, syntagmes nominaux et syntagmes prépositionnels.

Figure 2.13: Structures présentées dans ArabTAG

Dans ArabTAG, toutes les structures des phrases nominales, respectant tous les agen-cements et variation des structures possibles, sont représentées comme par exemple Thème-Propos encore Thème-Propos-Thème. Ces deux composantes peuvent être des structures simples ou encore des structures plus complexes, par exemple des syntagmes nominaux, des syn-tagmes prépositionnels ou encore des phrases verbales. Cette famille de structures couvre 22% des structures non lexicalisées représentées en ArabTAG.

Pour ce qui est des phrases verbales, leur famille de structures comprend 35% des struc-tures non lexicalisées représentées en ArabTAG. Ces strucstruc-tures couvrent uniquement les phrases à compositions minimale, à savoir : le verbe, le sujet et le(s) complément(s) d’objet direct ou indirect. Cependant, les différents agencements de ces composants sont représen-tés, par exemple : Verbe-Sujet-COD, Verbe-Sujet-COI, Verbe-COD-Sujet et Verbe-COI-Sujet. Cette famille inclut aussi les phrases à sujets elliptiques, les phrases à compléments d’objet directs enclitisés aux verbes, les phrases à verbes conjugués à la voix active et celles à verbes conjugués à la voix passive, les phrases verbales interrogatives etc.

ArabTAG tient compte de la diversité des structures syntagmatiques, spécialement no-minales. On y trouve un ensemble assez complet de structures (32% des structures non lexicalisées représentées en ArabTAG) mettant en valeur les différentes sous-classes de syntagmes nominaux (voir figure 2.14) : syntagme simple ou syntagme à composition plus complexe.

2.5. GRAMMAIRES D’ARBRES ADJOINTS POUR LA LANGUE ARABE

Figure 2.14: Répartition des syntagmes nominaux dans ArabTAG[Ben Fraj, 2010] Ces sous-classes des syntagmes à composition couvrent les syntagmes suivants : le syntagme adjectival (

ú

æª K I.»QÓ

) (11 structures), le syntagme d’annexion (

ú

¯A “@ I.»QÓ

)

(19 structures), le syntagme quasi-propositionnel (

øXA Jƒ@ éJ.ƒ I . »QÓ

) (22 structures), le

syntagme corroboratif (

øYJ»ñK I.»QÓ

) (5 structures), le syntagme approbatif (

ú

ÍYK. I.»QÓ

) (3 structures) le syntagme conjonctif (

­¢ªË@ I

. »QÓ

) (7 structures) et le syntagme

su-bordonné (

ú

Íñ“ñÓ I. »QÓ

) (6 structures). Les syntagmes prépositionnels, dont la famille

de structures couvre 11% des structures non lexicalisées représentées en ArabTAG, pré-sentent aussi une diversité. Ils englobent tous les syntagmes qui sont introduits par les mots outils : prépositions ou autres et qui possèdent une des deux structures générales (voir figure 2.15) :

— Composé d’un mot outil introduisant un syntagme nominal comme les exemples :

È Q ÖÏ@ ú

¯

(dans la maison),

ñë B@

(sauf lui), etc.

— Un mot outil auquel a été lié un enclitique comme pour les exemples :

éK.

(avec lui),

éJ¯

(dans lui), etc.

Figure 2.15: Structures générales d’un syntagme prépositionnel[Ben Fraj, 2010] Précisons que dans ArabTAG, les syntagmes verbaux n’ont pas été illustrés. L’auteur [Ben Fraj, 2010] justifie son choix du fait, qu’en langue arabe, un verbe peut à lui seul constituer une phrase. Et donc, les syntagmes verbaux présentent eux-mêmes des phrases verbales.

2.6. CONCLUSION

2.5.3 Critiques d’ArabTAG

Nous avons étudié cette première version de la grammaire et nous avons relevé certaines limites pouvant se résumer comme suit :

— une couverture minimale : toutes les structures syntaxiques possibles ne sont pas décrites. Les structures enrichies avec des compléments (circonstanciel de temps, de lieu, etc) ne sont représentées. En effet, ces compléments sont facultatifs et peuvent prendre n’importe quelle position dans la phrase. Décrire ces composants dans le modèle d’origine, entrainera inévitablement l’augmentation du nombre d’arbres élé-mentaires et le risque de redondance.

— la représentation des formes agglutinantes dans les structures syntaxiques n’est pas bien prise en compte dans ArabTAG. Ces formes peuvent jouer des rôles dans la phrase et doivent être mises en relief afin d’améliorer la couverture du modèle gram-matical développé.

— ArabTAG met l’accent sur les relations syntaxiques sans s’intéresser aux informa-tions sémantiques, bien que la sémantique, tout comme la morphologie, possède une influence directe sur la syntaxe. En effet, l’interprétation syntaxique ne peut être complète que si l’on fait intervenir des informations sémantiques.

— ArabTAG n’est pas organisée en des structures factorisées hiérarchiquement. Elle est composée d’un ensemble d’arbres élémentaires sans qu’ils soient reliés entre eux. Dans le but de faciliter la maintenance et l’extension de la grammaire, il est pri-mordial de structurer la grammaire en faisant intervenir divers phénomènes tels que l’héritage des structures ou la hiérarchie des patrons d’arbres.

2.6 Conclusion

La langue arabe est une langue importante en termes de diffusion et d’utilisation dans le monde. Elle présente des caractéristiques spécifiques qui compliquent la production des ressources numériques pour son traitement. En effet, sa riche morphologie associée à l’ordre semi-libre des mots et à l’omission des diacritiques (les voyelles) dans la plupart des textes arabes écrits affectent le processus d’analyse syntaxique et le rendent plus difficile. Malheureusement, comparés à d’autres langues telles que le français ou l’anglais, les outils et ressources génériques traitants de la langue arabe, telles que les grammaires, sont relativement rares et peu développés. Il est donc motivant de développer une grammaire qui reflète la richesse syntaxique et aussi sémantique de l’arabe.

L’objectif de cette thèse, rappelons-le, est de construire une grammaire d’arbres adjoints décrivant la syntaxe et la sémantique de la langue arabe. La construction d’une telle grammaire peut être abordée de différentes façons : l’extraction automatique d’une TAG à partir d’un corpus arboré ou la construction manuelle de la grammaire.

La méthode manuelle offre de meilleurs résultats que l’extraction à partir d’un corpus puisque la couverture de la grammaire construite est limitée à celle du corpus. Cependant, la construction manuelle est très coûteuse en termes de temps de mise en œuvre et de maintenance. De plus, il est difficile d’avoir une grammaire qui couvre toutes les structures syntaxiques d’un langage. À ce jour, il n’existe pas de grammaire à grande couverture de la langue arabe. Par conséquent, il est préférable d’adopter des approches réalisées de

2.6. CONCLUSION

façon automatique ou semi-automatique, en profitant des ressources déjà disponibles. Nous abordons ces approches dans le chapitre suivant.

Chapitre 3

Vers une production semi-automatique