Morphologie de l’ASM - Du terme prédicatif au cadre sémantique : méthodologie de compilation d'

La morphologie de l’ASM est considérée comme riche et complexe (Habash 2010, Soudi et al. 2007, Sadat et Mohamed 2013). La raison de cette complexité provient du fait que l’ASM dispose d’un système morphologique où les morphèmes sont concaténés à la racine. Ce système morphologique s’appelle root-and-pattern (d’après McCarthy 1981).

Dans ce système, la racine (root) est une séquence de consonnes organisées dans un ordre spécifique. Cet ensemble identifie le sens général d’un mot (l’idée d’écrire ou de lire,

par exemple). En ce qui concerne les autres informations comme le temps et la partie du discours, elles se trouvent dans le radical (stem) et elles sont représentées par les voyelles courtes et les syllabes (Testen 2016). Ces voyelles courtes et syllabes sont les caractéristiques distinctives d’un radical. Donc, dans le cas où un ensemble de radicaux partagent ces mêmes caractéristiques, on dit qu’ils ont le même schème (pattern). Ainsi, la racine k-t-b (ب-ت-ك) (l’idée d'écrire) peut avoir le radical katab (passé composé) (écrit), comme dans le verbe

katabtu (ﺖﺒﺘﻛ) (j'ai écrit), d'où vient le schème faEala (ﻞﻌﻓ).

À titre d’exemple, nous examinons la forme wasayaktubwnhA (ﺎﮭﻧﻮﺒﺘﻜﯿﺳو) qui veut dire

Et ils vont l’écrire. Dans cette forme, nous pouvons trouver une conjonction (w), une particule

désignant le futur (s), un verbe (yaktubwn) et un objet pronominal singulier féminin (hA). Cette « phrase », grammaticalement complète, peut être clairement décrite comme dans la figure 2 (Sadat et Mohamed 2013 : 622).

Figure 2 : Morphologie d’un mot en ASM

En outre, le système d’écriture en ASM n’inclut pas un certain nombre d’informations phonologiques (Sproat 2007 : viii). À titre d’exemple, un mot comme drs (سرد) (il a étudié), prononcé darasa, n’inclut pas les voyelles courtes, ou les diacritiques. Également, dans un mot comme ktb (ﺐﺘﻛ) (faire écrire), que l’on peut translitérer comme kat~aba, la gémination est absente. C’est pour cette raison que Sproat (2007 : viii) constate que : « the advent of Unicode has failed to standardize Arabic encoding, so that in dealing with real texts, one has to be prepared to do a fair amount of low level normalization ».

Ce système morphologique complexe a un impact direct sur le traitement automatique de l’ASM. Soudi et al. (2007 : 3) constatent que :

The morphology of Arabic poses special challenges to computational natural language processing systems. The exceptional degree of ambiguity in the writing system, the rich morphology, and the highly complex word formation process of roots and patterns all contribute to making computational approaches to Arabic very challenging.

De ce fait, choisir, trouver ou concevoir un système de traitement automatique, que ce soit un extracteur des termes, un analyseur morphosyntaxique ou un étiqueteur, pour l’ASM de spécialité n’est pas une tâche facile. L’ASM dispose d’un système morphologique riche, et l’ambiguïté issue de cette richesse exige que l’on dispose d’un système très efficace. Par exemple, un mot comme rfE (ﻊﻓر) (téléverser) est difficile à analyser par un système d’analyse morphologique. Cette forme est ambiguë, puisqu’elle peut signifier :

[1] rafaEa (ﻊﻓر) (éliminer); [2] rafE (ﻊﻓر) (batir); [3] rafE (ﻊﻓر) (promotion); [4] rafuEa (ﻊﻓر) (affiner); et [5] raf~aEa (ﻊﻓر) (promouvoir).

Donc, pour qu’un système d’analyse morphologique soit efficace, il doit rendre compte de cette ambiguïté, surtout lorsqu’il s’agit d’un contexte spécialisé. L’emploi d’une forme dans un contexte spécialisé accroît le taux de polysémie, puisque de nouveaux sens peuvent s’ajouter. Dans le chapitre consacré à la méthodologie, d’autres difficultés seront évoquées. Cependant, malgré la complexité de la tâche, la langue arabe ne cesse pas d’attirer l’attention des spécialistes, qu’ils soient linguistes, linguistes informaticiens ou terminologues. Des projets sur la langue arabe (ASM, CA ou parlée) sont en constant développement (voir la section 3.2).

L’un des aspects qui intéresse de plus en plus les spécialistes est la linguistique de corpus. Les linguistes arabophones (et arabisants) sont conscients de l’importance du corpus dans le travail sur la langue. Pour cette raison, nous constatons que la langue arabe fait maintenant partie de plusieurs systèmes de stockage et de traitement de la langue comme SketchEngine (Arts et al. 2014) pour l’ASM et ALC (Arabic Learner Corpus) (Alfaifi et al. 2014) pour l’apprentissage de l’ASM, The Living Arabic Project et Database of Arabic

Dialects pour la langue arabe parlée (les variantes régionales). Notre travail s’inscrit dans mouvement cherchant à rendre disponibles des ressources linguistiques en ASM.

2.3.1 La question de la translitération

La question de la translitération est d’une importance capitale en raison du fait qu’un certain nombre d’outils de traitement automatique de l’arabe s’appuient sur des textes arabes translittérés. Dans cette sous-section, nous abordons cette question brièvement sous deux angles : le point de vue adopté dans notre travail et les outils de traitement.

Pour ce qui est de notre travail, les exemples sont tous présentés sous trois formes : forme translittérée, caractères arabes et traduction française. Il existe pour la langue arabe plusieurs systèmes de translitération. Nous mentionnons à titre d’exemple le système de translitération fondé sur la norme DIN-31635. Ce système comporte un nombre élevé de caractères spéciaux, comme ṯ pour ث, ğ pour ج, ḥ pour ح et ḫ pour خ. Cela complique la rédaction, puisque ces caractères ne sont pas accessibles directement sur le clavier. Un autre système est celui adopté dans l’Encyclopédie de l’Islam (Bearman et al. 2002). Dans ce système, nous remarquons l’utilisation des digrammes. Ces digrammes indiquent qu’il s’agit d’une translitération d’une seule lettre en arabe et non pas deux, comme kh pour خ et sh pour ش.

Dans notre cas, nous avons adopté le système Buckwalter (voir la table de Translitération au début de la thèse). La raison pour ce choix est que ce système est largement utilisé dans la communauté linguistique.

En ce qui concerne les outils de traitement, les outils de traitement automatique de l’arabe se basent généralement sur la translitération Buckwalter (Habash et al. 2007). Habash et al. (ibid. : 15) constatent que :

The Buckwalter Arabic transliteration [2] is a transliteration system that follows the standard encoding choices made for representing Arabic characters for computers. The Buckwalter transliteration has been used in many publications in natural language processing and in resources developed at the Linguistic Data Consortium (LDC). The main advantages of the Buckwalter transliteration are that it is a strict transliteration (i.e., one-to-one) and that it is written in ASCII characters.

Ce système est particulièrement intéressant puisqu’il n’emploie pas des caractères spéciaux que l’on ne trouve pas sur les claviers (par exemple ô, ‘ et –). Toutefois, lorsque ce système est utilisé, il faut reconvertir les textes en caractères arabes pour les lire. Dans la section 3.2, nous abordons la question de la translitération dans les ressources lexicales de l’ASM et nous montrons comment ces ressources utilisent la translitération Buckwalter.

Dans le document Du terme prédicatif au cadre sémantique : méthodologie de compilation d'une ressource terminologique pour les termes arabes de l'informatique (Page 34-38)