Approche

Chapitre 7 : Présentation et développement des outils TAL

Translittération de Buckwalter : Translittération utilisée pour représenter les caractères arabes sous forme de caractères latins.

24 L’arabe littéraire.

25 L’Arabe du VIIe siècle. 26

Étiquette Catégorie Étiquette Catégorie

CC Conjonction PRP$ Pronom possessif

PRP Pronom NO_FUNC inconnu

NNP Nom propre singulier NNPS Nom propre pluriel NN Nom singulier WP Particule interrogative

NNS Nom pluriel WRB Adverbe interrogatif

JJ Adjectif VBP Verbe inaccompli

IN Proposition VBN Verbe passif

DT Déterminant VB Verbe à l’impératif

RP Particule UH Interjection

CD Chiffre RB Adverbe

Corpus Nombre des articles Taille (mots)

ATB1 734 140K

ATB2 501 140K

ATB3 600 340K

Corpus Mots Phrases

Développement 70188 2304 Entraînement 594683 18970

Test 69665 2337

Étiqueteur Précision Système à base des règles 92,2

Chapitre 7 : Présentation et développement des outils TAL

4 Amélioration et développement des outils pour l’Arabe

4.1 Approche

La morphologie de la langue arabe pose des défis particuliers aux systèmes de

traitement automatique du langage naturel. Le degré exceptionnel d'ambiguïté dans le lexique

arabe, la morphologie riche et le processus de formation des mots à partir de racines rendent

la tâche du traitement automatique de langue arabe relativement difficile.

De plus, les ressources pour la langue arabe sont rares, coûteuses (Michael, 2014) et

non fiables pour l’utiliser dans l’ALAO. Une solution possible à ce problème est d'améliorer

les ressources existantes du TAL pour l'arabe avant de les intégrer dans notre système

d’ALAO.

Dans la section suivante, nous présentons les analyseurs morphologiques les plus

utilisés dans le TAL.

4.2 Étude des analyseurs morphologiques

Nous trouvons dans quelques recherches (Atwell et al, 2004), (Al-Sughaiyer et al,

2004) un aperçu des outils d'analyse morphologique les plus importants. Par contre, ces

recherches ne fournissent pas un rapport détaillé concernant ces outils (performances,

efficacités, approches utilisées, etc).

Dans cette section, nous allons effectuer un bref inventaire des analyseurs

morphologiques de textes arabes suivants : Aramorph, APT, MorphArab, Sakhr, XEROX,

ASVM.

4.2.1 Aramorph

4.2.1.1 Mode de fonctionnement

L’analyseur morphologique de Buckwalter (Buckwalter, 2002) (Buckwalter, 2004),

appelé AraMorph, pour l’arabe a été produit par le LDC (Linguistic Data Consortium) en

2002. L'algorithme d’AraMorph pour l'analyse morphologique des textes permet la

segmentation d’un mot arabe en trois segments (préfixe, racine, post-fixe). La segmentation se

base essentiellement sur trois lexiques et trois tableaux de compatibilité utilisés pour vérifier

les combinaisons entre les proclitiques, les racines et les enclitiques :

Chapitre 7 : Présentation et développement des outils TAL

125

- Le lexique des suffixes contient 618 entrées.

- Le lexique des racines contient 82 158 racines.

- La table AB pour la vérification de la compatibilité entre les préfixes et les racines

(1648 entrées).

- La table BC pour la vérification de la compatibilité entre les racines et les suffixes

(1285 entrées).

- La table BC pour la vérification de la compatibilité entre les préfixes et les suffixes

(598 entrées).

La longueur d’un préfixe est entre 0 et 4 caractères, la longueur d’un suffixe est entre

0 et 6 caractères.

En plus des encodages standards de la langue arabe, de nombreux chercheurs en

traitement des langues naturelles utilisent une translittération orthographique. Par exemple,

l’analyseur morphologique AraMorph est basé sur un tableau de translittération

fait par Tim

Buckwalter (Habash, 2010).

L'algorithme de l'analyse morphologique et l’étiquetage inséré dans le code

d’AraMorph permettent la tokenisation, la segmentation des mots, la consultation du

dictionnaire, la vérification de la compatibilité et l’affichage du rapport sur le calcul

statistique. L'algorithme d'analyse morphologique est contenu dans un script Perl. L’idée de

cet algorithme est de donner à chaque token la liste de toutes les annotations considérées

comme des solutions possibles, en prenant en compte tous les signes diacritiques. De plus,

pour chaque token, l’analyseur permet l’affectation d’une étiquette pouvant correspondre à

chaque segment.

4.2.1.2 Limites d’Aramorph

Même si AraMorph est largement utilisé pour l’analyse morphologique de la langue

arabe, il a quelques points faibles.

Selon (Atia, 2006) ces faiblesses se résument :

- Aramorph ne gère pas les proclitiques interrogatifs au début du mot (nom ou verbe),

par exemple dans le verbe « بهذأأ » ou dans le nom « يلعأ ».

126

- Aramorph ne traite que certaines formes des verbes à l’impératif (seuls 22 verbes sur 9

198).

- Aramorph ne traite que certaines formes à la voix passive (seuls 1404 verbes sur 9

198).

- Aramorphe utilise un lexique fini des racines et des lexèmes, donc, il ne gère pas la

génération des formes fléchies. Par conséquent, le coût de la mise à jour et de la

maintenance de lexique pour l’amélioration de résultats sera très élevé.

- Dans l’algorithme d’Aramorphe, il n’y a aucune phase qui traite la désambiguïsation.

4.2.2 L’analyseur APT de Khoja

APT « Arabic Part-of-speech Tagger » est un analyseur morphologique développé par

Khoja en 2001 (Khoja, 2001). Il s’agit d’une adaptation de l’analyseur anglais BNC après

quelques modifications adaptées aux règles de la grammaire arabe. Cet analyseur emploie une

méthode hybride qui combine l’approche statistique et l’approche à base des règles. Ce

système utilise 130 étiquettes, essentiellement dérivées du système BNC, et un corpus de 50

000 mots qui sert à l’entraînement du système. Selon Khoja, ce système atteint une précision

de 90 %.

Quoique ce système donne une bonne précision sur le corpus de test, il a quelques

points de faiblesse dont :