• Aucun résultat trouvé

Chapitre 8 : Architecture du système d’ALAO réalisé

3 Génération des activités basées sur l’analyse morphologique

3.1 Jeu d’étiquettes morphosyntaxiques

Avant de commencer la phase de la conception et la génération des activités, nous

devons préciser le jeu d’étiquette que l’on va utiliser dans notre plate-forme lors de la création

de l’activité. Ce travail présente une étape cruciale dans la conception de notre plate-forme,

car toutes les activités basées sur l’analyseur morphologique dépendent de ce choix. De plus,

ce jeu est très important (Sanchez et al, 1995) pour la diversité des activités proposées dans

notre système d’ALAO.

3.1.1 Définition de jeu d’étiquette

L’objectif de notre travail est de construire deux ensembles d’étiquettes, catégories

grammaticales principales et sous-catégories. Au début, nous avons défini 13 étiquettes

principales comme les montre le tableau suivant :

Catégories Correspondant Catégories Correspondant

adj Adjectif prep Préposition

adv Adverbe det Déterminant

pron Pronom pc pronom sujet

noun nom pro pronom indéfini

verb verbe neg Négation

int Interjection conj conjonction PUN Ponctuation

Tableau 26 : Étiquettes de la plate-forme.

En second lieu, nous avons attribué des sous-catégories aux catégories principales

suivantes : adjectif, déterminant, verbe, nom et pronom.

- Adjectif : contient deux sous-catégories, le genre (masculin, féminin ou non

déterminé) et le nombre (singulier, pluriel).

- Verbe : contient quatre sous-catégories, le temps (indicatif présent, indicatif imparfait,

futur simple et passé simple), le mode (indicatif, subjonctif, gérondif, conditionnel et

Chapitre 8 : Architecture du système d’ALAO réalisé

145

infinitif), groupe (1

er

groupe, 2

ème

groupe et 3

ème

groupe) et personne (1

ère

personne

singulier, 2

ème

personne singulier, 3

èmme

personne singulier, 1

ère

personne pluriel, 2

èmme

personne pluriel et 3

èmme

personne pluriel).

- Déterminant : contient trois sous-catégories, le genre (masculin, féminin ou non

déterminé), le nombre (singulier, pluriel) et le type (article défini, article indéfini,

adjectif possessif, adjectif démonstratif, adjectif interrogatif et adjectif numéral).

- Nom : contient deux sous-catégories, le genre (masculin, féminin ou non déterminé) et

le nombre (singulier, pluriel).

- Pronom : contient quatre sous-catégories, le genre (masculin, féminin ou non

déterminé), le nombre (singulier, pluriel), la personne (1

ère

personne singulier, 2

èmme

personne singulier, 3

èmme

personne singulier, 1

ère

personne pluriel, 2

èmme

personne

pluriel et 3

èmme

personne pluriel) et le type (pronom possessif, pronom démonstratif,

pronom interrogatif, pronom relatif, pronom personnel et pronom indéfini).

Nous avons intégré dans les bases de données de notre plate-forme les étiquettes les

plus utilisées dans les activités d’apprentissage des langues. Sachant que nous pouvons

toujours ajouter d’autres étiquettes à la base.

3.1.2 Adaptation des étiquettes de TreeTagger

Dans le cas du français, nous avons utilisé l’analyseur morphologique TreeTagger. Ce

dernier utilise un jeu de 33 étiquettes (voir le tableau ci-après).

Étiquettes Correspondant Étiquettes Correspondant

ABR Abréviation PRP Préposition

ADJ Adjectif PRP:det Préposition + Article

ADV Adverbe PUN Ponctuation

DET:ART Article PUN:cit Ponctuation de citation

DET:POS Pronom Possessif SENT Balise de phrase

INT Interjection SYM Symbole

146

NAM Nom Propre VER:futu Verbe au futur

NOM NOM VER:impe Verbe à l’impératif

NUM Numéral VER:impf Verbe à l’imparfait

PRO Pronom VER:infi Verbe à infinitif

PRO:DEM Pronom Démonstratif VER:pper Verbe au participe passé PRO:IND Pronom Indéfini VER:ppre Verbe au participe présent

PRO:PER Pronom Personnel VER:pres Verbe au présent

PRO:POS Pronom Possessif VER:simp Verbe au passé simple PRO:REL Pronom Relatif VER:subi Verbe à l’imparfait du subjunctif VER:subp Verbe au présent du subjonctif

Tableau 27 : Les étiquettes de TreeTagger.

Comme nous avons des étiquettes plus riches que celle de TreeTagger, nous ne

sommes pas obligés de réduire ou de grouper les étiquettes de l’analyseur. Par contre, il

manque beaucoup d’informations de base telles que le genre, le nombre, le mode, etc. Pour

cela, nous avons trouvé un outil efficace qui permet de prendre la sortie de l’analyseur

TreeTagger et il la convertit en une sortie XML plus riche.

Cet outil est appelé Flemm

35

(Namer, 2000), il est composé par un ensemble de

modules PERL. Il permet l’analyse flexionnelle des corpus étiquetés seulement par

TreeTagger ou par Brill Tagger. C’est un outil à base des règles, dans le cas des mots

ambigus, il utilise un lexique de mots pour la désambiguïsation. Sinon, Flemm calcule le

lemme de chaque mot en se basant sur son étiquette déjà attribuée précédemment par

TreeTagger ou Brill Tagger, et attribue les principaux traits morphologiques de chaque mot :

- Pour les adjectifs, il attribue le genre et le nombre.

- Pour les déterminants, il donne le genre, le nombre et le type s’il n’est pas déjà donné

par TreeTagger.

35

Chapitre 8 : Architecture du système d’ALAO réalisé

147

- Pour les pronoms, il donne le genre, le nombre et le type s’il n’est pas déjà donné par

TreeTagger.

- Pour le nom, il donne le nombre et le genre.

- Pour le verbe, il donne le mode, la personne, et le temps.

Pour simplifier la tâche d’analyse morphologique des textes, nous avons intégré l’outil

Flemm dans le module de TreeTagger. Par conséquent, chaque texte analysé par TreeTagger

doit être ré-analysé par Flemm pour avoir les principaux traits morphologiques de chaque

mot.

Dans notre plate-forme, nous avons utilisé la version 3.1 du Flemm.

3.1.3 Adaptation des étiquettes d’ASVM

Concernant la langue arabe, nous utilisons ASVM comme analyseur morphologique

dans notre plate-forme. Ce dernier utilise un jeu de 22 étiquettes.

Pareil que pour le français, nos étiquettes sont plus larges que celle d'ASVM et par la

suite, nous ne sommes pas obligés de réduire ou de grouper les étiquettes de l'analyseur.

Pour le cas de l’arabe, on va se limiter aux étiquettes proposées par ASVM vu

l’inexistence des outils efficaces avec un jeu d’étiquette plus complet que celui d’ASVM.

Malgré ce problème, les étiquettes actuelles d’ASVM nous permettent, dans un premier

temps, de créer des activités en utilisant 20 étiquettes morphosyntaxiques.

Actuellement, les enseignants peuvent donc générer leurs propres unités pédagogiques

dans un but bien précis qui porte sur les points grammaticaux tels que les verbes, les

déterminants, les adjectifs, etc. De plus, ils ont la possibilité de concevoir des activités en

adéquation avec les faiblesses des apprenants.