• Aucun résultat trouvé

6.2 Mise en oeuvre du système de Recherche d’Information Socio-Sémantique

6.2.2 Processus proposé de mise en oeuvre du système RISSA ap-

6.2.2.3 Analyse et désambiguïsation possibiliste des données 160

Dans le processus général de recherche d’information, les documents de la col-lection utilisée et les requêtes passent par une phase de prétraitement qui inclut une analyse et une désambiguïsation morphologique. Comme les documents utilisés dans le système RISSA sont structurés au format XML, leur contenu textuel est désambiguïsé.

Tous les 5 fichiers XML extraits du coprus hadithien et les termes de la requête composée sont analysés et de désambiguïsés en utilisant notre approche hybride détaillée au chapitre 4. Cependant, cette approche est enrichie par des attributs socio-sémantiques. Nous présentons, dans la figure 6.7, le diagramme d’activités de l’approche possibiliste hybride qui utilise attributs socio-sémantiques et est appli-quée sur les termes d’une requête composée. Les modifications apportées au dia-gramme de la figure 6.7 par rapport au diadia-gramme de la figure 4.5 page 103 sont mentionnées en bleu.

Principe général Nous effectuons une analyse morphologique des termes, en

utilisant Aramorph, de chacun des 5 fichiers XML, pour déterminer les diverses valeurs des 14 attributs morphologiques. L’analyse donne les différentes possibilités éventuelles sans, néamoins, affecter la valeur exacte d’un attribut morphologique. Nous rajoutons d’autres attributs d’apprentissage et de test afin d’apporter plus de sens aux données morphologiques. Les attributs de classification comprennent :

– Un attribut sémantique qui désigne le thème du terme analysé. Si le terme appartient à un document, alors son thème est celui du document. Si le terme appartient à une requête, alors son terme est celui désigné par l’utilisateur. – Un attribut dimension qui indique l’appartenance d’un terme analysé à une

dimension. Les dimensions incluent la section (titre ou contenu d’une section), les textes du hadith (Metn), les chaînes de narrateurs (Sanad), les versets co-raniques ou les poèmes. Si le terme appartient à la requête, alors sa dimension est celle de la sous-requête à laquelle le terme appartient. Si le terme appar-tient à un document, alors la dimension est celle du fichier XML auquel il appartient.

L’analyse est effectuée sur la totalité des fichiers structurés (voir figure 6.3) et la requête saisie par l’utilisateur. Un document est, généralement, voyellé. Par contre, une requête peut-être composée de mots non-voyellés. La désambiguïsation pos-sibiliste se charge des deux cas. Comme c’est prouvé dans le chapitre 4, elle est considérée comme une tâche de classification. Nous illustrons, dans le tableau 6.14, un exemple d’une instance à désambiguïser (instance de test), d’un mot voyellé ambigu.

CHAPITRE 6. VALIDATION DES CONTRIBUTIONS DES APPROCHES DE DÉSAMBIGUÏSATION POSSIBILISTE ET MISE EN OEUVRE DU SYSTÈME RISSA

Pour faciliter la présentation de l’instance, nous considérons uniquement POS±i, i ∈ {1,2} comme attributs morphologiques de classification auxquels nous rajoutons les deux attributs socio-sémantiques « dimension » et « thème ». Pour l’appren-tissage, nous construisons un ensemble d’instances à partir des hadiths des livres Al-Bukhari et Ibn Maja. Les instances d’apprentissage utilisent les mêmes attributs morphologiques, socio-sémantiques que pour les ensembles de test.

Pour l’exemple du tableau 6.14, nous considérons le mot ambigu voyellé

á

K.@

(<ib°ni) qui peut avoir plus qu’une seule signification à savoir le nom « fils de » ou le verbe à l’impératif « construis ». Ainsi, l’ensemble de valeurs possibles de POS est {VERB_IMPERATIVE ; NOUN}. Le thème accordé à ce mot est

àAÖßB @

(Aliy-man ; « la foi »). Ce mot appartient à une chaîne de narrateurs (Sanad). En ap-plicant l’approche de désambiguïsation possibiliste hybride détaillée au chapitre 4, nous associons à cette instance la catégorie grammaticale NOUN. Dans un contexte narratif, le mot

á

K.@

ne peut pas être un verbe impératif. En se basant sur les calculs des mesures de nécessité et de possibilité sur l’ensemble d’apprentissage, la classe NOUN donne la valeur maximale de la formule 4.23 page 101. Ainsi, le stem du mot

á

K.@

correspondant à la classe NOUN est

á

K.@

. La racine de ce mot, quand son POS est VERB_IMPERATIVE, est

ú

æ K.

(banY ).

Prenons, aussi, l’exemple du mot non voyellé

ɓð

(wSl) qui peut, éventuelle-ment, être saisi dans une requête. Le mot donne plusieurs analyses ; entre autres, il peut signifier « un reçu » et en ajoutant les voyelles courtes, nous aurons le mot



É “ ð

(waS°lN ). Il peut, aussi, signifier « et fais la prière » où

ð

(wa) est une conjonction de coordination et

É  “

(Sal~i) signifie « fais la prière ». Si le mot est « un reçu », son lemme verbal est

É “ ð

(waSal). Par contre, si le mot est « fais la prière », son lemme devient

úÎ “

(Sal~aY ). La désambiguïsation possibiliste des termes sert à trouver les valeurs correspondantes des attributs morphologiques et à associer le stem adéquat qui sera utilisé par la suite en entrée d’indexation. La désa-mbiguïsation sert, principalement, à identifier la bonne unité d’indexation [Ayed

et al., 2018].

Mot ambigu POS-2 POS-1 POS+1 POS+2 Thème Dimension POS

á

K.@

VERB_ PERFECT NOUN_ PROP NOUN_ PROP NOUN_ PROP

àAÖßB @

Sanad ?

Table 6.14 – Exemple d’une instance de test utilisant les attributs morphologiques et socio-sémantiques

CHAPITRE 6. VALIDATION DES CONTRIBUTIONS DES APPROCHES DE DÉSAMBIGUÏSATION POSSIBILISTE ET MISE EN OEUVRE DU SYSTÈME RISSA

Figure 6.7 – Diagramme d’activités du désambiguïseur possibiliste hybride utili-sant les attributs socio-sémantiques

Evaluation de l’effet des attributs socio-sémantiques sur la

désambiguï-sation possibiliste des données La désambiguïsation morphologique

possibi-liste hybride utilisent des attributs morphologiques des deux termes voisins pour déterminer la valeur la plus précise d’un attribut morphologique d’un mot. Elle donne, selon les expérimentations faites au chapitre 4, un taux de désambiguïsation moyen égal à 86.37%. Le tableau 6.15 présente les résultats de désambiguïsation

CHAPITRE 6. VALIDATION DES CONTRIBUTIONS DES APPROCHES DE DÉSAMBIGUÏSATION POSSIBILISTE ET MISE EN OEUVRE DU SYSTÈME RISSA

possibiliste hybride des attributs morphologiques en ajoutant les attributs socio-sémantiques à savoir le thème et la dimension (sanad, metn, poème, coran et sec-tion). Les expérimentations, sur les textes des hadiths du livre Al-Bukhari, donnent un taux égal à 86.66% avec une augmentation moyenne de 0.29%. Nous remarquons que l’amélioration n’affecte pas toutes les fonctions morphologiques. En effet, seuls POS, ASPECT, CONJUNCTION, GENDER, PERSON, PREPOSITION et PRO-NOUN sont augmentés. Cela est expliqué par le fait que les tailles des ensemble d’apprentissage sont réduites et les calculs sur chaque ensemble d’apprentissage, des attributs déjà citées, donnent des mesures élevées de nécessité et de possibilité pour la classe correcte. De plus, certaines valeurs des attributs morphologiques telles que NOUN_PROP (nom propre) de POS apparaissent le plus dans les chaînes de nar-ration (Sanad). Ainsi, un mot ambigu contenant NOUN_PROP dans ses valeurs plausibles est possiblement un nom propre plutôt qu’une autre valeur de la classe POS. Donc, l’ajout des attributs socio-sémantiques diminue le nombre des valeurs possibles dans un contexte particulier.

Attribut morphologique

Désambiguïseur possibiliste hybride utilisant des attributs morphologiques

Désambiguïseur possibiliste hybride utilisant des attributs morphologiques et socio-sémantiques POS 95.13 % 96.01% ADJECTIVE 99.17 % 99.17% ASPECT 81.53 % 81.58% CASE 63.52 % 63.52% CONJUNCTION 91.07 % 91.12% DETERMINER 97.02 % 97.02% GENDER 96.55 % 96.66% MODE 99.96 % 99.96% NUMBER 93.10 % 93.10% PARTICLE 98.88 % 98.88% PERSON 66.06 % 67.07% PREPOSITION 88.27 % 90.02% VOICE 79.11 % 79.11% PRONOUN 59.81 % 59.88% Moyenne 86.37 % 86.66%

Table 6.15 – Comparaison des taux de désambiguïsation possibiliste hybride uti-lisant les attributs morphologiques et les attributs socio-sémantiques

6.2.2.4 Indexation

Les 5 fichiers XML associés aux différentes dimensions sont organisés sous for-mat TREC et sont stemmés en utilisant notre outil de désambiguïsation possibiliste. Nous passons les documents stemmés par une phase d’indexation en utilisant la

CHAPITRE 6. VALIDATION DES CONTRIBUTIONS DES APPROCHES DE DÉSAMBIGUÏSATION POSSIBILISTE ET MISE EN OEUVRE DU SYSTÈME RISSA

plateforme Terrier2. Nous formons, ainsi, 5 fichiers indexes correspondant à chaque dimension. Cette procédure est préparée, à l’avance en arrière plan, avant toute opération de recherche. En avant plan, une fois la requête est stemmée, elle su-bit une phase d’indexation dont l’effet est généralement négligeable vue la longueur quasiment petite de la requête. Dans ce cas, la requête est représentée par la totalité de ses termes stemmés.