Les résultats retenus

5.8 Synthèse . . . 135 Conclusion . . . 136

CHAPITRE 5. PROPOSITION D’UNE NOUVELLE COLLECTION STANDARD POUR LA RECHERCHE D’INFORMATION EN LANGUE ARABE

Introduction

Malgré l’importance des corpus dans plusieurs types d’applications, aucun des corpus arabes existants ne semble constituer une référence consensuelle pour la recherche d’information. Plusieurs corpus arabes ont été construits dans le but de pallier à ce manque [Alansary et al., 2014]. Par rapport à ces corpus, nous trouvons que le corpus hadithien est plus adapté à notre cas vue sa structure et sa richesse socio-sémantique. Cependant, Le corpus hadithien ne constitue pas un standard de test pour la recherche d’information. Nous présentons, dans ce chapitre, les différentes étapes que nous suivons pour rendre le corpus hadithien une référence standard pour la RI en langue arabe. Pour ce faire, nous commençons dans la première section par présenter la vue globale de l’approche de construction du standard. Les caractéristiques communes de la collection de test, que nous appelons Kunuz, sont présentées à la section 5.2. Dans les sections 5.3 et 5.4, nous présentons l’ensemble des documents et des requêtes utilisés pour former le standard. La section 5.5 détaille l’approche que nous proposons pour juger la pertinence des documents renvoyés par rapport aux requêtes choisies. Les résultats retenus sont présentés dans la section 5.6. Nous synthètisons, à la section 5.8, l’approche de construction de la collection standard Kunuz.

5.1 Vue globale

Nous proposons une approche de construction d’un nouveau standard arabe pour la recherche d’information. Nous illustrons, à travers la figure 5.1, l’architec-ture générale adoptée pour construire cette collection. Chaque étape est décrite dans une section (le numéro de la section est mentionné par un rectangle en haut à gauche) de ce chapitre.

Tout standard de recherche d’information nécessite une collection de documents et une collection de requêtes. Les documents sont des hadiths et les requêtes sont sélectionnées à partir de « fatwas » (

_øñJ_¯

; avis consultatifs). Les requêtes et les documents sont représentés au format TREC.

CHAPITRE 5. PROPOSITION D’UNE NOUVELLE COLLECTION STANDARD POUR LA RECHERCHE D’INFORMATION EN LANGUE ARABE

Pour juger la pertinence des documents par rapport aux requêtes, nous suivons un processus commun aux requêtes et aux documents. Nous appliquons un traite-ment de stemming sur ces requêtes et ces docutraite-ments en utilisant une variété d’outils de stemming.

Les documents stemmés subissent une phase d’indexation qui génère des indexes. Nous utilisons divers modèles d’appariement. Chaque combinaison, d’un modèle d’appariement et des indexes générés par un outil de stemming, donne des échan-tillons qui correspondent aux documents ayant les meilleurs scores par rapport aux requêtes. Nous évaluons les résultats retournés manuellement à travers un portail Web collaboratif, que nous avons développé, baptisé « Kunuz AlMustafa » (

Pñ J»

ù®¢ÖÏ@

; les trésors du prophète).

Notre standard est composé de la liste des requêtes auxquelles sont associés les documents, que nous avons évalués pertinents, à travers notre portail.

5.2 Les caractéristiques de la collection de test

Kunuz

Avant de standardiser la collection des hadiths, il est indispensable d’accorder un nom au corpus de test pour la recherche d’information. Nous optons pour le nom « Kunuz » (

Pñ J»

). « Kunuz » est la traduction en arabe du mot « trésor » qui représente un ensemble d’objets de valeur accumulés et généralement dissimulés ou perdus et qu’il faut de la recherche et de la fouille pour les retrouver.

Le texte hadithien constitue l’objet de notre standard sur lequel nous effectuons des recherches sociales et sémantiques. Le choix d’un nom en arabe est dû au fait que la collection sera principalement en arabe.

L’importance d’une collection de RI standard est reliée à sa capacité de faire correspondre une requête à ses documents pertinents. Nous présentons, dans les sections suivantes, les choix et la structuration des documents et des requêtes et les méthodes adoptées pour l’appariement.

CHAPITRE 5. PROPOSITION D’UNE NOUVELLE COLLECTION STANDARD POUR LA RECHERCHE D’INFORMATION EN LANGUE ARABE Figure 5.1 – L’arc hitecture globale du pro cessus de construction de la collection Standard Kun uz

CHAPITRE 5. PROPOSITION D’UNE NOUVELLE COLLECTION STANDARD POUR LA RECHERCHE D’INFORMATION EN LANGUE ARABE

5.3 La collection de documents

La collection TREC (voir chapitre 3) offre le corpus le plus utilisé de la recherche d’information. Cette collection TREC incluant des documents, des requêtes et des jugements de pertinence, est la plus grande collection arabe actuellement dispo-nible. Elle est composée de documents en arabe et de requêtes en anglais. Nous développons également une version anglaise des requêtes afin de permettre l’éva-luation multilingue [Ben Khiroun et al., 2014]. La figure 5.2 présente un exemple d’une requête en arabe de la collection TREC 2001.

Figure 5.2 – Exemple d’une requête en arabe de TREC 2001

Nous construisons la collection Kunuz en extrayant les hadiths contenus dans le livre «Sahih AlBukhari», l’un des plus grands et plus fiables recueils de Hadith. Afin d’obtenir un corpus pouvant être facilement et largement utilisé, nous devons suivre un modèle standard de structuration des documents. Ainsi nous choisissons de nous conformer aux normes de TREC [Ben Khiroun et al., 2014]. Nous essayons d’adapter les informations de nos documents aux balises possibles du modèle XML de la collection TREC. L’aspect structuré du corpus hadithien (voir chapitre 3 section 3.3.2) facilite énormément l’organisation des différents documents. Un ha-dith, dans la collection kunuz, représente un document. La figure 5.3 présente un extrait du fichier XML de Sahih Al-Bukhari. La signification de chaque balise est détaillée dans le tableau 5.1. La sous-balise <GENRE> sous la balise <S l="1"> décrit, généralement, le thème du hadith dont son contenu est détaillé dans la ba-lise <TEXT>. La baba-lise <DOC> représente un document (hadith) pour lequel nous affectons un identifiant <DOCID>. La chaîne de narrateurs d’un hadith est représentée par une succession de balises décrivant chaque narrateur <R>. Nous présentons, ainsi, le fichier XML qui respecte le format standard de TREC.

CHAPITRE 5. PROPOSITION D’UNE NOUVELLE COLLECTION STANDARD POUR LA RECHERCHE D’INFORMATION EN LANGUE ARABE

Figure 5.3 – Exemple de hadith au format TREC

Balise Signification Attribut Signification

T Texte l Niveau de la section

Q Coran tl Tooltip (infobulle) du coran

R Rawi (Narrateur) S Connotation du narrateur

Text Metn TP Type du narrateur

TI Titre S Ami du prophète

P Page et partie U Inconnu

C Poème N normal (dans le sanad)

S Section L dernier (dans le sanad)

PN Numéro de la page F premier (dans le sanad)

Table 5.1 – Les balises du corpus hadithien au format XML

Le fait que le corpus doit être extensible et pourra inclure d’autres recueils de Ha-dith comme «Sahih Moslem» et «Sunan Ibn Majah» a imposé plusieurs contraintes, à savoir :

– chacun des trois recueils comporte trois niveaux, bien que l’appellation des niveaux diffère d’un recueil à un autre. Pour ce faire, l’identifiant d’un hadith est composé d’une lettre représentant l’auteur du livre et le numéro du hadith extrait. Pour l’exemple de la figure 5.3, la balise <DOCNO> a comme valeur B-(1)-[1] qui désigne le premier hadith du livre de Al-Bukhari.

– certains recueils sont organisés en chapitres et en sous-chapitres, alors que d’autres, comme dans le cas de «Sahih Al-Bukhari», sont organisés en des chapitres seulement. Pour préserver toutes les informations indépendamment du recueil, nous décidons de mettre le nom du chapitre dans les balises

CHAPITRE 5. PROPOSITION D’UNE NOUVELLE COLLECTION STANDARD POUR LA RECHERCHE D’INFORMATION EN LANGUE ARABE

<GENRE> et <SUBJECT>. Nous faisons suivre, également, le nom du chapitre par celui du sous-chapitre, séparé par une virgule, dans la balise <SUBJECT> dans le cas où le recueil possède des sous-chapitres comme pour «Sunan Ibn Majah» par exemple.

La collection de hadiths contient plus que 7000 textes ayant une moyenne de 70 mots par hadith comme c’est présenté dans le tableau 5.2. Ce tableau résume l’ensemble des propriétés de la collection Kunuz.

Propriété Valeur

Nombre de hadiths 7031

Nombre total des mots des hadiths 476927 Longueur moyenne des hadiths 70

Nombre de catégories 97

Table 5.2 – Statistiques sur les documents de la collection « Kunuz »

Un nombre important de hadiths compte moins de 1000 mots tel que présenté dans la figure 5.4. Environ 80% des hadiths ont moins de 100 mots. Il y a seulement un hadith qui compte plus de 2300 mots. Ainsi, nous pouvons considérer que les textes de hadiths de la collection « Kunuz » pourraient être classés comme des documents courts.

Figure 5.4 – La distribution de la longueur des documents des Hadiths de la collection de test « Kunuz »

Le livre de « Sahih Al-Bukhari » utilisé pour la construction de la collection « Kunuz » , contient environ 97 chapitres groupant les textes des hadiths ayant des sujets similaires. Nous présentons, dans la figure 5.5, le nombre de hadiths par chapitre dans les 25 plus grands chapitres couvrant près de 60% des hadiths de la collection. Dans la figure 5.6, nous donnons les traductions et les translitérations des noms de ces 25 chapitres.

CHAPITRE 5. PROPOSITION D’UNE NOUVELLE COLLECTION STANDARD POUR LA RECHERCHE D’INFORMATION EN LANGUE ARABE

Figure 5.5 – Distribution des documents dans les 25 principaux chapitres de « Sa-hih Al-Bukhari »

Chapitre Traduction Translitération

à@Q

®Ë@ Q®_K _{L’interprétation du Coran} _{tafsiyr Alqur>An} QË@ ð XAêm_.Ì'@ Jihad et biographies AljihAdu w Als~iyaru

H.X B@ Le comportement Al>adabu i.mÌ'@ Le pèlerinage AlHaj~u ÕÎ ð éJÊ« é <Ë@ ú Î ú ^æ. _JË@

É KA_¯ _{Les vertus et les compagnons du Prophète (PBSL)} _{faDA<ilu Alnabiy~i sal~a All~ahu Ealayhi wa sal~ama}

AJ.ÊË@ Les habits All~ibAs

hA¾ _JË@ _{Le mariage} _Aln~ikAH

¨ñJJ.Ë@ Affaires financières AlbuyuwE

A¯QË@ Adoucissement du cœur Alr~iqAq

B@ I_.¯AJÓ Les vertus des Ansars manAqibu Al>anSAr

Q KAJm.Ì'@ Les funérailles AljanA<iz

èC _Ë@ _é

® Description de la prière Sifapu AlSalAp

mÌ'@ ZYK. Le début de la création bad’u Alxalq

èC _Ë@ _{La prière} _AlSalAp

ø^{PA ªÜÏ@} Maghazi AlmagAzy

à@XB@ L’appel à la prière Al>A*An

ÕÎ ð éJÊ« é <Ë@ ú

Î ú

^æ._{JË@ H.A} _m

@ Les compagnons du Prophète (PBSL) >aSHAb Alnabiy~i sal~a All~ahu Ealayhi wa sal~ama ZAJ.^KB@ IKXAg

@ Les paroles des prophètes >aHAdyv Al>anbiyA’

Ðñ_Ë@ _{Le jeûne} _AlSawm

Zñ ñË@ L’ablution AlwuDuw’

H@ ñ«

YË@ Les supplications AldaEawaAt

é_J Ë@ ð H_{. A}_Jº

ËAK. ^ÐAJ«B @ Le respect du Coran et Sunnah Al>iEtiSAm biAlkitAb w Alsu~n~p

èA¿_QË@ Zakat AlzakAp

. ¢Ë@ ^{La médecine} ^AlTib~u

éÒª£

B@ La nourriture Al>aTEimap

CHAPITRE 5. PROPOSITION D’UNE NOUVELLE COLLECTION STANDARD POUR LA RECHERCHE D’INFORMATION EN LANGUE ARABE

5.4 La sélection de requêtes

Les requêtes, dont les objectifs sont expérimentaux, peuvent être créées en utili-sant des différentes approches. Ces requêtes peuvent être acquises soit à partir d’un journal de requêtes ou directement à partir des utilisateurs potentiels [Croft et al., 2009]. Une telle approche (demandant aux éventuels utilisateurs des exemples de requêtes) fournit des résultats plus incontestables et comble le vide entre l’environ-nement réel et l’environl’environ-nement des algorithmes développés. Ainsi, la sélection de nos requêtes, se fait par une équipe de 10 chercheurs pouvant être définis comme des utilisateurs potentiels de la collection de test. Ces utilisateurs font partie de l’équipe de JARIR1 (Joint group for Artificial Reasoning and Information Retrieval).

5.4.1 Les critères de sélection

Nous sélectionnons l’ensemble des requêtes du standard de test parmi les «fat-was» (avis consultatifs) proposées par les internautes sur le site web «islamweb.com» vu que ce site est l’un des plus utilisés et contient l’encyclopédie des hadiths la plus volumineuse. Nous recueillons manuellement les requêtes parmi les «fatwas» du site «islamweb» en respectant les critères suivants :

– essayer de choisir les fatwas les plus lues et qui apparaissent, de préférence, dans l’espace « mokhtarat markaz alfatwa » (

_{øñ J}_{® Ë@ Q »Q Ó} _{H@PA J}_m×

; Les sélections du centre des avis consultatifs) car il contient des « fatwas » qui sont choisies par les experts du site,

– choisir des fatwas ayant des hadiths dans la réponse,

– éviter les fatwas avec des sujets vagues (et qui risquent d’avoir un grand nombre de hadiths comme réponses) et celles qui sont très restrictives (celles qui ont très peu de réponses),

– choisir des requêtes parmi les 23 grands thèmes (genres) présents dans is-lamweb. Le nombre de requêtes à sélectionner d’un thème donné doit être proportionnel à sa popularité,

– choisir des fatwas modernes et des fatwas avec des sujets classiques à la fois.

CHAPITRE 5. PROPOSITION D’UNE NOUVELLE COLLECTION STANDARD POUR LA RECHERCHE D’INFORMATION EN LANGUE ARABE

5.4.2 L’ensemble des requêtes résultantes

Nous choisissons 58 requêtes pour le standard « Kunuz » [Ben Khiroun et al., 2014] conçues à partir d’une variété de thèmes. Nous représentons les requêtes dans des formats similaires aux requêtes de TREC en vue de fournir des lignes directrices plus tard pour les jugements de la pertinence des documents par rapport aux requêtes.

Le format standard est principalement composé de balises structurées en trois champs : le titre, la description et la narration. De même, les deux parties de la question et de la réponse à la fatwa sont utilisées dans les balises du format XML décrivant le titre <title> et la description <description>. La figure 5.7 présente l’exemple de la requête numéro 51 traitant le sujet du meurtre par compassion (l’eu-thanasie). La balise <topic> annonce le début d’une nouvelle requête. L’attribut associé lang indique que la langue utilisée est l’arabe (ar). En effet, la collection standard est destinée à être étendue par l’ajout d’autres langues. Ainsi, une collec-tion de test multilingue pourra être envisagée.

<identifier>B-51</identifier> <title>ميِحَّرلا لْتَقْلا مْكُح</title>

<description>؟ْمِهِتاَيَح ِءاَهْنِإ ىَلَع ىَضْرَملا ةَدَعاَسُمِب ِءاَبِطَلأا ِضْعَب ُماَيِق ُمْكُح َوُه اَم </description> </topic>

Figure 5.7 – Exemple d’une requête de la collection Kunuz au format TREC

La longueur moyenne du contenu de la balise <title> dans les requêtes de Kunuz est d’environ 5 mots par requête. Les requêtes les plus courtes et les plus longues contiennent, respectivement, 2 et 9 mots. Un aperçu des requêtes de la collection « Kunuz » est listé dans le tableau 5.3.

Propriété Valeur

Nombre de requêtes 58

Nombre total de mots dans la section « title » 306 La longueur moyenne des mots de la section « title » ~ 5 Nombre total des mots dans la section « description » 1069 Longueur moyenne des mots de la section « description » ~ 18

Table 5.3 – Statistiques sur les requêtes dans la collection « kunuz »

5.5 Le jugement de pertinence

La tâche de jugement de pertinence est considérée comme critique pour la construction des collections standards de test pour la recherche d’information. En

CHAPITRE 5. PROPOSITION D’UNE NOUVELLE COLLECTION STANDARD POUR LA RECHERCHE D’INFORMATION EN LANGUE ARABE

fait, il est possible d’effectuer un jugement complet de la pertinence des petites collections de test pour toutes les paires document/requête. Cependant, dans des grandes collections de test comme le Hadith, cette approche est devenue difficile à accomplir. Par conséquent, nous fondons le processus de jugement sur la métho-dologie recommandée par TREC et nous développons un portail Web [Ayed et al.,

2014a] pour l’évaluation du corpus afin de faciliter la construction des listes de

pertinence.

Le jugement de pertinence peut être divisé en deux grandes étapes, à savoir (i) l’échantillonnage ; et, (ii) l’évaluation des échantillons sélectionnés. Nous décrivons à travers la figure 5.8 le processus de construction des échantillons pour une requête à partir de l’ensemble des documents. Cette opération est répétée pour toutes les requêtes.

En effet, nous spécifions dans la figure 5.8 les outils utilisés dans chaque étape de l’échantillonnage. Pour le stemming de la requête et des documents, nous utilisons les outils Arabic Light Stemmer, Alex Stemmer, Khoja Stemmer, le désambiguïseur possibiliste et les n-grammes de tailles 3 et 4 afin de produire les unités d’indexa-tion. L’indexation est faite moyennant Terrier2 et nous utilisons les trois modèles d’appariement BM25, PL2 et DFRee. Ces différentes étapes sont décrites en détails dans les paragraphes suivants.

5.5.1 Le Stemming des documents et des requêtes

En considérant les documents de la collection et les requêtes de test, nous vi-sons à créer une liste des documents pertinents pour chaque requête en suivant la méthodologie TREC dans laquelle un certain nombre de systèmes de recherche d’information sont utilisés pour récupérer les documents. Chaque SRI utilise (i) un outil pour générer les stems qui constituent les unités d’indexation ; et, (ii) un mo-dèle d’appariement. Ensuite, les résultats les mieux classés de tous les SRI utilisés sont fusionnés pour créer une liste de documents pertinents pour chaque requête.

Pour cette tâche, nous commençons par représenter les requêtes et les documents non pas sous leurs formats bruts, mais en fournissant leurs stems sous le même format TREC. Pour ce faire, nous faisons varier six stemmers parmi lesquels nous introduisons notre classifieur possibiliste (voir chapitre 4).

La tâche de l’analyse linguistique est normalement assurée par l’intermédiaire de la plateforme de recherche d’information Terrier. Mais vu que notre standard de test est en arabe, cette procédure doit être réalisée séparément.

Ainsi les six outils utilisées sont :

CHAPITRE 5. PROPOSITION D’UNE NOUVELLE COLLECTION STANDARD POUR LA RECHERCHE D’INFORMATION EN LANGUE ARABE Figure 5.8 – Pro cessus de construc tion des éc han tillons pour une requête

CHAPITRE 5. PROPOSITION D’UNE NOUVELLE COLLECTION STANDARD POUR LA RECHERCHE D’INFORMATION EN LANGUE ARABE

– Arabic Light Stemmer par Darwish [Darwish, 2002] : La démarche de cet outil consiste à enlever les suffixes et préfixes les plus fréquents dans la langue arabe. La figure 5.10 montre un exemple traité d’un document de hadith avec l’Arabic Light Stemmer. Cet exemple donne le résultat de stemming du document présenté par la figure 5.9.

Figure 5.9 – Exemple de hadith voyellé

Figure 5.10 – Exemple de hadith traité avec Arabic Light Stemmer

– Alex stemmer : ce stemmer a le même principe que son précédent. Toutefois, il peut supprimer des mots entiers s’il les juge comme mots vides. La figure 5.11 montre un exemple traité avec Alex stemmer du document de la figure 5.9.

Figure 5.11 – Exemple de hadith traité avec Alex Stemmer

– Khoja Stemmer [Khoja et Garside, 2001] : cet outil élimine les plus longs affixes des mots, et réduit ce qui reste d’eux à leurs racines en les faisant correspondre à des modèles verbaux et nominaux. L’inconvénient de ce stem-mer, c’est qu’il supprime parfois une lettre de la racine au cours du premier

CHAPITRE 5. PROPOSITION D’UNE NOUVELLE COLLECTION STANDARD POUR LA RECHERCHE D’INFORMATION EN LANGUE ARABE

traitement mentionné précédemment. La figure 5.12 montre l’exemple traité avec Khoja Stemmer du document de la figure 5.9.

Figure 5.12 – Exemple de hadith traité avec Khoja Stemmer

– n-gramme : Dans ces outils, nous utilisons une longueur fixe de n-gramme (trois pour le trigramme et quatre pour le quadrigramme) dans l’indexation et la recherche. Les entités du corpus sont séparés en mots de longueur égale à n. L’avantage de ces deux outils est qu’ils sont faciles à concevoir, n’exigent pas beaucoup de calcul et de traitement et ne nécessitent pas l’utilisation des ressources lexicales comme dans le cas des outils précédemment cités. Ces méthodes ont aussi quelques inconvénients, dont le grand nombre de mots produits et nécessite une longue liste de mots vides pour avoir un bon résultat. Les figures 5.13 et 5.14 montrent l’exemple de la figure 5.9 traité, respectivement, avec trigramme et quadrigramme.

Figure 5.13 – Exemple de hadith traité avec la méthode du Trigramme

Figure 5.14 – Exemple de hadith traité avec la méthode du Quadrigramme

– Désambiguiseur Possibiliste [Bounhas et al., 2015a, Bounhas et al., 2015b] : nous mettons en pratique notre outil morphologique (voir chapitre 4). Cet

CHAPITRE 5. PROPOSITION D’UNE NOUVELLE COLLECTION STANDARD POUR LA RECHERCHE D’INFORMATION EN LANGUE ARABE

outil analyse un mot, enlève son ambiguïté et retourne le stem correspondant au mot désambiguïsé. La figure 5.15 montre l’exemple du document de la fi-gure 5.9 traité avec le Désambiguïseur Possibiliste. Notre outil morphologique

Dans le document Désambiguïsation Morphologique de Textes Arabes à Base de Classification Possibiliste pour la Recherche d'Information Socio-Sémantique (Page 133-151)

Introduction

5.1 Vue globale

øñJ¯

Pñ J»

ù®¢ÖÏ@

5.2 Les caractéristiques de la collection de test

Kunuz

Pñ J»

5.3 La collection de documents

5.4 La sélection de requêtes

5.4.1 Les critères de sélection

øñ J® Ë@ Q »Q Ó  H@PA Jm×

5.4.2 L’ensemble des requêtes résultantes

5.5 Le jugement de pertinence

5.5.1 Le Stemming des documents et des requêtes

_øñJ_¯

ù®¢ÖÏ@

_{øñ J}_{® Ë@ Q »Q Ó} _{H@PA J}_m×