• Aucun résultat trouvé

La collection TREC (voir chapitre 3) offre le corpus le plus utilisé de la recherche d’information. Cette collection TREC incluant des documents, des requêtes et des jugements de pertinence, est la plus grande collection arabe actuellement dispo-nible. Elle est composée de documents en arabe et de requêtes en anglais. Nous développons également une version anglaise des requêtes afin de permettre l’éva-luation multilingue [Ben Khiroun et al., 2014]. La figure 5.2 présente un exemple d’une requête en arabe de la collection TREC 2001.

Figure 5.2 – Exemple d’une requête en arabe de TREC 2001

Nous construisons la collection Kunuz en extrayant les hadiths contenus dans le livre «Sahih AlBukhari», l’un des plus grands et plus fiables recueils de Hadith. Afin d’obtenir un corpus pouvant être facilement et largement utilisé, nous devons suivre un modèle standard de structuration des documents. Ainsi nous choisissons de nous conformer aux normes de TREC [Ben Khiroun et al., 2014]. Nous essayons d’adapter les informations de nos documents aux balises possibles du modèle XML de la collection TREC. L’aspect structuré du corpus hadithien (voir chapitre 3 section 3.3.2) facilite énormément l’organisation des différents documents. Un ha-dith, dans la collection kunuz, représente un document. La figure 5.3 présente un extrait du fichier XML de Sahih Al-Bukhari. La signification de chaque balise est détaillée dans le tableau 5.1. La sous-balise <GENRE> sous la balise <S l="1"> décrit, généralement, le thème du hadith dont son contenu est détaillé dans la ba-lise <TEXT>. La baba-lise <DOC> représente un document (hadith) pour lequel nous affectons un identifiant <DOCID>. La chaîne de narrateurs d’un hadith est représentée par une succession de balises décrivant chaque narrateur <R>. Nous présentons, ainsi, le fichier XML qui respecte le format standard de TREC.

CHAPITRE 5. PROPOSITION D’UNE NOUVELLE COLLECTION STANDARD POUR LA RECHERCHE D’INFORMATION EN LANGUE ARABE

Figure 5.3 – Exemple de hadith au format TREC

Balise Signification Attribut Signification

T Texte l Niveau de la section

Q Coran tl Tooltip (infobulle) du coran

R Rawi (Narrateur) S Connotation du narrateur

Text Metn TP Type du narrateur

TI Titre S Ami du prophète

P Page et partie U Inconnu

C Poème N normal (dans le sanad)

S Section L dernier (dans le sanad)

PN Numéro de la page F premier (dans le sanad)

Table 5.1 – Les balises du corpus hadithien au format XML

Le fait que le corpus doit être extensible et pourra inclure d’autres recueils de Ha-dith comme «Sahih Moslem» et «Sunan Ibn Majah» a imposé plusieurs contraintes, à savoir :

– chacun des trois recueils comporte trois niveaux, bien que l’appellation des niveaux diffère d’un recueil à un autre. Pour ce faire, l’identifiant d’un hadith est composé d’une lettre représentant l’auteur du livre et le numéro du hadith extrait. Pour l’exemple de la figure 5.3, la balise <DOCNO> a comme valeur B-(1)-[1] qui désigne le premier hadith du livre de Al-Bukhari.

– certains recueils sont organisés en chapitres et en sous-chapitres, alors que d’autres, comme dans le cas de «Sahih Al-Bukhari», sont organisés en des chapitres seulement. Pour préserver toutes les informations indépendamment du recueil, nous décidons de mettre le nom du chapitre dans les balises

CHAPITRE 5. PROPOSITION D’UNE NOUVELLE COLLECTION STANDARD POUR LA RECHERCHE D’INFORMATION EN LANGUE ARABE

<GENRE> et <SUBJECT>. Nous faisons suivre, également, le nom du chapitre par celui du sous-chapitre, séparé par une virgule, dans la balise <SUBJECT> dans le cas où le recueil possède des sous-chapitres comme pour «Sunan Ibn Majah» par exemple.

La collection de hadiths contient plus que 7000 textes ayant une moyenne de 70 mots par hadith comme c’est présenté dans le tableau 5.2. Ce tableau résume l’ensemble des propriétés de la collection Kunuz.

Propriété Valeur

Nombre de hadiths 7031

Nombre total des mots des hadiths 476927 Longueur moyenne des hadiths 70

Nombre de catégories 97

Table 5.2 – Statistiques sur les documents de la collection « Kunuz »

Un nombre important de hadiths compte moins de 1000 mots tel que présenté dans la figure 5.4. Environ 80% des hadiths ont moins de 100 mots. Il y a seulement un hadith qui compte plus de 2300 mots. Ainsi, nous pouvons considérer que les textes de hadiths de la collection « Kunuz » pourraient être classés comme des documents courts.

Figure 5.4 – La distribution de la longueur des documents des Hadiths de la collection de test « Kunuz »

Le livre de « Sahih Al-Bukhari » utilisé pour la construction de la collection « Kunuz » , contient environ 97 chapitres groupant les textes des hadiths ayant des sujets similaires. Nous présentons, dans la figure 5.5, le nombre de hadiths par chapitre dans les 25 plus grands chapitres couvrant près de 60% des hadiths de la collection. Dans la figure 5.6, nous donnons les traductions et les translitérations des noms de ces 25 chapitres.

CHAPITRE 5. PROPOSITION D’UNE NOUVELLE COLLECTION STANDARD POUR LA RECHERCHE D’INFORMATION EN LANGUE ARABE

Figure 5.5 – Distribution des documents dans les 25 principaux chapitres de « Sa-hih Al-Bukhari »

Chapitre Traduction Translitération

à@Q 

®Ë@ Q‚ ® K  L’interprétation du Coran tafsiyr Alqur>An Q  ‚Ë@ ð XA êm. Ì'@ Jihad et biographies AljihAdu w Als~iyaru

H.X B@ Le comportement Al>adabu  i. mÌ'@ Le pèlerinage AlHaj~u ÕÎ ƒ ð é JÊ « é <Ë@ ú  Γ ú æ.  JË@

É K A’ ¯ Les vertus et les compagnons du Prophète (PBSL) faDA<ilu Alnabiy~i sal~a All~ahu Ealayhi wa sal~ama

€A J. ÊË@ Les habits All~ibAs

hA¾  JË@ Le mariage Aln~ikAH

¨ñ J J.Ë@ Affaires financières AlbuyuwE



†A¯ QË@  Adoucissement du cœur Alr~iqAq

PA ’

B@ I.¯ A Les vertus des Ansars manAqibu Al>anSAr

Q K A J m.Ì'@ Les funérailles AljanA<iz

 èC ’Ë@ é 

®“ Description de la prière Sifapu AlSalAp

 ‡Ê

mÌ'@ ZY K. Le début de la création bad’u Alxalq



èC ’Ë@ La prière AlSalAp

ø PA ª ÜÏ@ Maghazi AlmagAzy

à@X B@ L’appel à la prière Al>A*An

ÕÎ ƒ ð é J Ê« é <Ë@ ú 

Γ ú

æ. JË@ H.A  m•

@ Les compagnons du Prophète (PBSL) >aSHAb Alnabiy~i sal~a All~ahu Ealayhi wa sal~ama ZA J. KB@  IKXAg

@ Les paroles des prophètes >aHAdyv Al>anbiyA’

Ðñ’Ë@  Le jeûne AlSawm

Zñ “ ñË@ L’ablution AlwuDuw’

 H@ ñ« 

YË@ Les supplications AldaEawaAt



éJ  ‚Ë@ ð H. A 

ËAK. ÐA ’J «B @ Le respect du Coran et Sunnah Al>iEtiSAm biAlkitAb w Alsu~n~p 

èA ¿QË@  Zakat AlzakAp

I

. ¢ Ë@ La médecine AlTib~u

 éÒª £

B@ La nourriture Al>aTEimap

CHAPITRE 5. PROPOSITION D’UNE NOUVELLE COLLECTION STANDARD POUR LA RECHERCHE D’INFORMATION EN LANGUE ARABE