• Aucun résultat trouvé

3.2 Les corpus arabes de recherche d’information

3.2.1 Les collections de TREC

3.2.3 Comparaison des corpus arabes . . . 64 3.2.4 Dicussion . . . 65

3.3 Le corpus hadithien . . . . 65

3.3.1 Caractéristiques des hadiths . . . 66 3.3.2 L’aspect structuré du corpus hadithien . . . 67 3.3.3 L’aspect social dans les hadiths . . . 68 3.3.4 L’aspect sémantique dans les hadiths . . . 69 3.3.5 Les travaux sur le corpus hadithien . . . 70 3.3.6 Synthèse . . . 74

Conclusion . . . . 76

Introduction

Afin de valider et d’étudier les performances d’un système de recherche d’infor-mation, il est indispensable de se référer à une collection standard qui contient une

CHAPITRE 3. LES CORPUS ARABES ET LE CORPUS HADITHIEN

liste de requêtes avec leurs documents pertinents. Le processus défini pour un SRI doit être appliqué sur les requêtes de cette collection. Un SRI est considéré per-formant s’il retourne un grand nombre de documents pertinents pour ces requêtes. Nous présentons dans ce chapitre les principaux corpus arabes et leurs utilisations dans divers domaines dont la recherche d’information. Nous étudions les aspects so-ciaux, sémantiques du corpus des hadiths afin d’aboutir à un SRI socio-sémantique basé sur ses caractéristiques.

3.1 Utilisation des corpus des langues naturelles

L’importance des corpus dans les recherches linguistiques est alignée à l’impor-tance des données expérimentales utilisées. Les données expérimentales permettent au linguiste de faire des déclarations objectives, plutôt que celles qui sont sub-jectives, ou sur la base de sa propre perception cognitive. Comme ces études ne peuvent pas être basées sur l’intuition ou des petits échantillons de la langue, elles exigent une analyse empirique de grandes bases de données textuelles. Les corpus peuvent être utilisés pour étudier un large éventail de sujets en linguistique. Ils permettent aux linguistes de contextualiser leurs analyses de la langue. Ils garan-tissent un stockage d’un grand nombre de textes et une analyse d’un grand nombre de caractéristiques linguistiques dans ces textes. Nous détaillons, dans les para-graphes suivants, l’utilité et la nécessité des corpus dans le traitement des langues naturelles.

3.1.1 Utilisation des corpus en lexique

La lexicographie étudie les méthodes et les approches d’élaboration des diction-naires [Davies et Elder, 2008]. La recherche en lexicographie étudie les significations, les synonymes et les utilisations des mots. Ces études ont été déployées en utilisant des techniques fondées sur des corpus pour examiner les méthodes d’utilisation des mots. Ces méthodes étudient les différents comportements des mots, les divers sens d’un mot donné, les associations systématiques entre les mots de la même langue et les associations systématiques des mots avec d’autres mots de dialectes différents. Le lexicographe peut être plus confiant en se référant à un corpus pour que les résultats obtenus reflètent la signification réelle d’un mot particulier avec plus de précision. Les données d’un corpus contiennent une quantité riche d’informations textuelles (variété régionale, auteur, date, genre et catégorie grammaticale). Il est plus facile donc de définir les utilisations de certains mots ou phrases comme étant typiques, par exemple, de certaines variétés régionales, des genres ou des auteurs.

CHAPITRE 3. LES CORPUS ARABES ET LE CORPUS HADITHIEN

car il permet de découvrir des nouveaux mots qui font partie de la langue et des mots qui changent de sens. Ce type de corpus reflète précisément la signification réelle d’un mot particulier. Un corpus dispose aussi d’un rôle important dans le domaine lexical. Un linguiste, ayant un accès à un corpus, peut extraire toutes les instances d’un mot. Les dictionnaires peuvent être produits et révisés beaucoup plus rapidement qu’auparavant. Ils fournissant, ainsi, des informations mises à jour sur la langue. En outre, les définitions peuvent être plus complètes et plus précises, car un plus grand nombre d’exemples sont étudiés. Les corpus interviennent dans la construction des dictionnaires essentiellement par :

– L’identification des significations des mots : l’un des avantages de la recherche sur le corpus est qu’il peut être utilisé pour montrer tous les contextes dans lesquels un mot apparaît. Il est possible d’identifier les différentes significa-tions associées à un mot. Le type d’ambiguïté, traduisant le fait qu’un mot peut avoir plus d’un sens dans des contextes différents, peut être incontes-tablement détecté en utilisant un corpus. Le tableau 3.1 montre les sens du nom arabe «

àñ KA®Ë@

» (AlqAnwn) dans des contextes distincts.

Phrase Traduction de la phrase Sens du mot

àñ KA®ËAK. ù

®JƒñÖÏ@ ¬ QªK

Le musicien joue de la cithare La cithare

ú

GA Jm.Ì'@ àñ KA®Ë@ éJ.Ê£

Les étudiants du droit pénal Le droit Table 3.1 – Les différents sens du mot

àñ KA®Ë@

– Le calcul du nombre des fréquences d’un mot : dans la première étape dans la compréhension des modes d’utilisation associées à un mot, certaines questions doivent être posées comme : quels sont les mots les plus courants dans une langue ? Quels sont les mots rares ou moins fréquents ? Comment un mot particulier est-il classé en tant que fréquent ou rare ? Toutes ces interrogations sont reconnues en fouillant dans un grand corpus linguistique en calculant les fréquences de chaque mot [Biber et al., 1998].

– L’étude des variations de la catégorie grammaticale ce qui aide ainsi à désa-mbiguïser morphologiquement certains mots : la fréquence d’un mot ayant une catégorie grammaticale particulière (nom, verbe ou adjectif) est calcu-lée ; puisqu’un mot peut avoir plusieurs catégories grammaticales dans des

CHAPITRE 3. LES CORPUS ARABES ET LE CORPUS HADITHIEN

contextes différents, comme indiqué dans le tableau 3.2.

Phrase Traduction de la

phrase Sens du mot Catégorie grammaticale

éJÓY¯ úΫ É®¢Ë@ ­ ¯ð

L’enfant s’est mis debout sur

ses pieds

s’est mis debout Verbe passif



H@PAJ‚Ë@ ©JK. ð ­ ¯ð

La cession et la vente des

voitures

cession Nom

Table 3.2 – Les catégories grammaticales du mot

­ ¯ð

(wqf )

– L’utilisation des synonymes : les langues possèdent une variété de mots qui sont considérés comme synonymes. Grâce aux corpus, les chercheurs peuvent facilement reconnaitre les synonymes d’un mot, la fréquence de chacun de ces synonymes et le synonyme le plus fréquent.

– La reconnaissance des formes des mots selon leur flexion casuelle : comme la forme de quelques mots arabes peut changer en fonction de leurs cas (nomi-natif, accusatif ou génitif), le corpus permet aux utilisateurs de connaître les variations qui se produisent à certains mots. Par exemple, le mot arabe, qui signifie les joueurs, est au nominatif

àñJ.«CË@

(All~AEbwn) et change de forme à l’accusatif et devient

áJ.«CË@

(All~AEbyn).

3.1.2 Utilisation des corpus en grammaire

La recherche basée sur les corpus peut être appliquée à la grammaire au niveau du mot, de la phrase et du discours pour comprendre la structure d’un texte. Il est possible d’utiliser un corpus pour obtenir des informations sur la structure et l’utili-sation de nombreuses constructions grammaticales et se baser sur ces informations pour écrire une grammaire d’une langue de référence. Bien que la recherche gram-maticale, selon les linguistiques, soit presque exclusivement descriptive plutôt que directive, ces linguistiques n’ont pas généralement eu recours à des méthodes empi-riques pour étudier l’utilisation de la langue [Habash et al., 2007]. Les grammairiens descriptifs utilisent les textes de domaines particuliers pour identifier les différents

CHAPITRE 3. LES CORPUS ARABES ET LE CORPUS HADITHIEN

paradigmes dans une langue, tandis que les grammairiens directifs s’appuient gé-néralement sur leurs propres intuitions sur la langue. Cette intuition est parfois complétée en demandant aux locuteurs natifs de juger si les phrases construites sont grammaticalement correctes ou pas. En outre, aucune de ces approches ne se concentre sur la variation de l’utilisation de la langue. De ce fait, les grammairiens trouvent le rôle important des corpus dans les recherches sur la grammaire d’une langue.

Les corpus ont été utilisés le plus dans les études grammaticales (ou syntaxiques) ainsi que les études lexicales. Un corpus constitue un outil utile pour la recherche syntaxique grâce à :

– Sa capacité de quantification de toutes les variétés de représentations d’une langue.

– Son rôle en tant que données empiriques pour tester des hypothèses dérivées des théories grammaticales.

Les corpus interviennent dans la construction des grammaires, essentiellement, par : – L’étude des caractéristiques morphologiques : cette étude nous permet, en nous référant à un corpus, de nous renseigner à la fois sur la fréquence et sur la distribution des valeurs d’une caractéristique morphologique. L’ana-lyse morphologique utilisant un corpus permet par exemple de rechercher des préfixes ou des suffixes particuliers en langue arabe.

– La distribution des mots et la construction syntaxique : à partir d’un grand corpus, les gammairiens peuvent facilement déterminer la distribution des mots. Par exemple, les prépositions

ú

¯

(dans ; fy),

áÓ

(de ; mn) et

úΫ

(sur ; ElY ) occurrent généralement avant les noms. En déterminant ces règles, les grammairiens peuvent exclure des restrictions de syntaxe d’une langue.

3.1.3 Utilisation des corpus en sémantique

Les études de la sémantique des langues naturelles permettent d’extraire des ressources déterminant les sens des mots à partir d’un corpus.

L’information sémantique, allant de la synonymie ou l’antonymie aux relations verbales assez complexes, peut être apprise à partir d’un corpus. La principale contribution apportée par les corpus linguistiques à la sémantique est d’aider à

CHAPITRE 3. LES CORPUS ARABES ET LE CORPUS HADITHIEN

établir une approche objective. L’auteur dans [Rooy, 2003] montre comment un corpus peut être utilisé afin de fournir des informations objectives d’attribution de sens à des termes linguistiques. Il souligne que souvent en sémantique, les signifi-cations des termes sont décrites en se référant à ses propres intuitions du linguiste. Les distinctions sémantiques sont associées dans les textes à des caractéristiques syntaxiques et morphologiques observables [Biber et al., 1998].

3.1.4 Utilisation des corpus dans la recherche d’information

Il y a beaucoup de corpus linguistiques dont l’intérêt est plutôt statistique et computationnel que linguistique. Les linguistes ont créé et utilisé ces corpus pour ef-fectuer des recherches en traitement automatique de la langue naturelle en termes de tagging, d’analyse morphologique, de recherche d’information et de reconnaissance de la parole. Ces corpus sont conçus différemment. Un corpus pour la recherche d’information est composé de plusieurs textes qui constituent des documents et des requêtes. On précise, pour chaque requête du corpus ses documents pertinents et non pertinents. D’autres informations peuvent être associées à ces requêtes et/ou documents telles les degrés de pertinence donnés par des experts en linguistique et les fréquences des mots. Ces corpus sont considérés comme des standards de test auxquels les chercheurs se référent pour évaluer leurs systèmes de recherche d’in-formation. Un corpus constitue un élément indispensable pour la construction et l’évaluation d’un SRI. Nous présentons dans les paragraphes suivants les corpus les plus répandus dans la recherche d’information en langue arabe.

3.2 Les corpus arabes de recherche d’information

Le traitement du langage naturel, y compris la recherche d’information, la tra-duction automatique et d’autres applications liées, montre l’intérêt de la recherche sur l’arabe pendant ces dernières années. Les corpus sont des ressources impor-tantes et deviennent une nécessité fondamentale pour le progrès de ces recherches. Cependant, l’arabe manque de ressources dans ce domaine. De nombreux essais ont été menés afin de construire des corpus arabes, mais certains d’entre eux ont été infructueux et d’autres ont été créés pour des buts commerciaux [Darwish, 2014]. Les corpus arabes ont été collectés pour diverses applications. Ils ont été conçus pour construire des dictionnaires arabes et même en d’autres langues parmi lesquels nous notons le corpus de Buckwalter1. D’autres corpus représentent une ressource linguistique pour la grammaire, la syntaxe et la morphologie arabe comme le corpus

CHAPITRE 3. LES CORPUS ARABES ET LE CORPUS HADITHIEN

coranique2 et le corpus Arabic Gigaword3. D’autres corpus ont été collectés pour la traduction comme le corpus des textes parallèles (arabe - anglais) [Ziemski et al.,

2016].

Les corpus présentent les plus importantes ressources pour la recherche d’in-formation [Darwish, 2014]. La langue arabe a un nombre limité de corpus pour la recherche et l’expérimentation, dont la majorité sont construits sur de textes de journaux. En outre, le LDC4 commercialise plusieurs corpus arabes. Nous présen-tons, dans ce qui suit, une brève description des corpus utilisés pour la RI arabe et nous discutons et critiquons les travaux existants.

3.2.1 Les collections de TREC

TREC (Text REtrieval Conference) est une conférence internationale qui ras-semblent plusieurs ateliers sur divers axes du domaine de la recherche d’infomra-tion. Elle est active depuis plus de 15 ans. Le but de TREC est, essentiellement, académique, gouvernemental, commercial et institutionnel.

En 2001, TREC inclut pour la première fois une piste pour la recherche d’in-formation en langue arabe [Voorhees et Donna, 2002], plus précisément une piste pour la recherche d’information translinguistique CLIR (Cross-Language Informa-tion Retrieval), afin de tester l’utilisaInforma-tion des requêtes en français ou en anglais sur des documents arabes, ainsi que la recherche monolingue utilisant des requêtes arabes. Les expérimentations ont été menées en utilisant les techniques de stem-ming, de lemmatisation et des n-grammes moyennant des systèmes de traduction automatique, des lexiques de traduction, des corpus parallèles et des textes trans-littérés.

La piste CLIR dans TREC 2002 a porté sur trois grandes questions : (i) une plus grande discussion sur les techniques de CLIR ; (ii) les problèmes spécifiques à la langue arabe, tels que l’identification et l’élimination des mots vides ; et, (iii) l’augmentation de la dépendance de multiples sources de données pour surmonter la limitation de toute source unique [Larkey et al., 2002a].

L’introduction de l’arabe par TREC a résolu plusieurs problèmes concernant la normalisation des outils et la généralisation des résultats. Auparavant, ces pro-blèmes ont été négligés. En effet, les chercheurs ont travaillé avec des petits en-sembles de données et n’avaient aucun moyen systématique de la création des re-quêtes et des jugements de pertinence. Les résultats obtenus, en utilisant un large corpus avec ses requêtes et ses jugements de pertinence, peuvent maintenant être

2. http://corpus.quran.com/

3. https://catalog.ldc.upenn.edu/LDC2011T11 4. https://catalog.ldc.upenn.edu/LDC2005T16

CHAPITRE 3. LES CORPUS ARABES ET LE CORPUS HADITHIEN

appliqués à d’autres recherches dans des circonstances différentes.

Les corpus TREC 2001 et TREC 2002 sont les plus utilisés pour le test et l’éva-luation des recherches en RI [Darwish, 2014]. L’ensemble des requêtes associées au corpus de LDC a été créé en TREC 2001 et TREC 2002. Ces requêtes sont de l’ordre de 50 et ont été développées par des arabophones, puis traduites en anglais et en français. Les jugements de pertinence pour ces requêtes étaient obtenus en utilisant une évaluation par échantillonnage (relevant les 70 meilleurs documents de chaque exécution, d’une requête, avec une taille moyenne de 910 documents pour chaque échantillon). Pour TREC 2001, le nombre moyen des documents pertinents pour 25 requêtes était de 164,9. Cinq requêtes avaient plus de 300 documents perti-nents [Voorhees et Donna, 2002]. Pour TREC 2002, le nombre moyen de documents pertinents pour les 50 requêtes était 118.2 avec 8 requêtes ayant plus de 300 docu-ments et 16 requêtes ayant moins de 25 docudocu-ments. Les docudocu-ments non inclus dans l’échantillon ne sont pas jugés et leur pertinence n’est pas évaluée. Par conséquent, ils sont supposés être non pertinents.

La taille d’un échantillon est relativement faible (environ 1000 documents), par conséquent, de nombreux documents apparaissent comme non pertinents. Voorhees et Harman [Voorhees et Donna, 2002] ont observé que la différence dans les juge-ments de pertinence pour les corpus arabes, à travers des requêtes et des groupes de recherche de TREC 2001, a été supérieure à celle rapportée pour les expérimenta-tions précédentes de TREC dans la RI translinguistique. Ainsi, pour 7 requêtes, plus que la moitié des documents pertinents ont été récupérés par un seul échantillon et pour 6 requêtes entre 40% et 50% des documents pertinents ont été récupérés par un groupe d’échantillons.