• Aucun résultat trouvé

Désambiguïsation Morphologique de Textes Arabes à Base de Classification Possibiliste pour la Recherche d'Information Socio-Sémantique

N/A
N/A
Protected

Academic year: 2021

Partager "Désambiguïsation Morphologique de Textes Arabes à Base de Classification Possibiliste pour la Recherche d'Information Socio-Sémantique"

Copied!
230
0
0

Texte intégral

(1)Désambiguïsation Morphologique de Textes Arabes à Base de Classification Possibiliste pour la Recherche d’Information Socio-Sémantique Raja Ayed. To cite this version: Raja Ayed. Désambiguïsation Morphologique de Textes Arabes à Base de Classification Possibiliste pour la Recherche d’Information Socio-Sémantique. Informatique [cs]. Ecole Nationale des Sciences de l’Informatique (ENSI), Université de la Manouba, 2017. Français. �tel-02047431�. HAL Id: tel-02047431 https://hal.archives-ouvertes.fr/tel-02047431 Submitted on 24 Feb 2019. HAL is a multi-disciplinary open access archive for the deposit and dissemination of scientific research documents, whether they are published or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.. L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés..

(2) Ministère de l’Enseignement Supérieur et de la Recherche Scientifique Université de la Manouba Ecole Nationale des Sciences de l’Informatique. Thèse Présentée en vue de l’obtention du diplôme de. Docteur en Informatique. Désambiguïsation Morphologique de Textes Arabes à Base de Classification Possibiliste pour la Recherche d’Information Socio-Sémantique. par :. Raja Ayed Soutenue le 22/12/2017 devant le jury composé de Président : Pr. Henda Hajjami Ben Ghezala, ENSI, Université de la Manouba Rapporteur : Pr. Kamel Smaïli, Université de Lorraine Rapporteur : Pr. Kais Haddar, FSS, Université de Sfax Examinateur : Pr. Lamia Labed Jilani, ISG, Université de Tunis Directeur : Pr. Narjès Bellamine Ben Saoud, ENSI, Université de la Manouba.

(3) Dédicaces. À ma mère À la mémoire de mon père À la mémoire de mes grands parents À mon mari et ma fille À mon frère et sa petite famille À mes beaux-parents et mes beaux-frères À toute ma famille À mes amis À tous ceux qui me sont chers. i.

(4) Remerciements Mes remerciements s’adressent à ma directrice de thèse Professeur Narjès BELLAMINE et mon encadrant Docteur Bilel ELAYEB pour leur disponibilité, leur soutien perpétuel, leurs précieuses directives et leurs idées scientifiques. Qu’ils trouvent ici le fruit de nos efforts comme témoignage de ma gratitude et de mon respect. Je suis et je serai toujours très reconnaissante envers Docteur Ibrahim BOUNHAS qui m’a beaucoup aidé à réaliser ce travail de recherche avec ses idées enrichissantes et son aide précieux. Je tiens à exprimer ma profonde gratitude aux membres du jury qui m’ont honoré d’avoir accepté d’évaluer ce travail. En particulier, je remercie : Professeur Henda HAJJAMI BEN GHEZALA d’avoir accepté de présider le jury de ma thèse. Professeur Kamel SMAILI et Professeur Kais HADDAR pour l’honneur qu’ils m’ont fait en acceptant d’être les rapporteurs de cette thèse. Professeur Lamia LABED JILANI pour avoir accepté d’être l’examinatrice de ma thèse. Je tiens à remercier aussi tous les membres du Laboratoire RIADI et particulièrement les membres de notre équipe pour leurs encouragements persistants. Je remercie aussi tous mes enseignants de l’ENSI qui ont contribué à ma formation. Qu’ils trouvent ici le résultat de leurs efforts. Je remercie également mes collègues à la Faculté des Sciences de Gabes et mes amies Ons, Olfa, Nour et Wafa pour l’ambiance sympathique qu’elles ont réussi à instaurer. Je n’oublie pas de saluer fortement tous mes amis et les membres de ma grande famille notamment ma mère et mon mari pour leur patience et de m’avoir encouragé et toléré mes absences continues et répétitives. Qu’ils trouvent dans cette thèse une récompense de leurs sacrifices.. ii.

(5) Table des matières Introduction Générale. 1. I. 5. Etat de l’Art. 1 Recherche d’Information et Langue Arabe. 1.1. 1.2. 1.3. 6. Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 6. Concepts de base de la Recherche d’Information . . . . . . . . . . .. 7. 1.1.1. L’indexation . . . . . . . . . . . . . . . . . . . . . . . . . . .. 10. 1.1.2. L’appariement . . . . . . . . . . . . . . . . . . . . . . . . . .. 11. 1.1.3. L’évaluation . . . . . . . . . . . . . . . . . . . . . . . . . . .. 13. 1.1.4. Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 16. La Recherche d’information en langue Arabe . . . . . . . . . . . . .. 16. 1.2.1. Le prétraitement des textes Arabes . . . . . . . . . . . . . .. 17. 1.2.1.1. La normalisation orthographique . . . . . . . . . .. 17. 1.2.1.2. L’élimination des mots vides . . . . . . . . . . . . .. 19. 1.2.1.3. Préparation de l’unité d’indexation . . . . . . . . .. 19. 1.2.2. Comparaison des systèmes de recherche d’information arabes. 23. 1.2.3. Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 26. La Recherche d’information socio-sémantique sturcturée . . . . . . .. 26. 1.3.1. L’aspect socio-sémantique . . . . . . . . . . . . . . . . . . .. 26. 1.3.1.1. La sémantique de contenu . . . . . . . . . . . . . .. 27. 1.3.1.2. La sémantique formelle . . . . . . . . . . . . . . . .. 27. 1.3.1.3. La sémantique sociale . . . . . . . . . . . . . . . .. 28. iii.

(6) TABLE DES MATIÈRES. 1.3.2. Les méthodes et les techniques de recherche socio-sémantique. 28. 1.3.2.1. L’indexation dans la RI socio-sémantique . . . . . .. 28. 1.3.2.2. L’appariement dans la RI socio-sémantique . . . .. 29. 1.3.3. L’aspect structuré . . . . . . . . . . . . . . . . . . . . . . . .. 30. 1.3.4. La recherche d’information socio-sémantique structurée arabe 30. 1.3.5. Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 32. Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 34. 2 Analyse et Désambiguïsation Morphologique de textes Arabes. 2.1. Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 36. L’analyse morphologique arabe . . . . . . . . . . . . . . . . . . . .. 37. 2.1.1. La morphologie arabe . . . . . . . . . . . . . . . . . . . . . .. 37. 2.1.1.1. La morphologie dérivationnelle . . . . . . . . . . .. 39. 2.1.1.2. La morphologie flexionnelle . . . . . . . . . . . . .. 39. Les analyseurs morphologiques . . . . . . . . . . . . . . . . .. 41. 2.1.2.1. L’analyseur Sebawai . . . . . . . . . . . . . . . . .. 41. 2.1.2.2. L’analyseur Xerox . . . . . . . . . . . . . . . . . .. 42. 2.1.2.3. L’analyseur de Buckwalter . . . . . . . . . . . . . .. 43. 2.1.2.4. L’analyseur d’Attia . . . . . . . . . . . . . . . . . .. 44. 2.1.2.5. AlKhalil . . . . . . . . . . . . . . . . . . . . . . . .. 45. 2.1.2.6. Comparaison des analyseurs morphologiques . . . .. 45. L’ambiguité morphologique . . . . . . . . . . . . . . . . . . . . . . .. 47. 2.2.1. Les principales sources de l’ambiguité morphologique . . . .. 47. 2.2.1.1. Ambiguïté d’agglutination . . . . . . . . . . . . . .. 47. 2.2.1.2. Ambiguïté dérivationnelle et ambiguïté flexionnelle. 48. 2.2.1.3. Ambiguïtés de la non voyellation . . . . . . . . . .. 49. Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 49. 2.1.2. 2.2. 2.2.2 2.3. 36. La désambiguïsation morphologique. . . . . . . . . . . . . . . . . .. 50. 2.3.1. Les approches à base de règles . . . . . . . . . . . . . . . . .. 51. 2.3.2. Les approches statistiques . . . . . . . . . . . . . . . . . . .. 51. 2.3.2.1. 52. L’outil MADA . . . . . . . . . . . . . . . . . . . . iv.

(7) TABLE DES MATIÈRES. 2.3.2.2. L’outil MADAMIRA . . . . . . . . . . . . . . . . .. 53. 2.3.3. Les approches hybrides . . . . . . . . . . . . . . . . . . . . .. 53. 2.3.4. Discussion. . . . . . . . . . . . . . . . . . . . . . . . . . . .. 54. Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 55. 3 Les corpus arabes et le corpus hadithien. 3.1. 3.2. 3.3. 56. Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 56. Utilisation des corpus des langues naturelles . . . . . . . . . . . . .. 57. 3.1.1. Utilisation des corpus en lexique . . . . . . . . . . . . . . . .. 57. 3.1.2. Utilisation des corpus en grammaire . . . . . . . . . . . . . .. 59. 3.1.3. Utilisation des corpus en sémantique . . . . . . . . . . . . .. 60. 3.1.4. Utilisation des corpus dans la recherche d’information . . . .. 61. Les corpus arabes de recherche d’information . . . . . . . . . . . . .. 61. 3.2.1. Les collections de TREC. . . . . . . . . . . . . . . . . . . .. 62. 3.2.2. La collection ZAD . . . . . . . . . . . . . . . . . . . . . . .. 63. 3.2.3. Comparaison des corpus arabes . . . . . . . . . . . . . . . .. 64. 3.2.4. Dicussion . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 65. Le corpus hadithien . . . . . . . . . . . . . . . . . . . . . . . . . . .. 65. 3.3.1. Caractéristiques des hadiths . . . . . . . . . . . . . . . . . .. 66. 3.3.2. L’aspect structuré du corpus hadithien . . . . . . . . . . . .. 67. 3.3.3. L’aspect social dans les hadiths . . . . . . . . . . . . . . . .. 68. 3.3.4. L’aspect sémantique dans les hadiths . . . . . . . . . . . . .. 69. 3.3.5. Les travaux sur le corpus hadithien . . . . . . . . . . . . . .. 70. 3.3.5.1. L’analyse morphologique . . . . . . . . . . . . . . .. 70. 3.3.5.2. La recherche d’information . . . . . . . . . . . . . .. 71. 3.3.5.3. La classification . . . . . . . . . . . . . . . . . . . .. 72. Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 74. Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 76. 3.3.6. v.

(8) TABLE DES MATIÈRES. II. Contributions. 77. 4 Approches Proposées de Désambiguïsation Morphologique de Textes Arabes 78 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 79. Théorie des possibilités . . . . . . . . . . . . . . . . . . . . . . . . .. 80. 4.1.1. La distribution de possibilité . . . . . . . . . . . . . . . . . .. 80. 4.1.2. Les mesures de possibilité et de nécessité . . . . . . . . . . .. 80. 4.1.3. La classification possibiliste . . . . . . . . . . . . . . . . . .. 81. 4.1.4. Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 81. 4.2. Analyse morphologique et préparation des données . . . . . . . . .. 82. 4.3. Approche de désambiguïsation possibiliste de base . . . . . . . . . .. 83. 4.3.1. Vue globale . . . . . . . . . . . . . . . . . . . . . . . . . . .. 84. 4.3.2. La phase d’apprentissage . . . . . . . . . . . . . . . . . . . .. 87. 4.3.3. La phase de test . . . . . . . . . . . . . . . . . . . . . . . . .. 90. 4.3.4. Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 91. Approche de classification possibiliste discriminante avec modèle de pondération . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 91. 4.4.1. Vue globale . . . . . . . . . . . . . . . . . . . . . . . . . . .. 92. 4.4.2. Le classifieur possibiliste discriminant . . . . . . . . . . . . .. 92. 4.4.3. Le modèle de pondération . . . . . . . . . . . . . . . . . . .. 93. 4.4.4. Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100. 4.4.5. La possibilité lexicale . . . . . . . . . . . . . . . . . . . . . . 100. 4.1. 4.4. 4.5. Approche possibiliste hybride . . . . . . . . . . . . . . . . . . . . . 102. 4.6. Méthode proposée de traitement des mots inconnus . . . . . . . . . 105. 4.7. Proposition d’une approche de transformation pour la désambiguïsation non-possibiliste . . . . . . . . . . . . . . . . . . . . . . . . . 109. 4.8. Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113. 5 Proposition d’une Nouvelle Collection Standard pour la Recherche d’Information en Langue Arabe 115. vi.

(9) TABLE DES MATIÈRES. Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116 5.1. Vue globale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116. 5.2. Les caractéristiques de la collection de test Kunuz . . . . . . . . . . 117. 5.3. La collection de documents . . . . . . . . . . . . . . . . . . . . . . . 119. 5.4. La sélection de requêtes . . . . . . . . . . . . . . . . . . . . . . . . 123. 5.5. 5.4.1. Les critères de sélection. . . . . . . . . . . . . . . . . . . . . 123. 5.4.2. L’ensemble des requêtes résultantes . . . . . . . . . . . . . . 124. Le jugement de pertinence . . . . . . . . . . . . . . . . . . . . . . . 124 5.5.1. Le Stemming des documents et des requêtes . . . . . . . . . 125. 5.5.2. L’indexation et l’appariement . . . . . . . . . . . . . . . . . 130. 5.5.3. L’échantillonnage . . . . . . . . . . . . . . . . . . . . . . . . 130. 5.5.4. Kunuz AlMustafa : le portail pour l’évaluation . . . . . . . . 131. 5.6. Les résultats retenus . . . . . . . . . . . . . . . . . . . . . . . . . . 132. 5.7. Validation des résultats de la collection standard. 5.8. Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135. . . . . . . . . . . 133. Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136 6 Validation des contributions des approches de désambiguïsation possibiliste et Mise en oeuvre du système RISSA 138 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139 6.1. Validation des approches de désambiguïsation morphologique possibiliste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139 6.1.1. La méthode de validation . . . . . . . . . . . . . . . . . . . 140. 6.1.2. Etude de l’indépendance du domaine d’application . . . . . 140. 6.1.3. Validation de l’approche de désambiguïsation possibiliste discriminante avec modèle de pondération . . . . . . . . . . . . 142. 6.1.4. Etude de la possibilité lexicale . . . . . . . . . . . . . . . . . 146. 6.1.5. Validation de l’approche de désambiguïsation possibiliste hybride . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146. 6.1.6. Comparaison de l’approche de classification possibiliste avec les classifieurs non-possibilistes . . . . . . . . . . . . . . . . 148. 6.1.7. Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149 vii.

(10) TABLE DES MATIÈRES. 6.2. 6.1.8. Etude de l’effet de variation des analyseurs sur l’approche possibiliste . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149. 6.1.9. Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150. Mise en oeuvre du système de Recherche d’Information Socio-Sémantique Structurée (RISSA) . . . . . . . . . . . . . . . . . . . . . . . . . . . 152 6.2.1. 6.2.2. 6.2.3. Vue globale de l’approche de recherche d’information sociosémantique structurée . . . . . . . . . . . . . . . . . . . . . 152 6.2.1.1. La représentation des requêtes . . . . . . . . . . . . 152. 6.2.1.2. La représentation des documents . . . . . . . . . . 153. 6.2.1.3. L’appariement . . . . . . . . . . . . . . . . . . . . 154. Processus proposé de mise en oeuvre du système RISSA appliqué sur les hadiths . . . . . . . . . . . . . . . . . . . . . . 155 6.2.2.1. Représentation de la requête composée . . . . . . . 156. 6.2.2.2. Génération des fichiers XML par dimension . . . . 158. 6.2.2.3. Analyse et désambiguïsation possibiliste des données 160. 6.2.2.4. Indexation . . . . . . . . . . . . . . . . . . . . . . . 163. 6.2.2.5. Appariement . . . . . . . . . . . . . . . . . . . . . 164. 6.2.2.6. Evaluation du système RISSA par la collection Kunuz164. Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165. Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167 Conclusion. 168. Bibliographie. 173. A Le stemming arabe. 197. B « Kunuz AlMustapha » le portail pour l’évaluation. 200. B.1 Espace public . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 200 B.1.1 La page d’accueil du portail . . . . . . . . . . . . . . . . . . 200 B.1.2 Page des résultats . . . . . . . . . . . . . . . . . . . . . . . . 203 B.1.3 Formulaire d’inscription . . . . . . . . . . . . . . . . . . . . 204 B.2 Espace de l’expert . . . . . . . . . . . . . . . . . . . . . . . . . . . . 204 viii.

(11) TABLE DES MATIÈRES. B.2.1 Page d’accueil . . . . . . . . . . . . . . . . . . . . . . . . . . 204 B.2.2 Page des choix de requête pour la recherche avancée . . . . . 206 B.2.3 Page de configuration de la recherche avancée . . . . . . . . 206 B.2.4 Page des résultats de la recherche avancée . . . . . . . . . . 207 B.2.5 Page des choix de requêtes à évaluer . . . . . . . . . . . . . 208 B.2.6 Page de l’évaluation des résultats . . . . . . . . . . . . . . . 208 B.2.7 Page de l’historique des recherches . . . . . . . . . . . . . . 209 B.2.8 Page du profil de l’expert. . . . . . . . . . . . . . . . . . . . 209. B.3 Espace de l’administrateur . . . . . . . . . . . . . . . . . . . . . . . 210 B.3.1 Page d’accueil de l’espace d’administration . . . . . . . . . . 210 B.3.2 Page des demandes d’ajout . . . . . . . . . . . . . . . . . . . 211 B.3.3 Page de gestion des experts . . . . . . . . . . . . . . . . . . 211. ix.

(12) Liste des tableaux 1.1. Comparaison des systèmes de recherche d’information en langue arabe 25. 2.1. Les types de dérivation des mots arabes . . . . . . . . . . . . . . . .. 39. 2.2. Les types de flexion des noms et des verbes arabes. . . . . . . . . .. 40. 2.3. Un tableau comparatif des outils d’analyse morphologique . . . . .. 46. 3.1. Les différents sens du mot. 3.2. Les catégories grammaticales du mot. . . . . . . . . . .. 59. 3.3. Comparaison des corpus arabes de recherche d’information . . . . .. 64. 3.4. Statistiques sur un échantillon du corpus hadithien . . . . . . . . .. 67. 3.5. Étude comparative des approches de classification des hadiths . . .. 75. 3.6. Caractéristiques du corpus hadithien et les applications correspondantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 76.  KA ®Ë@ àñ. . . . . . . . . . . . . . . . . . . ..  (wqf ) ­ ¯ð. 58. 4.1. Exemples de valeurs des attributs morphologiques de trois mots arabes 84. 4.2. Un extrait d’une ensemble d’apprentissage . . . . . . . . . . . . . .. 89. 4.3. Calcul des fréquences . . . . . . . . . . . . . . . . . . . . . . . . . .. 89. 4.4. Un exemple d’une instance imparfaite . . . . . . . . . . . . . . . . .. 90. 4.5. Calcul du gain d’information . . . . . . . . . . . . . . . . . . . . . .. 99. 4.6. Distribution des règles linguistiques sur les attributs morphologiques 104. x.

(13) LISTE DES TABLEAUX. 4.7. Exemples d’instances imparfaites d’un ensemble d’apprentissage . . 110. 4.8. Un ensemble d’apprentissage transformé avec des attributs précis . 111. 4.9. Un ensemble d’apprentissage transformé avec des classes certaines . 112. 5.1. Les balises du corpus hadithien au format XML . . . . . . . . . . . 120. 5.2. Statistiques sur les documents de la collection « Kunuz » . . . . . . 121. 5.3. Statistiques sur les requêtes dans la collection « kunuz » . . . . . . 124. 5.4. Valeurs des mesures MAP et R-Precision données par les différentes combinaisons outil de stemming/modèle d’appariement . . . . . . . 134. 6.1. Le taux de désambiguïsation moyen des mots dans les trois domaines.141. 6.2. Les taux de désambiguïsation moyens des mots arabes dans le corpus hadithien et dans le Treebank. . . . . . . . . . . . . . . . . . . . . . 141. 6.3. Exemples de nombres d’occurrences et des valeurs de fréquences pour la catégorie grammaticale POS associés à l’attribut POS-1. . . . . . 142. 6.4. Les valeurs du gain d’information de l’attribut POS. . . . . . . . . . 143. 6.5. Les trois plus grandes valeurs des gains d’information de chaque attribut morphologique. . . . . . . . . . . . . . . . . . . . . . . . . 144. 6.6. Les taux de désambiguïsation des attributs morphologiques en utilisant toutes les combinaisons de modèles de classification. . . . . . . 145. 6.7. Les p-valeurs du test des rangs signés de Wilcoxon pour les échantillons appariés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145. 6.8. Les taux de désambiguïsation obtenus en introduisant la possibilité lexicale. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146. 6.9. Comparaison des taux de désambiguïsation donnés par les désambiguïseurs de base, discriminant et hybride . . . . . . . . . . . . . . . 147. 6.10 Tableau comparatif des taux de désambiguïsation donnés par les classifieurs SVM, Naïf Bayes, les arbres de décision et le désambiguïseur possibiliste de base . . . . . . . . . . . . . . . . . . . . . . . . . . . 148 6.11 Mise en valeur du classifieur hybride par le calcul des p-valeurs (pvalues) de test des rangs signés de Wilcoxon . . . . . . . . . . . . . 149 6.12 Taux de désambiguïsation morphologique possibiliste selon les analyseurs morphologiques . . . . . . . . . . . . . . . . . . . . . . . . . 150 6.13 Synthèse des approches de désambiguïsation morphologique . . . . . 151. xi.

(14) LISTE DES TABLEAUX. 6.14 Exemple d’une instance de test utilisant les attributs morphologiques et socio-sémantiques . . . . . . . . . . . . . . . . . . . . . . . . . . 161 6.15 Comparaison des taux de désambiguïsation possibiliste hybride utilisant les attributs morphologiques et les attributs socio-sémantiques 163 6.16 Exemples de requêtes de test de la collection Kunuz enrichies par des critères socio-sémantiques . . . . . . . . . . . . . . . . . . . . . 166 A.1 Comparaison des stemmers arabes. xii. . . . . . . . . . . . . . . . . . . 199.

(15) Table des figures 1.1. L’architecture type d’un système de recherche d’information . . . .. 9. 1.2. Utilisation des corpus standards pour l’évaluation d’un SRI . . . . .. 14. 1.3. Le processus de recherche d’information socio-sémantique structurée. 34. 3.1. Un exemple d’un hadith . . . . . . . . . . . . . . . . . . . . . . . .. 68. 3.2. Un exemple d’un Sanad contenant des relations sociales . . . . . . .. 69. 4.1. Exemple de texte voyellé . . . . . . . . . . . . . . . . . . . . . . . .. 83. 4.2. Diagramme d’activités du désambiguïseur possibiliste de base . . . .. 85. 4.3. Diagrammes d’activités des désambiguïseurs possibilistes discriminants 94. 4.4. Diagrammes d’activités des désambiguïseurs possibilistes avec modèle de pondération . . . . . . . . . . . . . . . . . . . . . . . . . . .. 98. 4.5. Diagramme d’activités du désambiguïseur possibiliste hybride . . . 103. 4.6. Exemple de désambiguïsation de l’attribut morphologique « POS » utilisant une règle linguistique . . . . . . . . . . . . . . . . . . . . . 105. 4.7. Diagramme d’activités du désambiguïseur possibilite avec traitement des mots inconnus . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106. 4.8. Exemple d’une instance de test d’un mot inconnu et d’un ensemble d’apprentissage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109. 4.9. Utilisation de l’approche de transformation de données pour la comparaison avec les approches possibilistes . . . . . . . . . . . . . . . 110. 5.1. L’architecture globale du processus de construction de la collection Standard Kunuz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118. 5.2. Exemple d’une requête en arabe de TREC 2001 . . . . . . . . . . . 119. 5.3. Exemple de hadith au format TREC . . . . . . . . . . . . . . . . . 120. xiii.

(16) TABLE DES FIGURES. 5.4. La distribution de la longueur des documents des Hadiths de la collection de test « Kunuz » . . . . . . . . . . . . . . . . . . . . . . . . 121. 5.5. Distribution des documents dans les 25 principaux chapitres de « Sahih Al-Bukhari » . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122. 5.6. Les traductions et les translitérations des noms des 25 chapitres . . 122. 5.7. Exemple d’une requête de la collection Kunuz au format TREC . . 124. 5.8. Processus de construction des échantillons pour une requête . . . . 126. 5.9. Exemple de hadith voyellé . . . . . . . . . . . . . . . . . . . . . . . 127. 5.10 Exemple de hadith traité avec Arabic Light Stemmer . . . . . . . . 127 5.11 Exemple de hadith traité avec Alex Stemmer . . . . . . . . . . . . . 127 5.12 Exemple de hadith traité avec Khoja Stemmer . . . . . . . . . . . . 128 5.13 Exemple de hadith traité avec la méthode du Trigramme . . . . . . 128 5.14 Exemple de hadith traité avec la méthode du Quadrigramme . . . . 128 5.15 Exemple de hadith traité avec le Désambiguïseur Possibiliste . . . . 129 5.16 Extrait du résultat retenu pour une requête . . . . . . . . . . . . . 133 5.17 Courbe de rappel/précision des SRI utilisant le modèle DFRee . . . 135 6.1. Processus général de mise en oeuvre d’un système de recherche d’information socio-sémantique structurée . . . . . . . . . . . . . . . . . 155. 6.2. Représentation d’une requête composée . . . . . . . . . . . . . . . . 156. 6.3. Processus général de mise en oeuvre d’un système de recherche d’information socio-sémantique structurée appliqué sur les hadiths . . . 157. 6.4. Structure hiérarchique d’un hadith selon les dimensions. 6.5. Extrait du fichier sanad.xml . . . . . . . . . . . . . . . . . . . . . . 159. 6.6. Extrait du fichier coran.xml . . . . . . . . . . . . . . . . . . . . . . 159. 6.7. Diagramme d’activités du désambiguïseur possibiliste hybride utilisant les attributs socio-sémantiques . . . . . . . . . . . . . . . . . . 162. B.1 Page d’accueil de l’espace public. . . . . . . 159. . . . . . . . . . . . . . . . . . . . 201. B.2 Page d’accueil de l’espace public avec clavier virtuel arabe . . . . . 201 B.3 Formulaire d’authentification . . . . . . . . . . . . . . . . . . . . . . 202 B.4 Page d’accueil du portail en mode mobile . . . . . . . . . . . . . . . 202 B.5 Page des résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203 xiv.

(17) TABLE DES FIGURES. B.6 Formulaire d’inscription . . . . . . . . . . . . . . . . . . . . . . . . 204 B.7 Page d’accueil de l’espace de l’expert . . . . . . . . . . . . . . . . . 205 B.8 Page du choix de requête pour la recherche avancée . . . . . . . . . 206 B.9 Page de configuration de la recherche avancée . . . . . . . . . . . . 207 B.10 Page des résultats de la recherche avancée . . . . . . . . . . . . . . 207 B.11 Page du choix des requêtes à évaluer . . . . . . . . . . . . . . . . . 208 B.12 Page de l’évaluation des résultats . . . . . . . . . . . . . . . . . . . 208 B.13 Page de l’historique des recherches. . . . . . . . . . . . . . . . . . . 209. B.14 Page de profil de l’expert . . . . . . . . . . . . . . . . . . . . . . . . 209 B.15 Page d’accueil de l’espace administrateur . . . . . . . . . . . . . . . 210 B.16 Page des demandes d’ajout . . . . . . . . . . . . . . . . . . . . . . . 211 B.17 Page de gestion des experts . . . . . . . . . . . . . . . . . . . . . . 211 B.18 Profil d’un expert visionné par l’administrateur . . . . . . . . . . . 212. xv.

(18) Liste des symboles ANN. Artificial Neural Networks. BAMA Buckwalter Arabic Morphological Analyzer CLIR. Cross-Language Information Retrieval. EATB Egyptian Arabic Treebanks ESAIR Enhanced Stemmer for Arabic Information Retrieval HMM. Hidden Markov Model. LDC. Linguistic Data Consortium. MADA Morphological Analysis and Disambiguation for Arabic MBL. Memory Based Learning. PATB Prague Arabic TreeBank POS. Part-Of-Speech. RI. Recherche d’Information. SACS. Saudi Arabian National Computer Science Conference. SAMA Standard Arabic Morphological Analyzer SRI. Système de Recherche d’Information. SRIEC Système de Recherche d’Information et d’Extraction des Connaissances TALN Traitement Automatique de la Langue Naturelle TREC Text REtrieval Conference UNL. Universal Networking Language. xvi.

(19) Introduction Générale L’objectif de la recherche d’information est de trouver des documents pertinents à partir des données textuelles non structurées, en réponse aux requêtes des utilisateurs. Le processus de recherche d’information commence par traiter tous les documents d’une collection pour créer un index, afin de faciliter la recherche et la rendre plus rapide. Cet index, qui sera l’objet de tous les traitements d’un système de recherche d’information, est formé par des descripteurs obtenus après un processus assez complexe, utilisant divers outils, techniques et linguistiques. Une quantité considérable de travail et d’efforts ont été récemment consacrés à l’élaboration de systèmes de recherche d’information pour les langues non latines, y compris l’Arabe. La recherche sur l’Arabe est encore beaucoup moins développée que celle sur la langue Anglaise. L’Arabe est caractérisé par une structure morphologique complexe. De nombreux mots possèdent la même forme orthographique. Ceci est dû à la richesse morphologique de cette langue. En effet, l’omission des voyelles courtes peut générer plus de 12 interprétations morphologiques d’un mot donné. Par conséquent, l’une des formes d’ambiguïté les plus relevées en Arabe est l’ambiguïté morphologique. La désambiguïsation morphologique des termes Arabes utilisés dans une requête et dans les documents, devient une tâche indispensable pour bien choisir les indexes qui décrivent les documents afin d’assurer l’efficacité et la commodité du processus de recherche d’information. La majorité des premières études sur l’Arabe invoquent des collections relativement petites pour le test. L’intérêt accru pour le traitement et la recherche d’information arabe a conduit à des travaux importants qui utilisent, principalement, deux grandes collections développées par la communauté TREC qui sont TREC-2001 et TREC-2002. Des travaux ultérieurs ont été destinés à d’autres aspects de la recherche Arabe y compris la recherche de documents images, la recherche de la parole, les médias sociaux et recherche sur le Web. Cependant, les efforts sur différents aspects de la recherche d’information Arabe continuent à être déficients comparés à d’autres langues. Les collections TREC incluent plus que 383 000 textes arabes de journaux couvrant la période de Mai 1994 jusqu’à Décembre 2000. L’absence des voyelles de ces textes génère une certaine ambiguïté au niveau du sens du mot et une difficulté à identifier sa catégorie grammaticale et 1.

(20) INTRODUCTION GENERALE. sa fonction dans la phrase. Un besoin de construction d’un corpus standard de test pour la recherche d’information est apparu.. Problématique de la thèse Le processus de recherche d’information commence par une étape d’analyse et de prétraitement qui vise à indexer les documents et à extraire les connaissances qui s’y trouvent. L’indexation constitue une phase indispensable dont le but est d’assurer une représentation du document et de la requête par des termes clés. Ces termes sont des formes normalisées obtenues par une analyse morphologique des mots représentatifs des documents et des requêtes. La langue Arabe se caractérise par des variations morphologiques et orthographiques incluant une diversité syntaxique et sémantique d’un mot. Cette richesse morphologique provoque une ambigüité et une difficulté à identifier l’analyse adéquate, ce qui peut affecter la définition des termes d’indexation et changer les sens des requêtes posées. L’ajout des voyelles courtes à un mot peut diminuer son ambigüité, mais ne l’élimine pas complètement. La désambiguïsation morphologique s’avère indispensable, afin de faciliter et d’améliorer l’indexation. Les approches existantes désambiguïsent principalement les catégories grammaticales (Part-Of-Speech) des mots et ne couvrent qu’un type de textes particulier, à savoir les textes de l’arabe moderne. A travers cette thèse, nous proposons une nouvelle approche de désambiguïsation morphologique de plusieurs attributs morphologiques, afin de réduire l’ambigüité des textes Arabes. La pertinence des documents par rapport à des requêtes est évaluée à travers un standard de test comportant d’une part les requêtes de test et d’autre part les documents considérés comme pertinents pour chaque requête. Cette thèse vise à proposer une collection standard de test arabe, afin d’évaluer les résultats d’un SRI. Le corpus utilisé est composé de textes hadithiens assignés au prophète de l’Islam Mohamed (PBSL). Il a fait l’objet de plusieurs travaux de recherche vu sa richesse linguistique, sémantique, sociale et sa structure bien organisée. Nous proposons, ainsi, un standard de test et d’évaluation pour la recherche d’information qui fouille dans les thèmes traités par les hadiths relevant de l’Arabe classique. L’instauration d’un système de recherche d’information socio-sémantique consiste un objectif fondamental afin de valider les aspects morphologiques, sociaux et sémantiques des textes des hadiths. Un SRI socio-sémantique diffère d’un système de recherche d’information traditionnel par le fait qu’il tient compte de (i) la signification véhiculée par les mots des documents et (ii) des relations sociales produites à partir des interactions des utilisateurs ou extraites des documents utilisés par le système. 2.

(21) INTRODUCTION GENERALE. Organisation de la thèse La présente thèse est organisée en deux parties dont la première constitue un état de l’art sur notre problématique et la deuxième détaille nos contributions. Ces deux parties englobent six chapitres que nous synthétisons comme suit. Le premier chapitre intitulé « Recherche d’Information et Langue Arabe » est introduit par une description des concepts de base et du processus général de la recherche d’information. Ensuite, nous présentons les différentes étapes de prétraitement, d’indexation, d’appariement et d’évaluation des systèmes de recherche d’information spécifiques à la langue Arabe en décrivant les techniques utilisées pour les SRI existants dans la littérature. Enfin, nous nous intéressons aux approches proposées pour instaurer un système de recherche d’information qui tient compte des aspects sociaux et sémantiques pour interroger des corpus de documents structurés. Le deuxième chapitre intitulé « Analyse et Désambiguïsation Morphologique des textes Arabes » est consacré à l’étude de la complexité, la richesse et l’ambiguïté de la morphologie Arabe. Nous présentons ainsi une étude et une comparaison des analyseurs existants dans la littérature. Nous étudions aussi les approches de la désambiguïsation morphologiques des textes Arabes. Le troisième chapitre intitulé « Les Corpus Arabes et le Corpus hadithien » nous introduit et nous compare les corpus Arabes utilisés dans les domaines linguistiques et dans la recherche d’information. Nous présentons les corpus Arabes standards de test des SRI Arabes. Nous présentons les caractéristiques du corpus hadithien et nous discernons les aspects structuré, social et sémantique de ce corpus. Dans le quatrième chapitre, intitulé « Approches Proposées de Désambiguïsation Morphologique des Textes Arabes », nous détaillons nos contributions dans le domaine du traitement automatique des langues naturelles et plus particulièrement la désambiguïsation des textes Arabes. Nous commençons par présenter la théorie des possibilités sur laquelle se base nos approches. Ensuite, nous explicitons notre approche possibiliste de désambiguïsation de base que nous améliorons pour aboutir à notre approche possibiliste discriminante avec un modèle de pondération. Nous détaillons aussi notre approche hybride qui combine l’aspect linguistique et possibiliste. Nous présentons de nouvelles approches (i) de traitement des mots inconnus lors de l’analyse morphologique et (ii) de transformation pour la désambiguïsation non-possibiliste, afin de pouvoir la comparer avec les approches de la désambiguïsation possibiliste. Le cinquième chapitre, intitulé « Proposition d’une Nouvelle Collection. 3.

(22) INTRODUCTION GENERALE. Standard pour la Recherche d’Information Arabe », englobe les différentes étapes et approches utilisées que nous proposons afin de standardiser le corpus des hadithien au profit du domaine de recherche d’information. Nous présentons, aussi, les résultats retenus qui forment d’une part les requêtes de la collection et d’autre part leurs documents pertinents. Le sixième et dernier chapitre, intitulé « Validation des contributions des approches de désambiguïsation possibiliste et Mise en œuvre du système RISSA », récapitule toutes les expérimentations faites pour tester et valider les approches de désambiguïsation possibilistes. Nous proposons, également, une approche qui met en place un système de recherche d’information, que nous baptisons RISSA (Recherche d’Information Socio-Sémantique Arabe) tirant profit de la structuration et de la richesse sémantique et sociale du corpus hadithien. Ce système utilise les approches possibilistes de désambiguïsation, afin de déceler les bons termes d’indexation. Nous évaluons notre système RISSA en ayant recours au standard que nous proposons dans cette thèse. En guise de conclusion, un bilan de nos travaux met en évidence nos propositions en rappelant les motivations liées à la problématique traitée dans cette thèse, les choix que nous avons faits et les contributions que nous avons proposées. Nous terminons par des suggestions de thématiques de recherche en vue de poursuivre les travaux réalisés dans cette thèse.. 4.

(23) Première partie Etat de l’Art. 5.

(24) Chapitre 1 Recherche d’Information et Langue Arabe Sommaire Introduction 1.1. 1.2. 1.3. . . . . . . . . . . . . . . . . . . . . . . . . .. 6. Concepts de base de la Recherche d’Information . . .. 7. 1.1.1. L’indexation . . . . . . . . . . . . . . . . . . . . . . . .. 10. 1.1.2. L’appariement . . . . . . . . . . . . . . . . . . . . . . .. 11. 1.1.3. L’évaluation . . . . . . . . . . . . . . . . . . . . . . . . .. 13. 1.1.4. Discussion . . . . . . . . . . . . . . . . . . . . . . . . . .. 16. La Recherche d’information en langue Arabe . . . . . .. 16. 1.2.1. Le prétraitement des textes Arabes . . . . . . . . . . . .. 17. 1.2.2. Comparaison des systèmes de recherche d’information arabes 23. 1.2.3. Discussion . . . . . . . . . . . . . . . . . . . . . . . . . .. 26. La Recherche d’information socio-sémantique sturcturée 26 1.3.1. L’aspect socio-sémantique . . . . . . . . . . . . . . . . .. 1.3.2. Les méthodes et les techniques de recherche socio-sémantique 28. 1.3.3. L’aspect structuré . . . . . . . . . . . . . . . . . . . . .. 30. 1.3.4. La recherche d’information socio-sémantique structurée arabe . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 30. Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . .. 32. 1.3.5. Conclusion. . . . . . . . . . . . . . . . . . . . . . . . . . .. 26. 34. Intoduction La recherche d’information (RI) est un domaine qui vise à automatiser le processus de recherche de documents par l’intervention des utilisateurs en exprimant 6.

(25) CHAPITRE 1. RECHERCHE D’INFORMATION ET LANGUE ARABE. leurs besoins à travers des requêtes en langage naturel. La recherche d’information en langue arabe combine la RI aux complexités linguistiques, morphologiques, syntaxiques et sémantiques de la langue arabe. Pour ce faire, il est crucial de présenter les différentes étapes nécessaires de la littérature qui permettent d’instaurer un SRI arabe. De cet effet, dans ce chapitre nous commençons, dans la section 1.1, par présenter les concepts de base de la recherche d’information. Dans la section 1.2, nous enchaînons par une description des différentes phases de la recherche d’information en mettant l’accent sur la langue arabe. Dans la dernière section 1.3, nous effectuons une étude comparative des approches recensées dans la littérature afin de développer un système de recherche d’information (SRI) socio-sémantique structurée.. 1.1. Concepts de base de la Recherche d’Information. Un SRI implique principalement trois notions indispensables qui sont (i) la requête à travers laquelle l’utilisateur exprime son besoin d’information, (ii) les documents qui peuvent être textuels ou multimédias et (iii) la pertinence 1 qui traduit le but de la RI. Un bon SRI doit trouver et associer à une requête seulement les documents pertinents. Dans un document pertinent, l’utilisateur doit pouvoir trouver les informations dont il a besoin. C’est selon ce critère de pertinence que le système doit juger si un document doit être retourné à l’utilisateur comme réponse [Elayeb, 2009]. Des représentations et des informations nécessaires doivent être fournies pour bien exploiter un document pour la RI. La recherche textuelle dans un document se fait selon plusieurs axes en tenant compte de : – sa structure physique : la mise en forme d’un document texte (entêtes, paragraphes et sous-paragraphes) ; – sa structure logique : la vue logique qui porte sur les informations de la structure (chapitres, sections et sous-sections) ; – son contenu : les mots qui composent le document (leur morphologie 2 , leur syntaxe 3 et leur sémantique 4 ). 1. La pertinence est considérée comme l’adéquation d’un document ou d’un objet informationnel à la demande d’un individu donné [Simonnot, 2008] 2. La morphologie est la branche de la linguistique qui étudie les types et la forme des mots en interne ou en externe (www.larousse.fr). 3. La syntaxe est la partie de la grammaire qui décrit les règles par lesquelles les unités linguistiques se combinent en phrases (www.larousse.fr). 4. La sémantique est relative au sens des unités linguistiques (www.larousse.fr).. 7.

(26) CHAPITRE 1. RECHERCHE D’INFORMATION ET LANGUE ARABE. La majorité des SRI se focalisent et s’intéressent au contenu du document. Les utilisateurs forment leurs requêtes en mettant comme objectif le contenu textuel des documents [Chen et Gey, 2001]. Le besoin de l’utilisateur se traduit par une requête composée de plusieurs mots clés qui peuvent être séparés par des opérateurs logiques et/ou des expressions sémantiques comme « plus proche », « comporte » et « sauf ». Les requêtes, sont classées, généralement en trois types : – requête basique : composée d’une succession des mots clés qui ciblent les informations textuelles des documents. Ce type est le plus utilisé dans la RI traditionnelle ; – requête booléenne : composée de plusieurs opérateurs logiques (et, ou, non) reliant les mots clés ; – requête structurée : comprend les informations sur la structure des documents (chapitre, section, sous-section). La correspondance entre un document et une requête traduit son degré de pertinence qui représente une mesure de similarité entre ces deux éléments. Des travaux de recherche [Jones et Willett, 1997] mettent l’accent sur la difficulté de la définition de la pertinence et décèlent deux types de pertinence, à savoir la pertinence du système et la pertinence de l’utilisateur. La pertinence du système est déterminée par les modèles existants de la recherche d’information. Elle est interprétée par un score estimant la conformité du contenu des documents par rapport à la requête. Quant à la pertinence de l’utilisateur, elle est liée à la perception de l’utilisateur sur l’information fournie par le système. Elle est subjective puisque deux utilisateurs peuvent juger différemment un même document renvoyé pour une même requête. Un SRI utilise un corpus documentaire et suit plusieurs étapes qui permettent d’aboutir à un résultat répondant au besoin de l’utilisateur. Ces étapes sont : l’analyse et l’indexation, la modélisation de la requête et des documents, l’appariement entre les deux modèles (celui de la requête et celui du document) et l’évaluation de la pertinence. L’architecture générale d’un SRI est décrite par la figure 1.1. Un SRI suit un processus pour assurer la correspondance des données d’une requête avec un fonds documentaire appelé corpus. Un corpus est un ensemble de documents ou de bases de données décrites par des métadonnées et peuvent être structurées ou non. En entrée, un SRI requiert une requête traduisant le besoin en information d’un utilisateur. Un travail préliminaire doit être fait sur le coprus pour assurer un résultat fiable et optimiser le temps d’exécution. Cette phase consiste à analyser chaque document du corpus et créer un index sous forme d’une liste de mots-clés associée (plus de détails sont donnés à la section 1.1.1). Son rôle est de fournir une présentation intégrale du contenu du document.. 8.

(27) CHAPITRE 1. RECHERCHE D’INFORMATION ET LANGUE ARABE. Figure 1.1 – L’architecture type d’un système de recherche d’information Un autre traitement consiste à éliminer les mots vides qui n’ont aucun effet sur la procédure de recherche. Les termes restants seront, par la suite, racinisés, lemmatisés ou stemmés 5 pour qu’ils soient pondérés. Finalement, l’ensemble des indexes est associé à chaque document. Ces indexes possèdent le maximum des poids de pondération. Les mêmes traitements sont appliqués aux requêtes formulées par l’utilisateur. Des modèles représentant les documents et les requêtes sont ainsi construits pour représenter leurs contenus. Le calcul de la pertinence d’un document par rapport à une requête se fait moyennant une fonction d’appariement qui détermine le degré de ressemblance d’un document à une requête. L’appariement permet de classer les documents par ordre de pertinence. Cette fonction associe à une requête r un, ou plusieurs, document(s) d de la collection, ou le corpus de référence. La fonction d’appariement est indépendante de l’indexation et de la pondération des termes. Par contre, elle 5. La racinisation, la lemmatisation et le stemming servent à déterminer les unités de sens telles que les racines ou les radicaux (plus de détails sont donnés à la section 1.2.1.3).. 9.

(28) CHAPITRE 1. RECHERCHE D’INFORMATION ET LANGUE ARABE. caractérise le SRI plus que le modèle d’indexation. La plupart des modèles de recherche inspirent leurs noms à partir de cette fonction. Des détails sur la phase d’appariement sont présentés à la section 1.1.2.. 1.1.1. L’indexation. La représentation des documents est réalisée à travers le processus d’indexation. Son objectif est de trouver les concepts les plus importants dans le document et de créer une représentation interne en utilisant ces concepts. L’utilisateur final du SRI n’est pas directement impliqué. Le processus d’indexation peut comprendre le stockage intégral du document dans le système, mais souvent les documents sont stockés partiellement. Par exemple, seulement le titre et le résumé en plus des informations sur l’emplacement réel du document sont enregistrés. Les documents impliqués dans le processus de recherche d’information doivent être normalisés et suivre la même forme morphologique. De ce fait, les mots sont stemmés moyennant les outils de stemming avant de passer à l’étape d’indexation. A chaque terme dans le document est associée une mesure de pondération pour classer les termes représentant ce document. La pondération des termes Elle constitue un élément essentiel de tout système de RI et a le potentiel d’améliorer l’efficacité de la recherche d’une manière significative [Salton et Buckley, 1988]. L’indexation attribue un ensemble de termes pour représenter le contenu de chaque document ou requête dans une collection. Dans la plupart des SRI, chaque mot dans le texte (sauf ceux qui sont inscrits dans la liste de mots vides) est utilisé comme un terme de l’index. Pour indiquer les valeurs relatives des termes afin de décrire un document, un poids peut être affecté à chaque mot dans le document lors de l’indexation [Korfhage, 1997]. La mesure de pondération TF*IDF 6 a prouvé son efficacité sur une large gamme des systèmes de RI et de collections de documents avec des propriétés différentes. L’efficacité de cette mesure à long terme est due au fait qu’elle comporte plus qu’un facteur à partir du document pour calculer le poids final de chaque terme. TF*IDF L’utilisation de la mesure TF*IDF et ses variations dans la RI a conduit à une amélioration substantielle de la performance par rapport aux techniques correspondantes aux termes simples. Plusieurs études [Tomlinson, 2002] ont montré l’efficacité de calculer les pondérations des termes et leurs fréquences dans les documents ayant des propriétés différentes telles que la taille. 6. Term Frequency * Inverse Document Frequency. 10.

(29) CHAPITRE 1. RECHERCHE D’INFORMATION ET LANGUE ARABE. Dans la recherche d’information en langue arabe, le schéma de pondération de TF*IDF a été utilisé avec succès dans plusieurs études [Tomlinson, 2002, Chowdhury et al., 2002]. Le poids d’un terme ti pour un document dj est calculé comme suit. Nous commençons par calculer la fréquence de ti dans dj en utilisant la formule suivante : T Fij = Occ(ti , di )/|dj |. (1.1). Dans cette formule Occ(ti , di ) est le nombre d’occurrences de ti dans dj . Il est divisé par la somme des nombres d’occurrence de tous les termes dans le document ou encore le nombre de mots total dans le document dj . Ces fréquences sont souvent normalisées, en divisant par le maximum, pour tenir compte de la différence de longueur entre les documents. Le terme ti est pondéré en utilisant TF-IDF comme suit : le poids de ti pour le document dj est égal au produit de sa fréquence T Fij et IDFi ; IDFi dénote la fréquence inverse de document et est donnée par : IDFi = log. |D| |{d : ti ∈ d}|. (1.2). Où |D| est le nombre de documents dans le corpus et |{d : ti ∈ d}| est le nombre de documents qui contiennent ti .. 1.1.2. L’appariement. Dans cette phase, il s’agit de mettre en correspondance ou d’apparier les deux représentations : celle de la requête et celle du document. La comparaison des deux représentations permet de calculer un score de ressemblance qui traduit la pertinence du document par rapport à la requête. Les documents sont classés par ordre de pertinence décroissant et retournés à l’utilisateur. Avec l’évolution des SRI, plusieurs modèles d’appariement sont apparus : – Le modèle booléen [Salton et al., 1983] où les documents et les requêtes sont représentés à l’aide de formules logiques. Pour apparier une requête q à un document d, il suffit de vérifier que l’implication suivante est valide : d V q. Le résultat est donc toujours booléen. – Le modèle « matching score » [Salton et al., 1983] : dans ce modèle, le degré de correspondance est la somme des fréquences des termes de la requête dans le document. – Le modèle vectoriel [Salton, 1971] qui constitue une alternative au modèle booléen où les requêtes et les documents sont représentés à l’aide de vecteurs qui contiennent les poids des termes. La distance entre le vecteur du document 11.

(30) CHAPITRE 1. RECHERCHE D’INFORMATION ET LANGUE ARABE. et celui de la requête peut être calculée en utilisant plusieurs types de mesures telles que le produit scalaire ou la mesure du cosinus. – Le modèle probabiliste [Fuhr, 1992] se base sur l’hypothèse suivante : le résultat idéal d’une requête est constitué des documents qui peuvent être caractérisés par un sous-ensemble des termes d’indexation. L’appariement probabiliste permet de trier les documents en fonction de la présence ou l’absence des termes appartenant à ce sous-ensemble. Les systèmes utilisent le modèle probabiliste pour estimer la probabilité que l’utilisateur trouve les documents pertinents à sa requête. Le modèle probabiliste s’est avérée relativement efficace au fil des années [Sparck Jones, 2000]. Le système de recherche d’information Okapi BM25 a été mis en œuvre et a été testé sur diverses collections, en particulier les collections de TREC 7 . La mesure probabiliste BM25 8 a été utilisée pour différentes langues et a surperformé un certain nombre de modèles vectoriels appliqués sur le français, l’allemand, l’espagnol et l’italien [Savoy et Rasolofo, 2003]. Elle est donnée par : BM 25 = w(d, Q) =. n X. IDF (qi ) ∗. i=1. f (qi , d) ∗ (k1 + 1) f (qi , d) + k1 ∗ (1 − b + b ∗. |d| ) avgdl. (1.3). Avec Q est la requête contenant n termes (q1 , ..., qn ), d est le document, f(qi ,d) étant la fréquence qi dans le document d. |d| désigne le nombre de termes dans le document d et avgdl dénote la longueur moyenne des documents. k1 et b sont des constantes à déterminer empiriquement et dépendent de la nature des requêtes et de la collection de documents. Elles sont, généralement, fixées aux valeurs respectives 1,2 et 0,75 [Robertson et al., 1999]. Le cadre général du modèle probabiliste, y compris BM25, a été utilisé à plusieurs reprises dans la recherche d’information en langue arabe, avec de bons résultats [Darwish et Oard, 2002a, Aljlayl et al., 2001]. Il convient de noter que ces études ont utilisé la fonction de pondération sur l’hypothèse qu’il serait autant efficace avec l’arabe comme elle l’avait été avec l’anglais puisque c’est une méthode statistique. – Le modèle possibiliste basé sur la théorie des possibilités [Dubois et Prade, 1998] et a été introduit par Brini [Brini et al., 2004] et développé et étendu par Elayeb [Elayeb, 2009]. Le modèle possibiliste affecte, à chaque terme d’indexation, deux valeurs à savoir la nécessité et la possibilité (voir chapitre 4) qui traduisent respectivement la certitude et la possibilité qu’un terme d’indexation soit adéquat. La spécificité de ce modèle réside dans sa prise en compte explicite de l’absence des termes de la requête dans le document lors 7. http://trec.nist.gov/ 8. BM25 a été implémentée, la première fois, entre les années 1980 et 1990 dans le système d’information Okapi de l’Université de Londres.. 12.

(31) CHAPITRE 1. RECHERCHE D’INFORMATION ET LANGUE ARABE. de l’évaluation de la pertinence de ce document vis-à-vis de la requête [Elayeb, 2009]. – Le modèle de recherche d’information sociale [Bouhini et al., 2014] où le contexte social de l’utilisateur est intégré dans l’appariement. Il est appliqué, généralement, sur des données provenant des réseaux sociaux. Bouhini et al. ont défini trois modèles inspirés de BM25. Le premier appelé BM25S utilise le profil social de l’utilisateur à la place de la requête. Le deuxième modèle appelé BM 25SF reqComb permet de compléter la requête initiale de l’utilisateur en la combinant, au niveau des fréquences de termes, au profil de l’utilisateur. Le troisième modèle appelé BM 25SScoreComb combine un score thématique classique des documents pour la requête de l’utilisateur avec un score social des documents pour le profil social de l’utilisateur. – Le modèle d’appariement basé sur les réseaux de neurones [Severyn et Moschitti, 2015, Huang et al., 2013, Nguyen et al., 2017] où les représentations des documents et des requêtes, ainsi que leur appariement sont obtenus à l’aide d’un réseau de neurones. Huang et al.[Huang et al., 2013] appliquent un réseau de neurones profond sur la représentation d’un document et d’une requête obtenues par une méthode de hâchage de mots qui permet d’apprendre leurs représentations latentes à partir de leur valeur de pertinence. Une extension de ce modèle a été proposée par Severyn et Moschitti [Severyn et Moschitti, 2015] qui utilisent une couche de convolution au niveau de la couche d’entrée pour apprendre la représentation optimale des paires de textes à travers une fonction de similarité. Nguyen et al. [Nguyen et al., 2017] proposent une méthode de hâchage de relations basée sur l’hypothèse que des documents similaires comportent des concepts similaires et/ou reliés. Les représentations latentes des documents et des requêtes et leur appariement sont réalisés à l’aide d’un réseau de neurones.. 1.1.3. L’évaluation. La performance d’un SRI est mesurée en comparant les résultats retournés, suite à une requête, à ceux qui correspondent réellement à cette requête ou ceux escomptés par l’utilisateur. Pour arriver à évaluer les résultats obtenus, nous devons connaître, d’abord, les réponses idéales que le système est censé retourner. L’évaluation d’un système se fait, généralement, en ayant recours à des collections, ou encore des corpus, standards de test. Ces corpus incluent un ensemble de documents, un ensemble de requêtes et la liste de documents pertinents et non pertinents pour chaque requête. Pour qu’un corpus de test soit retenu, il faut qu’il possède un nombre de documents élevé. Les corpus de test les plus utilisés sont ceux de TREC. Ils contiennent plus de 100 000 documents. Les corpus de grande 13.

(32) CHAPITRE 1. RECHERCHE D’INFORMATION ET LANGUE ARABE. taille peuvent contenir des millions de documents. La figure 1.2 décrit le processus général de l’évaluation des résultats de la recherche d’un SRI en se référant à un corpus standard. Les meilleurs SRI sont ceux qui sont les plus rapides et qui consomment le moins d’espace mémoire. L’évaluation d’un SRI est mesurée indépendamment de la méthode d’indexation ou du modèle d’appariement. Ces techniques se basent, principalement, sur l’estimation de la qualité des informations retrouvées par le SRI.. Figure 1.2 – Utilisation des corpus standards pour l’évaluation d’un SRI Plusieurs mesures d’évaluation sont utilisées. Les principaux facteurs sont le rappel, la précision et la F-mesure [Rijsbergen, 1979]. Le rappel est défini par le pourcentage de documents pertinents retrouvés par rapport aux documents pertinents dans la collection de test :. Rappel =. nombre de documents pertinents retrouv´ es nombre de documents pertinents dans la collection de test. (1.4). Ainsi, si le taux de rappel est élevé (proche de 1), on peut assurer la conformité du système de recherche d’information au standard de test et le considérer comme un système performant. Inversement, on parle de silence lorsque le système possède 14.

(33) CHAPITRE 1. RECHERCHE D’INFORMATION ET LANGUE ARABE. de nombreux documents pertinents non retournés. Ainsi : Silence = 1 − Rappel. (1.5). La précision évalue le pourcentage de documents pertinents retrouvés par rapport à tous les documents retournés par le système : P r´ ecision =. nombre de documents pertinents retrouv´ es nombre de documents retrouv´ es. (1.6). A l’inverse, le bruit présente la proportion de documents retournés non pertinents : Bruit = 1 − P r´ ecision. (1.7). La moyenne, des précisions données par toutes les requêtes, est définie par la mesure MAP 9 . Elle est donnée par : P|Q|. M AP =. 1 j=1 |relj |. PNj. r=1. P (r) ∗ isRel(r). |Q|. (1.8). Avec :. P (r) =. N ombre de documents pertinents trouv´ es au rang r ou moins r. (1.9). |Q| est le nombre total de requêtes, |relj | est le nombre de documents pertinents pour la requête j dans toute la collection, Nj est le nombre de documents retournés par la requête j et isRel(r) est la fonction binaire qui est égale à 1 si le résultat au rang r est un document pertinent et 0 sinon. La mesure R-precision correspond à la précision exacte. Elle est donnée par : R − precision =. P|Q|. j=1. P r´ ecision({Dkj }) |Q|. (1.10). Avec P r´ ecision({Dkj }) correspond à la précision des k premiers résultats de la requête j. La F-mesure combine les métriques de rappel et de précision pour donner une valeur globale de la performance d’un SRI. Elle est calculée comme suit : 9. Mean Average Precision. 15.

(34) CHAPITRE 1. RECHERCHE D’INFORMATION ET LANGUE ARABE. F − mesure =. (1 + β 2 ) ∗ P r´ ecision ∗ Rappel 2 β ∗ P r´ ecision + Rappel. (1.11). Le facteur β est introduit pour pondérer les mesures de rappel et de précision. On fixe sa valeur à 1 pour associer le même poids aux deux métriques.. 1.1.4. Discussion. Tout système de recherche d’information passe à sa phase de construction par un processus contenant les étapes de prétraitement, d’indexation et d’appariement qui peuvent dépendre de la langue. A sa phase de validation, nous devons avoir recours à une collection de test contenant des documents spécifiques à la langue utilisée pour ce SRI. L’objectif de l’utilisateur d’un SRI est d’aboutir à l’acquisition des informations contenues dans des documents pertinents. La qualité de la réponse de n’importe quel SRI, à un besoin exprimé dans les informations d’une requête dans une langue particulière, est généralement liée à son efficacité. L’efficacité d’un SRI dépend de sa capacité à être conforme à la langue spécifique en cours d’utilisation. Cela signifie que la compréhension des caractéristiques linguistiques de la langue de recherche est d’une grande importance pour assurer la qualité de la réponse du système. Un SRI créé, par exemple, pour la langue anglaise ne peut pas être utilisé sans modification pour la recherche d’information dans une autre langue. La modification peut être minime, principalement pour les langues d’origine latine. Toutefois, lorsqu’il s’agit d’une langue écrite dans un script non-latin, comme l’arabe, l’ajustement peut être énorme. Cela nous mène à nous focaliser sur les traitements spécifiques et les difficultés éventuelles afin de mettre en place un système dédié à la langue arabe.. 1.2. La Recherche d’information en langue Arabe. La construction d’un SRI pour la langue arabe est un challenge vue la particularité de cette langue. Ceci nous mène à étudier les différentes parties du processus de la RI pour l’arabe. Nous présentons, dans les paragraphes suivants, les concepts de la recherche d’information spécifiques à la langue arabe en nous référant à la figure 1.1 page 9.. 16.

(35) CHAPITRE 1. RECHERCHE D’INFORMATION ET LANGUE ARABE. 1.2.1. Le prétraitement des textes Arabes. Les documents arabes peuvent être écrits en caractères arabes ou/et en caractères latins translittérés 10 . Ces documents subissent un prétraitement afin d’améliorer l’efficacité de la recherche d’information. Les étapes de prétraitement comprennent : (i) la détection des textes arabes dans différents encodages et la conversion de ces textes en un encodage commun comme ISO-8859-6, GB18030 et UTF-8 ; (ii) la manipulation de certaines caractéristiques orthographiques ; (iii) la normalisation linguistique de certaines formes morphologiques ; (iv) l’identification des mots vides ; et, (v) la manipulation des variations morphologiques et orthographiques. 1.2.1.1. La normalisation orthographique. Les caractéristiques orthographiques de l’arabe doivent être traitées pour chaque requête et chaque document. Ces caractéristiques incluent les signes diacritiques, les ligatures et les erreurs d’orthographe courantes. Les signes diacritiques, ou encore les voyelles courtes, aident à désambiguïser le.

(36)

(37) I . J» » (kataba ; a écrit) et « I. J» » (kutubuN ; des  livres) partagent les mêmes lettres « I . J» » (ktb), mais ils ont des signes diacritiques sens des mots. Les deux mots «. différents. Une solution possible pour résoudre l’ambiguïté d’un texte arabe est de restaurer automatiquement les diacritiques ce qui est appelée la diacritisation. Elle est coûteuse en calcul, causant souvent l’indexation de grandes quantités de textes [Kholy et Habash, 2010, Sanderson, 1994]. L’orthographe arabe comprend le signe diacritique « chedda » qui sert à rassembler deux consonnes identiques qui se suivent. Ces caractères sont, généralement, éliminés. Les caractères de ligature sont codés comme des caractères simples et sont trans-. formés par les lettres constitutives. Par exemple, la ligature « B» (lA) est transformée en « È+ @» (l + A). La normalisation des lettres est recommandée afin de manipuler les fautes d’orthographe et les variantes orthographiques [Darwish, 2014]. La normalisation concerne quatre lettres et leurs diverses formes à savoir :. – Les différentes formes de la lettre @ (A - alef), notamment @ (A), @ (|), @ (>) et @ (<) : ces formes sont souvent confondues à tort par beaucoup d’utilisateurs.. Elles infléchissent morphologiquement un mot. Par exemple, le verbe « I . ë X@ » (<*°hab° ; vas) est un verbe en mode impératif. Ce verbe se transforme en 10. La translittération d’un mot arabe consiste à écrire ce mot en caractères spécifiques latins. Par exemple le mot « H . AK. » est translittéré en « bAb » selon le système de translittération de Buckwalter [Habash et al., 2007] (http://www.qamus.org/transliteration.htm).. 17.

Références

Documents relatifs

entre 0.25 et 0.35, soit l’auteur est le même et alors plusieurs facteurs ont changé (temps et thème), soit ce sont deux auteurs différents, travaillant à la même époque dans

Pour une interrogation dans un domaine de spécialité pour lequel des ressources sémantiques sont disponibles (lexiques, thesaurus, ontologies…), une recherche

L’expérience que nous avons menée dans une des classes de 5 ème AP de l’école « ALLEM Mehidi » située dans la ville de Saida, nous a permis d’observer

Enfin, si l’hypertextualité (liens internes au site) semblent bien maîtrisée par les deux parties, les racistes, là encore prennent un léger avantage en ce qui

Autrement dit, ce que nous appelons « impression référentielle » est un simulacre multimodal à caractère perceptif : le produit d’une élaboration

The (Randomized) Method of Murty and the Morris Orientations The simple prin- cipal pivoting method of Murty (also known as the least-index rule) [ 25 ] works for all P-LCP

Un grand lion d'Afrique était amoureux D'une romantique gazelle aux yeux bleus Ce lion au coeur tendre, qui l'eut, qui l'eut dit Pleurait dans la lande, chantait dans la nuit Ma

Dans la suite de ce papier, nous appellerons Copivote (Classification de textes d'OPInion par un système de VOTE) le système de classification appliqué à