• Aucun résultat trouvé

1.3 La Recherche d’information socio-sémantique sturcturée

1.3.4 La recherche d’information socio-sémantique structurée arabe 30

La recherche d’information socio-sémantique se focalise principalement sur l’as-pect sémantique. La recherche d’information sur l’arabe ne diffère de la recherche d’information sur une autre langue que par la phase d’indexation et de prépara-tion de l’unité d’indexaprépara-tion. L’appariement se fait généralement entre un ensemble de concepts ou de thèmes des documents et des requêtes. Quant à l’indexation, la spécificité de la langue arabe doit tenir compte de sa morphologie pour extraire le bon terme représentatif. De ce fait, des approches ont été mises en oeuvre pour l’in-dexation dans la RI socio-sémantique arabe. En effet, Ataa Allah et al. [Ataa Allah

et al., 2006] ont étudié l’impact des connaissances linguistiques sur l’analyse

sé-mantique pour la recherche d’information dans un corpus spécialisé arabe. Ils ont essayé d’améliorer la recherche d’information arabe en utilisant des phrases

nomi-CHAPITRE 1. RECHERCHE D’INFORMATION ET LANGUE ARABE

nales dans le processus d’indexation. Néanmoins, cela n’a pas montré d’amélioration de la performance du SRI.

Des travaux récents dans la RI sémantique d’Al-Zoghby et al. [Al-Zoghby et

Shaalan, 2015] ont utilisé des représentations de documents par des concepts à

travers des ontologies. Ils ont indexé l’espace de concepts de mots et ont représenté un document par un modèle sémantique vectoriel des concepts de mots. Al-Zoghby et al. ont calculé une similarité sémantique entre la représentation vectorielle de la requête et celle du document. Ils ont expérimenté leur SRI en utilisant les documents de Wikipédia arabes.

Elabd et al. [Elabd et al., 2015] ont préparé les stems de chaque terme de la requête et du document en utilisant un light stemmer. Ils ont, également, représenté chaque mot du document par un index sous la forme [mot, concept de référence, DocID]. Les concepts de référence sont extraits à partir d’ontologies. L’appariement est donc effectué entre les concepts de référence des mots de la requête et ceux de documents. Elabd et al. ont créé des échantillons de trois ontologies arabes de trois domaines, à savoir la nature (

é ª J J. ¢ Ë@

; AlTbyEp), l’électronique (

HA J KðQºËB @

; Al<lktrwnyAt) et les sciences (

ÐñʪË@

; AlElwm).

Abderrahim et al. [Abderrahim et al., 2016] ont indexé un corpus de texte arabe en utilisant les concepts d’Arabic WordNet [Abouenour et al., 2013]. Une désambiguïsation morphologique des mots des requêtes et des documents a été réalisée et les résultats obtenus ont permis de déduire la contribution de cette désambiguïsation sur la RI pour les textes arabes.

Safi et al. [Safi et al., 2015] ont proposé le système AXON dédié pour la recherche d’information personnalisée. Dans ce contexte, ils ont présenté une méthode d’ex-pansion de requêtes en langue arabe qui exploite deux techniques : la première se base sur l’expansion de requêtes et utilise les ontologies dans le but d’enrichir les requêtes exprimées par l’utilisateur. La deuxième technique s’articule autour du profil utilisateur basé sur une représentation sémantique et multidimensionnelle dont l’objectif est d’adapter le processus de recherche aux besoins et intérêts de chaque utilisateur. Safi et al. [Safi et al., 2016] ont amélioré le système AXON par un système de recherche d’information social personnalisé appelé « PIRAT » basé principalement sur les préférences et les intérêts de l’utilisateur. Pour ce faire, ils ont proposé une modélisation de l’utilisateur et une méthode d’appariement

per-CHAPITRE 1. RECHERCHE D’INFORMATION ET LANGUE ARABE

sonnalisée. La modélisation de l’utilisateur est basée sur une représentation hybride de son profil. Dans cette approche, ils ont introduit un algorithme qui construit au-tomatiquement un profil de utilisateur hiérarchique qui représente ses intérêts et ses domaines personnels implicites. Pour l’évaluation, ils ont construit un corpus de textes arabes intitulé « WCAT ».

Soudani et al. [Soudani et al., 2016] ont présenté un système de recherche d’in-formation sémantique générique basé sur les contextes et les sens des termes des requêtes de l’utilisateur. Le processus de la désambiguïsation sémantique est effec-tué sur la base d’un algorithme de reconnaissance de sens. Différentes approches de recherche d’information sémantique sont expérimentées en s’appuyant sur la notion des espaces sémantiques [Jurgens et Stevens, 2010]. Ces espaces implémentent des algorithmes de RI basés sur des dictionnaires et des corpus. Les auteurs ont étudié et prouvé l’apport de l’analyse et la désambiguïsation morphologique arabe sur l’in-terprétation sémantique des requêtes. Ils ont utilisé les outils morphologiques (voir chapitre 2) MADAMIRA, Al-Stem-Darwish, Al-Stem-Alex, Khoja et le stemmer Al-Ghawanmeh [Yaseen et Hmeidi, 2014] afin d’extraire les stems ou les lemmes. La sémantique des mots arabes peut être extraite des dictionnaires ou des corpus qui sont analysés et pris en compte à l’aide des outils de TALN. Cela permet de modéliser les dépendances contextuelles entre les mots, qui aident à identifier le sens des requêtes dans le processus de recherche.

Discussion Les systèmes appliqués à la langue arabe pour la recherche

d’in-formation socio-sémantique structurée restent rares voire manquants. Au meilleur de notre connaissance, aucun SRI arabe rassemblant les aspects socio-sémantiques et structurés n’a été établi. La plupart des recherches ont été faites sur les sys-tèmes de recherche d’information sémantiques. Selon l’étude précédente, les SRI sémantiques suivent le même processus qu’un simple SRI. L’analyse et la désambi-guïsation morphologique arabe constituent une étape importante pour préparer les unités d’indexation qui sont, généralement, des concepts descriptifs des documents et des requêtes. Les SRI sémantiques ont recours à des collections définies pour le test et les corpus standards, pour la RI arabe, sont peu utilisés dans l’évaluation des résultats de ces SRI. Aucune collection n’est définie pour tester les systèmes de recherche d’information socio-sémantiques.

1.3.5 Synthèse

Selon l’état de l’art que nous avons effectué sur la recherche d’information socio-sémantique structurée, nous proposons et présentons, à travers la figure 1.3, un schéma représentatif du processus d’un SRI socio-sémantique structuré. En nous

CHAPITRE 1. RECHERCHE D’INFORMATION ET LANGUE ARABE

référant à la figure 1.1 page 9, nous identifions les particularités de ce type de système par rapport à un système classique de recherche d’information. Nous pou-vons proposer une structuration des documents qui composent le corpus au format XML. Nous enrichissons les documents structurés et les requêtes posées par des connaissances sociales et/ou sémantiques. Ces connaissances peuvent être ajou-tées manuellement ou inférées à partir des représentations formelles sous forme de taxonomies, d’ontologies ou des facettes (voir section 1.3.1). Nous pouvons extraire plusieurs documents XML selon les connaissances fournies. Chaque document peut, ainsi, appartenir à une catégorie particulière : facette, concept, thème, etc. Le pré-traitement est appliqué à la requête, d’une part, et d’autre part sur l’ensemble des documents XML résultants. L’indexation est basée sur les connaissances données ; un document peut-être présenté par sa catégorie, son concept, etc. L’indexation tient compte, aussi, des acteurs (auteurs ou utilisateurs) des documents. L’appa-riement entre document/requête peut-être catégorique ; nous faisons correspondre, en premier lieu, la requête aux documents ayant la même facette, concept, thème, etc. En second lieu, l’ensemble des documents résultants se réduit en appliquant une mesure de similarité utilisée dans la recherche d’information classique.

CHAPITRE 1. RECHERCHE D’INFORMATION ET LANGUE ARABE

Figure 1.3 – Le processus de recherche d’information socio-sémantique structurée

Conclusion

Ce chapitre nous a servi à présenter l’état de l’art du domaine de la recherche d’information qui est modélisé autour de deux concepts, à savoir l’indexation des documents et le formalisme de recherche. Nous avons défini les notions fondamen-tales de la discipline comme la pertinence des documents par rapport à une requête et l’évaluation des systèmes en se référant à des corpus standards et des métriques pour mesurer les performances d’une technique par rapport à une autre. Un sys-tème de recherche d’information socio-sémantique instaure les aspects sociaux et sémantiques dans les différentes étapes de recherche, à savoir l’indexation et l’ap-pariement. Nous avons présenté une étude sur l’indexation sociale et sémantique, l’appariement socio-sémantique et les différentes approches utilisées afin de mettre en place un SRI socio-sémantique. Nous avons montré l’importance du stemming et de la lemmatisation dans la phase d’indexation de textes arabes et que

l’ambi-CHAPITRE 1. RECHERCHE D’INFORMATION ET LANGUE ARABE

guité morphologique peut controuver le bon terme représentatif d’un document ou d’une requête. De ce fait, nous détaillerons, dans le prochain chapitre, les carac-téristiques morphologiques de l’arabe et les différentes approches d’analyse et de désambiguïsation morphologique.

Chapitre 2

Analyse et Désambiguïsation

Morphologique de textes Arabes

Sommaire

Introduction . . . . 36 2.1 L’analyse morphologique arabe . . . . 37

2.1.1 La morphologie arabe . . . 37 2.1.2 Les analyseurs morphologiques . . . 41

2.2 L’ambiguité morphologique . . . . 47

2.2.1 Les principales sources de l’ambiguité morphologique . . 47 2.2.2 Discussion . . . 49

2.3 La désambiguïsation morphologique . . . . 50

2.3.1 Les approches à base de règles . . . 51 2.3.2 Les approches statistiques . . . 51 2.3.3 Les approches hybrides . . . 53 2.3.4 Discussion . . . 54

Conclusion . . . . 55

Introduction

De nombreuses applications dans le domaine du traitement automatique de la langue arabe doivent faire face à la morphologie complexe de cette langue. L’analyse morphologique est une étape importante dans la reconnaissance automatique de la parole [Diehl et al., 2012, Kirchhoff et al., 2006], la phonétisation des textes arabes [El-Imam, 2004] et le résumé automatique [Azmi et Al-Thanyyan, 2012]. En outre, les applications de recherche d’information doivent indexer les documents et extraire des caractéristiques pertinentes de leurs entités significatives [Bounhas

CHAPITRE 2. ANALYSE ET DÉSAMBIGUÏSATION MORPHOLOGIQUE DE TEXTES ARABES

et al., 2011b]. En effet, les Systèmes de Recherche d’Information et d’Extraction des

Connaissances (SRIEC) exigent la reconnaissance des entités utiles dans les textes telles que les mots, les expressions et les concepts. Le niveau basique concerne la structure des mots ; en d’autres termes le niveau morphologique. En effet, un mot donné peut avoir plusieurs interprétations morphologiques, ce qui le rend ambigu. Pa exemple, le mot

É¿ @

peut-être interprété comme un nom qui signifie « la nour-riture » (

É¿

@

; >ak°luN ) et comme un verbe qui signifie « manger » (

É ¿

@

; >akala). Ce phénomène représente un défi pour les langues morphologiquement riches telles que l’arabe [Diab et al., 2004]. Ainsi, un mot arabe non voyellé peut avoir plus de 12 interprétations [Habash et Rambow, 2007, Habash et al., 2009b]. Nous présentons, dans ce chapitre, les spécificités de la langue arabe, les différentes ap-proches d’analyse morphologique et les sources d’ambiguité de cette langue, ainsi que les différentes approches existantes pour la désambiguïsation morphologique.