L’aspect socio-sémantique - La Recherche d’information socio-sémantique sturcturée

1.3 La Recherche d’information socio-sémantique sturcturée

1.3.1 L’aspect socio-sémantique

1.3.3 L’aspect structuré . . . 30 1.3.4 La recherche d’information socio-sémantique structurée

arabe . . . 30 1.3.5 Synthèse . . . 32

Conclusion . . . . 34

Intoduction

La recherche d’information (RI) est un domaine qui vise à automatiser le pro-cessus de recherche de documents par l’intervention des utilisateurs en exprimant

CHAPITRE 1. RECHERCHE D’INFORMATION ET LANGUE ARABE

leurs besoins à travers des requêtes en langage naturel. La recherche d’information en langue arabe combine la RI aux complexités linguistiques, morphologiques, syn-taxiques et sémantiques de la langue arabe. Pour ce faire, il est crucial de présenter les différentes étapes nécessaires de la littérature qui permettent d’instaurer un SRI arabe.

De cet effet, dans ce chapitre nous commençons, dans la section 1.1, par pré-senter les concepts de base de la recherche d’information. Dans la section 1.2, nous enchaînons par une description des différentes phases de la recherche d’information en mettant l’accent sur la langue arabe. Dans la dernière section 1.3, nous effec-tuons une étude comparative des approches recensées dans la littérature afin de développer un système de recherche d’information (SRI) socio-sémantique structu-rée.

1.1 Concepts de base de la Recherche

d’Informa-tion

Un SRI implique principalement trois notions indispensables qui sont (i) la requête à travers laquelle l’utilisateur exprime son besoin d’information, (ii) les do-cuments qui peuvent être textuels ou multimédias et (iii) la pertinence1 qui traduit le but de la RI. Un bon SRI doit trouver et associer à une requête seulement les do-cuments pertinents. Dans un document pertinent, l’utilisateur doit pouvoir trouver les informations dont il a besoin. C’est selon ce critère de pertinence que le système doit juger si un document doit être retourné à l’utilisateur comme réponse [Elayeb,

2009].

Des représentations et des informations nécessaires doivent être fournies pour bien exploiter un document pour la RI. La recherche textuelle dans un document se fait selon plusieurs axes en tenant compte de :

– sa structure physique : la mise en forme d’un document texte (entêtes, para-graphes et sous-parapara-graphes) ;

– sa structure logique : la vue logique qui porte sur les informations de la struc-ture (chapitres, sections et sous-sections) ;

– son contenu : les mots qui composent le document (leur morphologie2, leur syntaxe3 et leur sémantique4).

1. La pertinence est considérée comme l’adéquation d’un document ou d’un objet information-nel à la demande d’un individu donné [Simonnot, 2008]

2. La morphologie est la branche de la linguistique qui étudie les types et la forme des mots en interne ou en externe (www.larousse.fr).

3. La syntaxe est la partie de la grammaire qui décrit les règles par lesquelles les unités lin-guistiques se combinent en phrases (www.larousse.fr).

CHAPITRE 1. RECHERCHE D’INFORMATION ET LANGUE ARABE

La majorité des SRI se focalisent et s’intéressent au contenu du document. Les utilisateurs forment leurs requêtes en mettant comme objectif le contenu textuel des documents [Chen et Gey, 2001].

Le besoin de l’utilisateur se traduit par une requête composée de plusieurs mots clés qui peuvent être séparés par des opérateurs logiques et/ou des expressions sémantiques comme « plus proche », « comporte » et « sauf ». Les requêtes, sont classées, généralement en trois types :

– requête basique : composée d’une succession des mots clés qui ciblent les in-formations textuelles des documents. Ce type est le plus utilisé dans la RI traditionnelle ;

– requête booléenne : composée de plusieurs opérateurs logiques (et, ou, non) reliant les mots clés ;

– requête structurée : comprend les informations sur la structure des documents (chapitre, section, sous-section).

La correspondance entre un document et une requête traduit son degré de perti-nence qui représente une mesure de similarité entre ces deux éléments. Des travaux de recherche [Jones et Willett, 1997] mettent l’accent sur la difficulté de la défini-tion de la pertinence et décèlent deux types de pertinence, à savoir la pertinence du système et la pertinence de l’utilisateur. La pertinence du système est déterminée par les modèles existants de la recherche d’information. Elle est interprétée par un score estimant la conformité du contenu des documents par rapport à la requête. Quant à la pertinence de l’utilisateur, elle est liée à la perception de l’utilisateur sur l’information fournie par le système. Elle est subjective puisque deux utilisateurs peuvent juger différemment un même document renvoyé pour une même requête.

Un SRI utilise un corpus documentaire et suit plusieurs étapes qui permettent d’aboutir à un résultat répondant au besoin de l’utilisateur. Ces étapes sont : l’ana-lyse et l’indexation, la modélisation de la requête et des documents, l’appariement entre les deux modèles (celui de la requête et celui du document) et l’évaluation de la pertinence. L’architecture générale d’un SRI est décrite par la figure 1.1.

Un SRI suit un processus pour assurer la correspondance des données d’une requête avec un fonds documentaire appelé corpus. Un corpus est un ensemble de documents ou de bases de données décrites par des métadonnées et peuvent être structurées ou non. En entrée, un SRI requiert une requête traduisant le besoin en information d’un utilisateur. Un travail préliminaire doit être fait sur le coprus pour assurer un résultat fiable et optimiser le temps d’exécution. Cette phase consiste à analyser chaque document du corpus et créer un index sous forme d’une liste de mots-clés associée (plus de détails sont donnés à la section 1.1.1). Son rôle est de fournir une présentation intégrale du contenu du document.

CHAPITRE 1. RECHERCHE D’INFORMATION ET LANGUE ARABE

Figure 1.1 – L’architecture type d’un système de recherche d’information

Un autre traitement consiste à éliminer les mots vides qui n’ont aucun effet sur la procédure de recherche. Les termes restants seront, par la suite, racinisés, lemmatisés ou stemmés5 pour qu’ils soient pondérés. Finalement, l’ensemble des indexes est associé à chaque document. Ces indexes possèdent le maximum des poids de pondération. Les mêmes traitements sont appliqués aux requêtes formulées par l’utilisateur. Des modèles représentant les documents et les requêtes sont ainsi construits pour représenter leurs contenus.

Le calcul de la pertinence d’un document par rapport à une requête se fait moyennant une fonction d’appariement qui détermine le degré de ressemblance d’un document à une requête. L’appariement permet de classer les documents par ordre de pertinence. Cette fonction associe à une requête r un, ou plusieurs, do-cument(s) d de la collection, ou le corpus de référence. La fonction d’appariement est indépendante de l’indexation et de la pondération des termes. Par contre, elle

5. La racinisation, la lemmatisation et le stemming servent à déterminer les unités de sens telles que les racines ou les radicaux (plus de détails sont donnés à la section 1.2.1.3).

CHAPITRE 1. RECHERCHE D’INFORMATION ET LANGUE ARABE

caractérise le SRI plus que le modèle d’indexation. La plupart des modèles de re-cherche inspirent leurs noms à partir de cette fonction. Des détails sur la phase d’appariement sont présentés à la section 1.1.2.

1.1.1 L’indexation

La représentation des documents est réalisée à travers le processus d’indexation. Son objectif est de trouver les concepts les plus importants dans le document et de créer une représentation interne en utilisant ces concepts. L’utilisateur final du SRI n’est pas directement impliqué. Le processus d’indexation peut comprendre le stockage intégral du document dans le système, mais souvent les documents sont stockés partiellement. Par exemple, seulement le titre et le résumé en plus des informations sur l’emplacement réel du document sont enregistrés. Les documents impliqués dans le processus de recherche d’information doivent être normalisés et suivre la même forme morphologique. De ce fait, les mots sont stemmés moyennant les outils de stemming avant de passer à l’étape d’indexation. A chaque terme dans le document est associée une mesure de pondération pour classer les termes représentant ce document.

La pondération des termes Elle constitue un élément essentiel de tout

sys-tème de RI et a le potentiel d’améliorer l’efficacité de la recherche d’une manière significative [Salton et Buckley, 1988]. L’indexation attribue un ensemble de termes pour représenter le contenu de chaque document ou requête dans une collection. Dans la plupart des SRI, chaque mot dans le texte (sauf ceux qui sont inscrits dans la liste de mots vides) est utilisé comme un terme de l’index. Pour indiquer les valeurs relatives des termes afin de décrire un document, un poids peut être affecté à chaque mot dans le document lors de l’indexation [Korfhage, 1997].

La mesure de pondération TF*IDF6 a prouvé son efficacité sur une large gamme des systèmes de RI et de collections de documents avec des propriétés différentes. L’efficacité de cette mesure à long terme est due au fait qu’elle comporte plus qu’un facteur à partir du document pour calculer le poids final de chaque terme.

TF*IDF L’utilisation de la mesure TF*IDF et ses variations dans la RI a

conduit à une amélioration substantielle de la performance par rapport aux tech-niques correspondantes aux termes simples. Plusieurs études [Tomlinson, 2002] ont montré l’efficacité de calculer les pondérations des termes et leurs fréquences dans les documents ayant des propriétés différentes telles que la taille.

CHAPITRE 1. RECHERCHE D’INFORMATION ET LANGUE ARABE

Dans la recherche d’information en langue arabe, le schéma de pondération de TF*IDF a été utilisé avec succès dans plusieurs études [Tomlinson, 2002,

Chowd-hury et al., 2002].

Le poids d’un terme ti pour un document dj est calculé comme suit. Nous commençons par calculer la fréquence de tidans dj en utilisant la formule suivante :

T F_ij = Occ(ti, d_i)/|dj| (1.1)

Dans cette formule Occ(ti, di) est le nombre d’occurrences de ti dans dj. Il est divisé par la somme des nombres d’occurrence de tous les termes dans le document ou encore le nombre de mots total dans le document dj. Ces fréquences sont souvent normalisées, en divisant par le maximum, pour tenir compte de la différence de longueur entre les documents. Le terme ti est pondéré en utilisant TF-IDF comme suit : le poids de ti pour le document dj est égal au produit de sa fréquence T Fij et IDFi; IDFi dénote la fréquence inverse de document et est donnée par :

IDFi = log ^|D|

|{d: ti ∈ d}| (1.2)

Où |D| est le nombre de documents dans le corpus et |{d : ti ∈ d}|est le nombre de documents qui contiennent ti.

1.1.2 L’appariement

Dans cette phase, il s’agit de mettre en correspondance ou d’apparier les deux représentations : celle de la requête et celle du document. La comparaison des deux représentations permet de calculer un score de ressemblance qui traduit la pertinence du document par rapport à la requête. Les documents sont classés par ordre de pertinence décroissant et retournés à l’utilisateur.

Avec l’évolution des SRI, plusieurs modèles d’appariement sont apparus : – Le modèle booléen [Salton et al., 1983] où les documents et les requêtes sont

représentés à l’aide de formules logiques. Pour apparier une requête q à un document d, il suffit de vérifier que l’implication suivante est valide : d V q. Le résultat est donc toujours booléen.

– Le modèle « matching score » [Salton et al., 1983] : dans ce modèle, le degré de correspondance est la somme des fréquences des termes de la requête dans le document.

– Le modèle vectoriel [Salton, 1971] qui constitue une alternative au modèle booléen où les requêtes et les documents sont représentés à l’aide de vecteurs qui contiennent les poids des termes. La distance entre le vecteur du document

CHAPITRE 1. RECHERCHE D’INFORMATION ET LANGUE ARABE

et celui de la requête peut être calculée en utilisant plusieurs types de mesures telles que le produit scalaire ou la mesure du cosinus.

– Le modèle probabiliste [Fuhr, 1992] se base sur l’hypothèse suivante : le résul-tat idéal d’une requête est constitué des documents qui peuvent être carac-térisés par un sous-ensemble des termes d’indexation. L’appariement proba-biliste permet de trier les documents en fonction de la présence ou l’absence des termes appartenant à ce sous-ensemble. Les systèmes utilisent le modèle probabiliste pour estimer la probabilité que l’utilisateur trouve les documents pertinents à sa requête. Le modèle probabiliste s’est avérée relativement effi-cace au fil des années [Sparck Jones, 2000]. Le système de recherche d’infor-mation Okapi BM25 a été mis en œuvre et a été testé sur diverses collections, en particulier les collections de TREC7. La mesure probabiliste BM258 a été utilisée pour différentes langues et a surperformé un certain nombre de modèles vectoriels appliqués sur le français, l’allemand, l’espagnol et l’italien

[Savoy et Rasolofo, 2003]. Elle est donnée par :

BM25 = w(d, Q) = Xⁿ

i=1

IDF(qi) ∗ ^f^(qi, d) ∗ (k1+ 1) f(qi, d) + k1∗(1 − b + b ∗ |d|

avgdl) ^(1.3) Avec Q est la requête contenant n termes (q1, ..., qn), d est le document, f(qi,d) étant la fréquence qi dans le document d. |d| désigne le nombre de termes dans le document d et avgdl dénote la longueur moyenne des documents. k1 et b sont des constantes à déterminer empiriquement et dépendent de la nature des requêtes et de la collection de documents. Elles sont, généralement, fixées aux valeurs respectives 1,2 et 0,75 [Robertson et al., 1999]. Le cadre général du modèle probabiliste, y compris BM25, a été utilisé à plusieurs reprises dans la recherche d’information en langue arabe, avec de bons résultats [Darwish

et Oard, 2002a, Aljlayl et al., 2001]. Il convient de noter que ces études ont

utilisé la fonction de pondération sur l’hypothèse qu’il serait autant efficace avec l’arabe comme elle l’avait été avec l’anglais puisque c’est une méthode statistique.

– Le modèle possibiliste basé sur la théorie des possibilités [Dubois et Prade, 1998] et a été introduit par Brini [Brini et al., 2004] et développé et étendu par Elayeb [Elayeb, 2009]. Le modèle possibiliste affecte, à chaque terme d’in-dexation, deux valeurs à savoir la nécessité et la possibilité (voir chapitre 4) qui traduisent respectivement la certitude et la possibilité qu’un terme d’in-dexation soit adéquat. La spécificité de ce modèle réside dans sa prise en compte explicite de l’absence des termes de la requête dans le document lors

7. http://trec.nist.gov/

8. BM25 a été implémentée, la première fois, entre les années 1980 et 1990 dans le système d’information Okapi de l’Université de Londres.

CHAPITRE 1. RECHERCHE D’INFORMATION ET LANGUE ARABE

de l’évaluation de la pertinence de ce document vis-à-vis de la requête [Elayeb,

2009].

– Le modèle de recherche d’information sociale [Bouhini et al., 2014] où le contexte social de l’utilisateur est intégré dans l’appariement. Il est appli-qué, généralement, sur des données provenant des réseaux sociaux. Bouhini et al. ont défini trois modèles inspirés de BM25. Le premier appelé BM25S utilise le profil social de l’utilisateur à la place de la requête. Le deuxième modèle appelé BM25SF reqComb permet de compléter la requête initiale de l’utilisateur en la combinant, au niveau des fréquences de termes, au profil de l’utilisateur. Le troisième modèle appelé BM25SScoreComb combine un score thématique classique des documents pour la requête de l’utilisateur avec un score social des documents pour le profil social de l’utilisateur.

– Le modèle d’appariement basé sur les réseaux de neurones [Severyn et

Mo-schitti, 2015, Huang et al., 2013, Nguyen et al., 2017] où les représentations

des documents et des requêtes, ainsi que leur appariement sont obtenus à l’aide d’un réseau de neurones. Huang et al.[Huang et al., 2013] appliquent un réseau de neurones profond sur la représentation d’un document et d’une requête obtenues par une méthode de hâchage de mots qui permet d’ap-prendre leurs représentations latentes à partir de leur valeur de pertinence. Une extension de ce modèle a été proposée par Severyn et Moschitti [

Seve-ryn et Moschitti, 2015] qui utilisent une couche de convolution au niveau de

la couche d’entrée pour apprendre la représentation optimale des paires de textes à travers une fonction de similarité. Nguyen et al. [Nguyen et al., 2017] proposent une méthode de hâchage de relations basée sur l’hypothèse que des documents similaires comportent des concepts similaires et/ou reliés. Les représentations latentes des documents et des requêtes et leur appariement sont réalisés à l’aide d’un réseau de neurones.

1.1.3 L’évaluation

La performance d’un SRI est mesurée en comparant les résultats retournés, suite à une requête, à ceux qui correspondent réellement à cette requête ou ceux escomptés par l’utilisateur. Pour arriver à évaluer les résultats obtenus, nous devons connaître, d’abord, les réponses idéales que le système est censé retourner.

L’évaluation d’un système se fait, généralement, en ayant recours à des collec-tions, ou encore des corpus, standards de test. Ces corpus incluent un ensemble de documents, un ensemble de requêtes et la liste de documents pertinents et non pertinents pour chaque requête. Pour qu’un corpus de test soit retenu, il faut qu’il possède un nombre de documents élevé. Les corpus de test les plus utilisés sont ceux de TREC. Ils contiennent plus de 100 000 documents. Les corpus de grande

CHAPITRE 1. RECHERCHE D’INFORMATION ET LANGUE ARABE

taille peuvent contenir des millions de documents.

La figure 1.2 décrit le processus général de l’évaluation des résultats de la re-cherche d’un SRI en se référant à un corpus standard. Les meilleurs SRI sont ceux qui sont les plus rapides et qui consomment le moins d’espace mémoire. L’éva-luation d’un SRI est mesurée indépendamment de la méthode d’indexation ou du modèle d’appariement. Ces techniques se basent, principalement, sur l’estimation de la qualité des informations retrouvées par le SRI.

Figure 1.2 – Utilisation des corpus standards pour l’évaluation d’un SRI

Plusieurs mesures d’évaluation sont utilisées. Les principaux facteurs sont le rappel, la précision et la F-mesure [Rijsbergen, 1979].

Le rappel est défini par le pourcentage de documents pertinents retrouvés par rapport aux documents pertinents dans la collection de test :

Rappel = ^{nombre de documents pertinents retrouv}^´es

nombre de documents pertinents dans la collection de test (1.4) Ainsi, si le taux de rappel est élevé (proche de 1), on peut assurer la conformité du système de recherche d’information au standard de test et le considérer comme un système performant. Inversement, on parle de silence lorsque le système possède

CHAPITRE 1. RECHERCHE D’INFORMATION ET LANGUE ARABE

de nombreux documents pertinents non retournés. Ainsi :

Silence = 1 − Rappel (1.5)

La précision évalue le pourcentage de documents pertinents retrouvés par rap-port à tous les documents retournés par le système :

P r´ecision = ^{nombre de documents pertinents retrouv}^´es

nombre de documents retrouv´es ^(1.6) A l’inverse, le bruit présente la proportion de documents retournés non perti-nents :

Bruit= 1 − P r´ecision (1.7) La moyenne, des précisions données par toutes les requêtes, est définie par la mesure MAP9. Elle est donnée par :

M AP = P|Q| j=1_|rel¹_j_| PNj r=1P(r) ∗ isRel(r) |Q| (1.8) Avec :

P(r) = ^{N ombre de documents pertinents trouv}^{´es au rang r ou moins}

r (1.9)

|Q| est le nombre total de requêtes, |relj|est le nombre de documents pertinents pour la requête j dans toute la collection, Nj est le nombre de documents retournés par la requête j et isRel(r) est la fonction binaire qui est égale à 1 si le résultat au rang r est un document pertinent et 0 sinon.

La mesure R-precision correspond à la précision exacte. Elle est donnée par : R − precision=

P|Q|

j=1P r´ecision({Dkj})

|Q| (1.10)

Avec P r´ecision({Dkj}) correspond à la précision des k premiers résultats de la requête j.

La F-mesure combine les métriques de rappel et de précision pour donner une valeur globale de la performance d’un SRI. Elle est calculée comme suit :

CHAPITRE 1. RECHERCHE D’INFORMATION ET LANGUE ARABE

F − mesure= ^{(1 + β}²^{) ∗ P r´ecision ∗ Rappel}

β2∗ P r´ecision + Rappel ^(1.11) Le facteur β est introduit pour pondérer les mesures de rappel et de précision. On fixe sa valeur à 1 pour associer le même poids aux deux métriques.

1.1.4 Discussion

Tout système de recherche d’information passe à sa phase de construction par un processus contenant les étapes de prétraitement, d’indexation et d’appariement qui peuvent dépendre de la langue. A sa phase de validation, nous devons avoir recours à une collection de test contenant des documents spécifiques à la langue utilisée pour ce SRI.

L’objectif de l’utilisateur d’un SRI est d’aboutir à l’acquisition des informations contenues dans des documents pertinents. La qualité de la réponse de n’importe quel SRI, à un besoin exprimé dans les informations d’une requête dans une langue particulière, est généralement liée à son efficacité. L’efficacité d’un SRI dépend de

Dans le document Désambiguïsation Morphologique de Textes Arabes à Base de Classification Possibiliste pour la Recherche d'Information Socio-Sémantique (Page 24-48)