Modèle conceptuel du système SARIPOD - : Modèle d’un SRI à base de Réseaux Petits Mondes Hiérar

Chapitre 4 : Modèle d’un SRI à base de Réseaux Petits Mondes Hiérarchiques et de

1. Modèle conceptuel du système SARIPOD

D’après l’étude effectuée dans le premier chapitre de l’état de l’art, nous avons pu distinguer les acteurs d’un SRI qui sont principalement l’utilisateur et le document. Autour de ces deux acteurs, différents types de connaissances peuvent être construites pour munir un SRI d’une base de connaissances lui permettant de bien agir pour arriver à satisfaire au mieux le besoin d’information de l’utilisateur. Ces connaissances peuvent être classées suivant qu’elles soient liées à l’utilisateur ou aux documents selon ces quatre classes :

- Des connaissances relatives à l’utilisateur ;

- Des connaissances relatives au besoin d’information de l’utilisateur ; - Des connaissances relatives aux documents ;

- Des connaissances relatives aux concepts du domaine.

Les connaissances relatives à l’utilisateur peuvent être liées à une étape d’une session de recherche, à une ou plusieurs sessions. Il est donc possible de les définir selon trois classes :

- Les connaissances à court terme sont relatives à une étape d’une session de recherche ou à l’ensemble de la session de recherche. Elles sont déterminées en synthétisant le besoin de l’utilisateur ainsi qu’en le corrigeant d’une manière incrémentale ;

- Les connaissances à moyen terme sont basées sur la prise en compte du comportement de l’utilisateur lié à l’analyse de ses requêtes et de ses décisions vis-à-vis des documents fournis par le système. Cette forme de connaissance n’est pas couramment utilisée dans les SRI étant donné que le profil de l’utilisateur est souvent prédéfini avant la recherche ;

- Les connaissances à long terme sont soit relatives aux préférences des utilisateurs, soit issues d’une manière générale des classifications des documents ainsi que la correction incrémentale de l’indexation des documents qui permettent de produire des connaissances stables du contenu d’un fonds documentaire.

Par ailleurs, ces trois types de connaissances sont liés. En effet, les connaissances à court terme interviennent dans l’élaboration des connaissances à moyen et à longs termes.

Nous avons pu également étudier les différentes opérations concernées par un SRI qui sont principalement :

- La phase de représentation ou modélisation de l’utilisateur et de la requête ;

- La phase d’analyse qui permet d’aboutir à une représentation ou modélisation des documents ;

- La phase de mise en correspondance ou d’appariement ; - La phase d’évaluation.

Outre ces opérations élémentaires et nécessaires, l’idée motrice du modèle est d’intégrer dans la stratégie de recherche d’un SRI des composantes classificatoires pour les documents et d’autres composantes classificatoires pour les requêtes. En effet, dans le système que nous proposons, une phase de reformulation sémantique de la requête est introduite et qui permet à l’utilisateur d’ajouter des termes sémantiquement proches à ses termes proposés au départ. D’autre part, les documents réponses à cette requête reformulée peuvent subir une classification thématique permettant de réajuster le résultat d’une requête en fonction du contenu du fonds documentaire.

L’objectif de diviser le processus de recherche en deux modèles (de requêtes et de documents) est d’offrir à l’utilisateur plusieurs alternatives de recherche qui ne peuvent que l’assister et enrichir son niveau par rapport à l’ensemble de connaissances gérées dans un SRI tout en cernant ses propres besoins.

La mise en correspondance entre le modèle de requête et le modèle de document est assurée par un réseau possibiliste. En effet, ce modèle présente une nouvelle approche possibiliste pour un système de Recherche d’Information. Ce système, qui voit la Recherche d’Information comme un problème de diagnostic, traduit à l’aide de réseaux possibilistes naïfs des relations de dépendance entre les documents et les termes de la requête. Ces relations sont quantifiables par deux mesures : la possibilité et la nécessité de pertinence. La mesure de possibilité est utile pour filtrer les documents et la mesure de nécessité pour renforcer la pertinence des documents restants. Le processus de recherche restitue les documents plausiblement ou nécessairement pertinents à un utilisateur. De plus, si l’approche de base tient compte ici de l’aspect quantitatif et ne tient pas compte de la dépendance entre les termes de la requête, notre système permet de l’étendre au cadre qualitatif possibiliste, en introduisant des préférences (pondérations) entre les termes de la requête.

Ainsi, l’architecture globale du système SARIPOD est illustrée par la figure 4.1.

Figure 4.1 : Modèle conceptuel du système SARIPOD

... R RR R = {T1, T2, …, Tn} Ressources Graphe du Web Besoins en information utilisateur D DD D = {D1, D2, …Dn} Petits Mondes 1 de documents Petits Mondes n de documents ... Requête RRRR Préfs. PPPP Reformulation de la Requête

RPMH de dictionnaire _PossibilisteRéseau RPMH de pages Web

Documents retournés Petits Mondes 1 de termes Petits Mondes m de termes

En fait, nous distinguons deux usages très importants de ces deux RPMH (de dictionnaire et de pages Web) ainsi que leur combinaison dans le système SARIPOD [Elayeb et al., 2007a] : Le premier RPMH est celui qui consiste à structurer les pages Web réponses à une requête en zones denses de pages Web thématiquement liées les unes aux autres. On fait ainsi apparaître des nuages denses de pages qui traitent d’un sujet et des sujets connexes (assez similaires sémantiquement) et qui répondent toutes fortement à une requête. Pour un autre nuage de pages Web fortement liées les unes aux autres il en va de même, elles répondent toutes à cette même requête. La différence essentielle est que chaque nuage de pages Web répond fortement d'une manière particulière à la requête.

Par exemple, la requête "vérifier", dans le RPMH des synonymes des mots du français, donne quatre nuages de verbes proches de vérifier : le premier nuage concerne A = {examiner, voir, éprouver, reconnaître,....}, le deuxième B = {essayer, contrôler, expérimenter, s’assurer,....} etc. pour les deux autres. Pour le Web il en va de même une requête (exprimée avec quelques mots-clés) renvoie un ensemble de pages Web (réponses à la Google, par exemple) qu'il faut organiser en RPMH de sorte à faire apparaître quelques grands nuages de pages Web parmi toutes ces réponses. Chaque nuage regroupe ainsi un lot de pages qui répondent toutes de façon pertinente et d'une certaine façon à la requête. Autrement dit, le premier nuage A répond pertinemment à la requête "vérifier" d'une certaine façon (celle qui s'intéresse à l’"examen"), alors que le second nuage B répond aussi pertinemment à la même requête "vérifier" mais cette fois d’une façon différente (celle qui s'intéresse au "contôle"), etc. Pour le Web chaque nuage de pages Web sera pertinent et, grâce à des mots-clés supplémentaires, il sera possible de sélectionner un nuage particulier ou une partie de ce nuage.

La qualité réside dans le fait que quand on regarde les pages Web d'un même nuage, toutes les pages sont pertinentes, mais si ce degré n'est pas encore suffisant, on peut faire des requêtes dans ce seul nuage (contrairement à Google, par exemple, qui n'organise jamais ses 300.000 réponses en nuages) pour obtenir un sous-ensemble de pages Web que l'on peut de nouveau (donc récursivement) organiser en sous-RPMHs et ainsi de suite. Au plus profond de cette entreprise de structuration on trouve des pages Web seules. L'ensemble des réponses a donc été organisé en RPMH et sous-RPMH de sorte à constituer une structure de classification des pages Web en fonction des mots-clés utilisés. Ce que ne fait pas Google qui sait seulement faire des recherches dans l'ensemble des réponses précédentes. En fait, Google est capable de renvoyer, suite à une sous-requête, des pages que notre système a mis dans des nuages différents (classes des thèmes) lors de la première requête.

Le deuxième usage très important des RPMH est celui qui consiste à ne pas prendre les mots- clés tels qu’ils sont mais à considérer une requête comme multiple en ce sens qu'on ne recherche pas seulement les mots-clés dans les pages Web mais aussi les substantifs qui lui sont sémantiquement "proches". Proche au sens du calcul de la proxémie définie par notre approche basée sur l’étude des circuits dans un RPMH de dictionnaire (détaillée dans la section 1.2). Les mots considérés comme proches incluent donc les synonymes de ce mot mais ne s'y restreignent pas (voir figure 4.2). On aura potentiellement (en pratique cela sera limité par une borne) tous les mots plus ou moins proches du mot de la requête. Ce nombre de mots est paramétrable (1, 5, 100, ...). Une requête est donc maintenant très flexible puisqu'elle tolère qu'une page Web soit une bonne réponse même si elle ne contient pas (à strictement parler) le mot-clé en question.

Figure 4.2 : Similarité sémantique entre les verbes

Or pour pouvoir disposer de cette flexibilité nous avons évidemment besoin d'un dictionnaire et surtout d'avoir structuré ce dictionnaire (l'ensemble des entrées de celui-ci) en RPMH justement pour savoir quel mot est proche de quel autre. Or il y a de nombreuses façons de faire émerger une structure de RPMH à partir d'un dictionnaire, celle de [Gaume et al., 2004]16 par exemple consiste à se servir des définitions : le mot M1 est relié au mot M2 si et

seulement si M2 appartient à la définition de M1, à l'aide de cette définition de la relation entre

deux mots il en déduit par proxémie la "proximité sémantique" de tout mot à tout autre. Le système SARIPOD reprend cette définition et s'appuie sur cette proxémie entre les mots pour rendre les requêtes plus flexibles. On peut à partir de là quantifier les pages Web obtenues suite à une requête utilisant certains mots-clés. Chaque page réponse sera caractérisée par un degré d'adéquation ou de pertinence qui résultera de la combinaison des degrés de proxémie aux mots-clés de la requête des mots effectivement présents dans cette page [Elayeb et al., 2007d].

Nous détaillons dans la suite les différentes étapes que nous proposons pour la modélisation de requêtes et de documents ainsi que les choix des méthodes de classification introduites. En fait, nous présentons une approche générique de recherche de composantes de sens dans un réseau d’information. Cette approche est valable dans le cas de mots d’un dictionnaire (RPMH de dictionnaire) ainsi que dans le cas de pages Web (RPMH de pages Web).

Dans le document SARIPOD : Système multi-Agent de Recherche Intelligente POssibiliste de Documents Web (Page 98-101)